Un Modelo de Marco de Eventos de Opinión Pública sobre el Potencial de Minería Relacionados con Problemas Sospechosos de Integridad en la Investigación utilizando el modelo de Red Neuronal Convolucional de Texto y un Extractor de Eventos Mixto
Autores: Zou, Zongfeng; Ji, Xiaochen; Li, Yingying
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un Modelo de Marco de Eventos de Opinión Pública sobre el Potencial de Minería Relacionados con Problemas Sospechosos de Integridad en la Investigación utilizando el modelo de Red Neuronal Convolucional de Texto y un Extractor de Eventos Mixto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desarrollo
Internet
Integridad en la investigación
SMOTE
TextCNN
Extracción de eventos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el desarrollo de Internet, la supervisión de los problemas de integridad en la investigación se ha extendido más allá de la comunidad científica para abarcar a toda la sociedad. Si estos problemas no se abordan de manera oportuna, pueden afectar significativamente la credibilidad de la investigación tanto de las instituciones como de los académicos. Este artículo propone una red neuronal convolucional de texto basada en SMOTE para identificar textos cortos de eventos de opinión pública potenciales relacionados con problemas sospechosos de integridad científica a partir de textos cortos comunes. Se emplea la técnica de muestreo integral SMOTE para manejar conjuntos de datos desbalanceados. Para mitigar el impacto de la longitud del texto corto en la calidad de la representación del texto, se utiliza el modelo de incrustación Doc2vec para representar el texto corto, lo que produce un vector denso unidimensional. Además, se ajustan las dimensiones de la capa de entrada y del núcleo de convolución de TextCNN. Posteriormente, se propone un modelo de extracción de eventos de texto corto basado en TF-IDF y TextRank para extraer información crucial, por ejemplo, nombres e instituciones relacionadas con la investigación, de los eventos y facilitar la identificación de eventos de opinión pública potenciales relacionados con problemas sospechosos de integridad científica. Los resultados de los experimentos han demostrado que utilizar SMOTE para equilibrar el conjunto de datos puede mejorar los resultados de clasificación de los clasificadores TextCNN. En comparación con los clasificadores tradicionales, TextCNN exhibe una mayor robustez para abordar los problemas de conjuntos de datos desbalanceados. Sin embargo, desafíos como el bajo contenido informativo, la escritura no estándar y la polisemia en los textos cortos pueden afectar la precisión de la extracción de eventos. El marco puede ser optimizado aún más para abordar estos problemas en el futuro.
Descripción
Con el desarrollo de Internet, la supervisión de los problemas de integridad en la investigación se ha extendido más allá de la comunidad científica para abarcar a toda la sociedad. Si estos problemas no se abordan de manera oportuna, pueden afectar significativamente la credibilidad de la investigación tanto de las instituciones como de los académicos. Este artículo propone una red neuronal convolucional de texto basada en SMOTE para identificar textos cortos de eventos de opinión pública potenciales relacionados con problemas sospechosos de integridad científica a partir de textos cortos comunes. Se emplea la técnica de muestreo integral SMOTE para manejar conjuntos de datos desbalanceados. Para mitigar el impacto de la longitud del texto corto en la calidad de la representación del texto, se utiliza el modelo de incrustación Doc2vec para representar el texto corto, lo que produce un vector denso unidimensional. Además, se ajustan las dimensiones de la capa de entrada y del núcleo de convolución de TextCNN. Posteriormente, se propone un modelo de extracción de eventos de texto corto basado en TF-IDF y TextRank para extraer información crucial, por ejemplo, nombres e instituciones relacionadas con la investigación, de los eventos y facilitar la identificación de eventos de opinión pública potenciales relacionados con problemas sospechosos de integridad científica. Los resultados de los experimentos han demostrado que utilizar SMOTE para equilibrar el conjunto de datos puede mejorar los resultados de clasificación de los clasificadores TextCNN. En comparación con los clasificadores tradicionales, TextCNN exhibe una mayor robustez para abordar los problemas de conjuntos de datos desbalanceados. Sin embargo, desafíos como el bajo contenido informativo, la escritura no estándar y la polisemia en los textos cortos pueden afectar la precisión de la extracción de eventos. El marco puede ser optimizado aún más para abordar estos problemas en el futuro.