Experimentos y revisión de detección de paráfrasis basada en corpus
Autores: Vrbanec, Tedo; Metrovi, Ana
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Experimentos y revisión de detección de paráfrasis basada en corpus
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de paráfrasis
Aplicaciones
Modelos de aprendizaje profundo
Modelos basados en corpus
Evaluación
Preprocesamiento de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de paráfrasis es importante para una serie de aplicaciones, incluyendo la detección de plagio, la atribución de autoría, la respuesta a preguntas, la resumición de textos, la minería de textos en general, etc. En este artículo, ofrecemos una visión general del rendimiento de varios tipos de modelos basados en corpus, especialmente modelos de aprendizaje profundo (DL), con la tarea de detección de paráfrasis. Informamos los resultados de ocho modelos (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO y USE) evaluados en tres corpus públicos diferentes: el Corpus de Paráfrasis de Microsoft Research, Clough y Stevenson y el Corpus de Paráfrasis de Webis Crowd 2011. A través de un gran número de experimentos, decidimos sobre los enfoques más apropiados para el preprocesamiento de textos: hiperparámetros, selección de submodelos, donde existan (por ejemplo, Skipgram vs. CBOW), medidas de distancia y umbral de similitud semántica/detección de paráfrasis. Nuestros hallazgos y los de otros investigadores que han utilizado modelos de aprendizaje profundo muestran que los modelos DL son muy competitivos con los enfoques tradicionales de vanguardia y tienen un potencial que debería desarrollarse más.
Descripción
La detección de paráfrasis es importante para una serie de aplicaciones, incluyendo la detección de plagio, la atribución de autoría, la respuesta a preguntas, la resumición de textos, la minería de textos en general, etc. En este artículo, ofrecemos una visión general del rendimiento de varios tipos de modelos basados en corpus, especialmente modelos de aprendizaje profundo (DL), con la tarea de detección de paráfrasis. Informamos los resultados de ocho modelos (LSI, TF-IDF, Word2Vec, Doc2Vec, GloVe, FastText, ELMO y USE) evaluados en tres corpus públicos diferentes: el Corpus de Paráfrasis de Microsoft Research, Clough y Stevenson y el Corpus de Paráfrasis de Webis Crowd 2011. A través de un gran número de experimentos, decidimos sobre los enfoques más apropiados para el preprocesamiento de textos: hiperparámetros, selección de submodelos, donde existan (por ejemplo, Skipgram vs. CBOW), medidas de distancia y umbral de similitud semántica/detección de paráfrasis. Nuestros hallazgos y los de otros investigadores que han utilizado modelos de aprendizaje profundo muestran que los modelos DL son muy competitivos con los enfoques tradicionales de vanguardia y tienen un potencial que debería desarrollarse más.