Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce
Autores: Abidin, Taufik Fuadi; Mahazir, Amir; Subianto, Muhammad; Munadi, Khairul; Ferdhiana, Ridha
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Acrónimo
Expansión
Pares
Enfoque
Características
Reconocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Durante las décadas anteriores, la identificación inteligente de pares de acrónimos y expansiones a partir de un gran corpus ha atraído considerable atención investigativa, particularmente en los campos de la minería de textos, la extracción de entidades y la recuperación de información. En este documento, presentamos un enfoque mejorado para reconocer los pares de acrónimos y expansiones precisos a partir de un gran corpus indonesio. Generalmente, un acrónimo puede ser una combinación de letras mayúsculas o una secuencia de sonidos del habla (sílabas). Nuestro enfoque propuesto se puede dividir computacionalmente en cuatro pasos: (1) identificación de candidatos a acrónimos; (2) recopilación de pares de acrónimos y expansiones; (3) generación de características; y (4) reconocimiento de pares de acrónimos y expansiones utilizando técnicas de aprendizaje supervisado. Además, introducimos ocho características numéricas y evaluamos su efectividad en la representación de los pares de acrónimos y expansiones basándonos en la precisión, el recall y la medida F. Asimismo, comparamos los algoritmos de k-vecinos más cercanos (K-NN), máquina de soporte vectorial (SVM) y representaciones de codificadores bidireccionales de transformadores (BERT) en términos de clasificación precisa de pares de acrónimos y expansiones. Los resultados experimentales indican que el modelo polinómico SVM que considera ocho características exhibe la mayor precisión (97.93%), superando a los del modelo polinómico SVM que considera cinco características (90.45%), el algoritmo K-NN con k = 3 que considera ocho características (96.82%), el algoritmo K-NN con k = 3 que considera cinco características (95.66%), el modelo BERT-Base (81.64%) y el modelo BERT-Base Multilingual Cased (88.10%). Además, analizamos el rendimiento de la tecnología Hadoop utilizando varios números de nodos de datos para identificar los pares de acrónimos y expansiones y obtener sus vectores de características. Los resultados revelan que el clúster de Hadoop que contiene un gran número de nodos de datos es más rápido que aquel con menos nodos de datos al procesar de diez millones a cien millones de pares de acrónimos y expansiones.
Descripción
Durante las décadas anteriores, la identificación inteligente de pares de acrónimos y expansiones a partir de un gran corpus ha atraído considerable atención investigativa, particularmente en los campos de la minería de textos, la extracción de entidades y la recuperación de información. En este documento, presentamos un enfoque mejorado para reconocer los pares de acrónimos y expansiones precisos a partir de un gran corpus indonesio. Generalmente, un acrónimo puede ser una combinación de letras mayúsculas o una secuencia de sonidos del habla (sílabas). Nuestro enfoque propuesto se puede dividir computacionalmente en cuatro pasos: (1) identificación de candidatos a acrónimos; (2) recopilación de pares de acrónimos y expansiones; (3) generación de características; y (4) reconocimiento de pares de acrónimos y expansiones utilizando técnicas de aprendizaje supervisado. Además, introducimos ocho características numéricas y evaluamos su efectividad en la representación de los pares de acrónimos y expansiones basándonos en la precisión, el recall y la medida F. Asimismo, comparamos los algoritmos de k-vecinos más cercanos (K-NN), máquina de soporte vectorial (SVM) y representaciones de codificadores bidireccionales de transformadores (BERT) en términos de clasificación precisa de pares de acrónimos y expansiones. Los resultados experimentales indican que el modelo polinómico SVM que considera ocho características exhibe la mayor precisión (97.93%), superando a los del modelo polinómico SVM que considera cinco características (90.45%), el algoritmo K-NN con k = 3 que considera ocho características (96.82%), el algoritmo K-NN con k = 3 que considera cinco características (95.66%), el modelo BERT-Base (81.64%) y el modelo BERT-Base Multilingual Cased (88.10%). Además, analizamos el rendimiento de la tecnología Hadoop utilizando varios números de nodos de datos para identificar los pares de acrónimos y expansiones y obtener sus vectores de características. Los resultados revelan que el clúster de Hadoop que contiene un gran número de nodos de datos es más rápido que aquel con menos nodos de datos al procesar de diez millones a cien millones de pares de acrónimos y expansiones.