logo móvil
Contáctanos

Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce

Autores: Abidin, Taufik Fuadi; Mahazir, Amir; Subianto, Muhammad; Munadi, Khairul; Ferdhiana, Ridha

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Acrónimo
Expansión
Pares
Enfoque
Características
Reconocimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Durante las décadas anteriores, la identificación inteligente de pares de acrónimos y expansiones a partir de un gran corpus ha atraído considerable atención investigativa, particularmente en los campos de la minería de textos, la extracción de entidades y la recuperación de información. En este documento, presentamos un enfoque mejorado para reconocer los pares de acrónimos y expansiones precisos a partir de un gran corpus indonesio. Generalmente, un acrónimo puede ser una combinación de letras mayúsculas o una secuencia de sonidos del habla (sílabas). Nuestro enfoque propuesto se puede dividir computacionalmente en cuatro pasos: (1) identificación de candidatos a acrónimos; (2) recopilación de pares de acrónimos y expansiones; (3) generación de características; y (4) reconocimiento de pares de acrónimos y expansiones utilizando técnicas de aprendizaje supervisado. Además, introducimos ocho características numéricas y evaluamos su efectividad en la representación de los pares de acrónimos y expansiones basándonos en la precisión, el recall y la medida F. Asimismo, comparamos los algoritmos de k-vecinos más cercanos (K-NN), máquina de soporte vectorial (SVM) y representaciones de codificadores bidireccionales de transformadores (BERT) en términos de clasificación precisa de pares de acrónimos y expansiones. Los resultados experimentales indican que el modelo polinómico SVM que considera ocho características exhibe la mayor precisión (97.93%), superando a los del modelo polinómico SVM que considera cinco características (90.45%), el algoritmo K-NN con k = 3 que considera ocho características (96.82%), el algoritmo K-NN con k = 3 que considera cinco características (95.66%), el modelo BERT-Base (81.64%) y el modelo BERT-Base Multilingual Cased (88.10%). Además, analizamos el rendimiento de la tecnología Hadoop utilizando varios números de nodos de datos para identificar los pares de acrónimos y expansiones y obtener sus vectores de características. Los resultados revelan que el clúster de Hadoop que contiene un gran número de nodos de datos es más rápido que aquel con menos nodos de datos al procesar de diez millones a cien millones de pares de acrónimos y expansiones.

Otros recursos que podrían interesarte

Temas Virtualpro