Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce

Autores: Abidin, Taufik Fuadi; Mahazir, Amir; Subianto, Muhammad; Munadi, Khairul; Ferdhiana, Ridha

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Reconocimiento de pares de acrónimos y expansiones indonesios con aprendizaje supervisado y MapReduce

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Acrónimo

Expansión

Pares

Enfoque

Características

Reconocimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Durante las décadas anteriores, la identificación inteligente de pares de acrónimos y expansiones a partir de un gran corpus ha atraído considerable atención investigativa, particularmente en los campos de la minería de textos, la extracción de entidades y la recuperación de información. En este documento, presentamos un enfoque mejorado para reconocer los pares de acrónimos y expansiones precisos a partir de un gran corpus indonesio. Generalmente, un acrónimo puede ser una combinación de letras mayúsculas o una secuencia de sonidos del habla (sílabas). Nuestro enfoque propuesto se puede dividir computacionalmente en cuatro pasos: (1) identificación de candidatos a acrónimos; (2) recopilación de pares de acrónimos y expansiones; (3) generación de características; y (4) reconocimiento de pares de acrónimos y expansiones utilizando técnicas de aprendizaje supervisado. Además, introducimos ocho características numéricas y evaluamos su efectividad en la representación de los pares de acrónimos y expansiones basándonos en la precisión, el recall y la medida F. Asimismo, comparamos los algoritmos de k-vecinos más cercanos (K-NN), máquina de soporte vectorial (SVM) y representaciones de codificadores bidireccionales de transformadores (BERT) en términos de clasificación precisa de pares de acrónimos y expansiones. Los resultados experimentales indican que el modelo polinómico SVM que considera ocho características exhibe la mayor precisión (97.93%), superando a los del modelo polinómico SVM que considera cinco características (90.45%), el algoritmo K-NN con k = 3 que considera ocho características (96.82%), el algoritmo K-NN con k = 3 que considera cinco características (95.66%), el modelo BERT-Base (81.64%) y el modelo BERT-Base Multilingual Cased (88.10%). Además, analizamos el rendimiento de la tecnología Hadoop utilizando varios números de nodos de datos para identificar los pares de acrónimos y expansiones y obtener sus vectores de características. Los resultados revelan que el clúster de Hadoop que contiene un gran número de nodos de datos es más rápido que aquel con menos nodos de datos al procesar de diez millones a cien millones de pares de acrónimos y expansiones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro