Enfoques Distribucionales y Basados en el Conocimiento para Calcular la Similitud de Palabras en Portugués
Autores: Gonçalo Oliveira, Hugo
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Enfoques Distribucionales y Basados en el Conocimiento para Calcular la Similitud de Palabras en Portugués
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Palabras
Similitud
Idioma
Recursos computacionales
Modelos distribucionales
Bases de conocimiento léxico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Identificar palabras similares y relacionadas no solo es clave en la comprensión del lenguaje natural, sino que también es una tarea adecuada para evaluar la calidad de los recursos computacionales que organizan palabras y significados de un idioma, compilados por diferentes medios. Este artículo, que pretende ser una referencia para aquellos interesados en calcular la similitud de palabras en portugués, presenta varios enfoques para esta tarea y está motivado por la reciente disponibilidad de modelos distribucionales de vanguardia de palabras en portugués, que se suman a varias bases de conocimiento léxico (LKB) para este idioma, disponibles desde hace más tiempo. Los recursos anteriores se explotaron para responder a pruebas de similitud de palabras, que también se han vuelto recientemente disponibles para el portugués. Concluimos que hay varios enfoques válidos para esta tarea, pero ninguno que supere a todos los demás en cada prueba. Los modelos distribucionales parecen capturar mejor la relación, mientras que las LKB son más adecuadas para calcular la similitud genuina, pero, en general, se obtienen mejores resultados cuando se combina el conocimiento de diferentes fuentes.
Descripción
Identificar palabras similares y relacionadas no solo es clave en la comprensión del lenguaje natural, sino que también es una tarea adecuada para evaluar la calidad de los recursos computacionales que organizan palabras y significados de un idioma, compilados por diferentes medios. Este artículo, que pretende ser una referencia para aquellos interesados en calcular la similitud de palabras en portugués, presenta varios enfoques para esta tarea y está motivado por la reciente disponibilidad de modelos distribucionales de vanguardia de palabras en portugués, que se suman a varias bases de conocimiento léxico (LKB) para este idioma, disponibles desde hace más tiempo. Los recursos anteriores se explotaron para responder a pruebas de similitud de palabras, que también se han vuelto recientemente disponibles para el portugués. Concluimos que hay varios enfoques válidos para esta tarea, pero ninguno que supere a todos los demás en cada prueba. Los modelos distribucionales parecen capturar mejor la relación, mientras que las LKB son más adecuadas para calcular la similitud genuina, pero, en general, se obtienen mejores resultados cuando se combina el conocimiento de diferentes fuentes.