Ensamble y aprendizaje profundo para la selección automática de datos paralelos independiente del idioma
Autores: Mouratidis, Despoina; Kermanidis, Katia Lida
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Ensamble y aprendizaje profundo para la selección automática de datos paralelos independiente del idioma
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Traducción automática
Aplicaciones
Categorización automatizada
Aprendizaje automático
Corpora paralelos
Arquitecturas de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
La traducción automática se utiliza en muchas aplicaciones en la vida cotidiana. Debido al aumento de documentos traducidos que necesitan ser organizados como útiles o no (para construir un modelo de traducción), la categorización automatizada de textos (clasificación) es un campo de investigación popular en el aprendizaje automático. Este tipo de información puede ser bastante útil para la traducción automática. Nuestros corpus paralelos (inglés-griego e inglés-italiano) se basan en datos educativos, que son bastante difíciles de traducir. Aplicamos dos arquitecturas de vanguardia, Random Forest (RF) y Deeplearnig4j (DL4J), a nuestros datos (que constituyen tres salidas de traducción). Hasta donde sabemos, esta es la primera vez que se aplican arquitecturas de aprendizaje profundo a la selección automática de datos paralelos. También proponemos nuevas características basadas en cadenas que parecen ser efectivas para el clasificador, e investigamos si un método de selección de atributos podría ser utilizado para una mejor precisión de clasificación. Los resultados experimentales indican un aumento de hasta el 4% (en comparación con nuestro trabajo anterior) utilizando RF y resultados bastante satisfactorios utilizando DL4J.
Descripción
La traducción automática se utiliza en muchas aplicaciones en la vida cotidiana. Debido al aumento de documentos traducidos que necesitan ser organizados como útiles o no (para construir un modelo de traducción), la categorización automatizada de textos (clasificación) es un campo de investigación popular en el aprendizaje automático. Este tipo de información puede ser bastante útil para la traducción automática. Nuestros corpus paralelos (inglés-griego e inglés-italiano) se basan en datos educativos, que son bastante difíciles de traducir. Aplicamos dos arquitecturas de vanguardia, Random Forest (RF) y Deeplearnig4j (DL4J), a nuestros datos (que constituyen tres salidas de traducción). Hasta donde sabemos, esta es la primera vez que se aplican arquitecturas de aprendizaje profundo a la selección automática de datos paralelos. También proponemos nuevas características basadas en cadenas que parecen ser efectivas para el clasificador, e investigamos si un método de selección de atributos podría ser utilizado para una mejor precisión de clasificación. Los resultados experimentales indican un aumento de hasta el 4% (en comparación con nuestro trabajo anterior) utilizando RF y resultados bastante satisfactorios utilizando DL4J.