Extracción de relaciones independiente del idioma a partir de resúmenes en wikis
Autores: Heist, Nicolas; Hertling, Sven; Paulheim, Heiko
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Extracción de relaciones independiente del idioma a partir de resúmenes en wikis
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Gráficas de conocimiento a gran escala
Extracción de relaciones
Texto
Gráfico de conocimiento
Enfoque independiente del idioma
Modelos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los gráficos de conocimiento a gran escala, como DBpedia, Wikidata o YAGO, pueden ser mejorados mediante la extracción de relaciones de texto, utilizando los datos en el gráfico de conocimiento como datos de entrenamiento, es decir, utilizando supervisión distante. Mientras que la mayoría de los enfoques existentes utilizan métodos específicos de lenguaje (generalmente para inglés), presentamos un enfoque independiente del lenguaje que explota el conocimiento de fondo del gráfico en lugar de técnicas específicas de lenguaje y construye modelos de aprendizaje automático solo a partir de características independientes del lenguaje. Demostramos la extracción de relaciones de resúmenes de Wikipedia, utilizando las doce ediciones de idioma más grandes de Wikipedia. A partir de ellas, podemos extraer 1.6 millones de nuevas relaciones en DBpedia con un nivel de precisión del 95%, utilizando un clasificador RandomForest entrenado solo con características independientes del lenguaje. Además, investigamos la similitud de modelos para diferentes idiomas y mostramos un desglose geográfico ejemplar de la información extraída. En una segunda serie de experimentos, mostramos cómo el enfoque puede ser transferido a DBkWik, un gráfico de conocimiento extraído de miles de wikis. Discutimos los desafíos y los primeros resultados de la extracción de relaciones de un conjunto más grande de wikis, utilizando un gráfico de conocimiento menos formalizado.
Descripción
Los gráficos de conocimiento a gran escala, como DBpedia, Wikidata o YAGO, pueden ser mejorados mediante la extracción de relaciones de texto, utilizando los datos en el gráfico de conocimiento como datos de entrenamiento, es decir, utilizando supervisión distante. Mientras que la mayoría de los enfoques existentes utilizan métodos específicos de lenguaje (generalmente para inglés), presentamos un enfoque independiente del lenguaje que explota el conocimiento de fondo del gráfico en lugar de técnicas específicas de lenguaje y construye modelos de aprendizaje automático solo a partir de características independientes del lenguaje. Demostramos la extracción de relaciones de resúmenes de Wikipedia, utilizando las doce ediciones de idioma más grandes de Wikipedia. A partir de ellas, podemos extraer 1.6 millones de nuevas relaciones en DBpedia con un nivel de precisión del 95%, utilizando un clasificador RandomForest entrenado solo con características independientes del lenguaje. Además, investigamos la similitud de modelos para diferentes idiomas y mostramos un desglose geográfico ejemplar de la información extraída. En una segunda serie de experimentos, mostramos cómo el enfoque puede ser transferido a DBkWik, un gráfico de conocimiento extraído de miles de wikis. Discutimos los desafíos y los primeros resultados de la extracción de relaciones de un conjunto más grande de wikis, utilizando un gráfico de conocimiento menos formalizado.