Estimación de similitudes de noticias cruzadas utilizando métodos de minería de texto
Autores: Wang, Zhouhao; Liu, Enda; Sakaji, Hiroki; Ito, Tomoki; Izumi, Kiyoshi; Tsubouchi, Kota; Yamashita, Tatsuo
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Estimación de similitudes de noticias cruzadas utilizando métodos de minería de texto
Categoría
Gestión y administración
Subcategoría
Gestión de recursos
Palabras clave
Noticias
Aprendizaje automático
Multilingüe
Recursos textuales
Algoritmos de estimación
LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
En esta investigación, se han propuesto dos algoritmos de estimación para extraer pares de noticias cruzadas basados en el aprendizaje automático a partir de artículos de noticias financieras. Cada segundo, se generan innumerables datos de texto, incluyendo todo tipo de noticias, informes, mensajes, reseñas, comentarios y tuits en Internet, y estos se escriben no solo en inglés, sino también en otros idiomas como chino, japonés, francés, etc. Aprovechando los recursos de texto multilingües proporcionados por Thomson Reuters News, desarrollamos dos algoritmos de estimación para extraer pares de noticias cruzadas de recursos de texto multilingües. En nuestro primer método, proponemos una estructura novedosa que utiliza la información de las palabras y el método de aprendizaje automático de manera efectiva en esta tarea. Al mismo tiempo, desarrollamos un método basado en memoria a largo y corto plazo (LSTM) bidireccional para calcular la similitud semántica del texto cruzado para textos largos y cortos, respectivamente. Así, cuando se publica un artículo de noticias importante, los usuarios pueden leer artículos de noticias similares que están escritos en su idioma nativo utilizando nuestro método.
Descripción
En esta investigación, se han propuesto dos algoritmos de estimación para extraer pares de noticias cruzadas basados en el aprendizaje automático a partir de artículos de noticias financieras. Cada segundo, se generan innumerables datos de texto, incluyendo todo tipo de noticias, informes, mensajes, reseñas, comentarios y tuits en Internet, y estos se escriben no solo en inglés, sino también en otros idiomas como chino, japonés, francés, etc. Aprovechando los recursos de texto multilingües proporcionados por Thomson Reuters News, desarrollamos dos algoritmos de estimación para extraer pares de noticias cruzadas de recursos de texto multilingües. En nuestro primer método, proponemos una estructura novedosa que utiliza la información de las palabras y el método de aprendizaje automático de manera efectiva en esta tarea. Al mismo tiempo, desarrollamos un método basado en memoria a largo y corto plazo (LSTM) bidireccional para calcular la similitud semántica del texto cruzado para textos largos y cortos, respectivamente. Así, cuando se publica un artículo de noticias importante, los usuarios pueden leer artículos de noticias similares que están escritos en su idioma nativo utilizando nuestro método.