Explorando un corpus de múltiples capas y géneros de relaciones semánticas a nivel de documento
Autores: Williamson, Gregor; Cao, Angela; Chen, Yingying; Ji, Yuxin; Xu, Liyan; Choi, Jinho D.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Explorando un corpus de múltiples capas y géneros de relaciones semánticas a nivel de documento
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Introduce
Corpus de múltiples géneros
Resolución de correferencias
Relaciones causales
Relaciones temporales
Esquemas de anotación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este artículo presenta un corpus cruzado de múltiples capas y géneros, anotado para la resolución de correferencias, relaciones causales y relaciones temporales, que abarca una variedad de géneros, desde artículos de noticias y cuentos infantiles hasta publicaciones de Reddit. Nuestros resultados revelan características distintivas específicas de cada género en cada capa de anotación, destacando desafíos únicos tanto para los anotadores como para los modelos de aprendizaje automático. Los cuentos infantiles presentan estructuras temporales lineales y relaciones causales claras. En contraste, los artículos de noticias emplean secuencias temporales no lineales con un uso mínimo de lenguaje causal o condicional explícito y pocos pronombres en primera persona. Por último, las publicaciones de Reddit son explicaciones centradas en el autor de situaciones en curso, con referencias meta-textuales ocasionales. Nuestros esquemas de anotación se adaptan de trabajos existentes para ajustarse mejor a una gama más amplia de tipos de texto. Argumentamos que nuestro corpus cruzado de múltiples capas no solo revela características semánticas específicas de cada género, sino que también indica una rica interacción contextual entre las diversas capas de información semántica. Nuestro corpus MLCG se comparte bajo la licencia de código abierto Apache 2.0.
Descripción
Este artículo presenta un corpus cruzado de múltiples capas y géneros, anotado para la resolución de correferencias, relaciones causales y relaciones temporales, que abarca una variedad de géneros, desde artículos de noticias y cuentos infantiles hasta publicaciones de Reddit. Nuestros resultados revelan características distintivas específicas de cada género en cada capa de anotación, destacando desafíos únicos tanto para los anotadores como para los modelos de aprendizaje automático. Los cuentos infantiles presentan estructuras temporales lineales y relaciones causales claras. En contraste, los artículos de noticias emplean secuencias temporales no lineales con un uso mínimo de lenguaje causal o condicional explícito y pocos pronombres en primera persona. Por último, las publicaciones de Reddit son explicaciones centradas en el autor de situaciones en curso, con referencias meta-textuales ocasionales. Nuestros esquemas de anotación se adaptan de trabajos existentes para ajustarse mejor a una gama más amplia de tipos de texto. Argumentamos que nuestro corpus cruzado de múltiples capas no solo revela características semánticas específicas de cada género, sino que también indica una rica interacción contextual entre las diversas capas de información semántica. Nuestro corpus MLCG se comparte bajo la licencia de código abierto Apache 2.0.