logo móvil
Contáctanos

Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones

Autores: Cho, Danbi; Lee, Hyunyoung; Kang, Seungshik

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Unidad de token
Tokenización de subpalabras
Modelos de lenguaje
Incrustación de oraciones
Coreano
Análisis de sentimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Es importante cómo se define la unidad de token en una oración en tareas de procesamiento de lenguaje natural, como clasificación de texto, traducción automática y generación. Muchos estudios recientes utilizaron la tokenización de subpalabras en modelos de lenguaje como BERT, KoBERT y ALBERT. Aunque estos modelos de lenguaje lograron resultados de vanguardia en varias tareas de procesamiento de lenguaje natural, no está claro si la tokenización de subpalabras es la mejor unidad de token para la incrustación de oraciones en coreano. Por lo tanto, llevamos a cabo la incrustación de oraciones basada en palabras, morfemas, subpalabras y submorfemas, respectivamente, en el análisis de sentimientos en coreano. Exploramos los dos métodos de representación de oraciones para la incrustación de oraciones: considerando el orden de los tokens en una oración y no considerando el orden. Al ingresar una oración, que está descompuesta por unidad de token, a los dos métodos de representación de oraciones, construimos la incrustación de oraciones con varias tokenizaciones para encontrar la unidad de token más efectiva para la incrustación de oraciones en coreano. En nuestro trabajo, confirmamos: la robustez de la unidad de subpalabra para problemas de palabras fuera del vocabulario (OOV) en comparación con otras unidades de token, la desventaja de reemplazar espacios en blanco con un símbolo particular en la tarea de análisis de sentimientos, y que el tamaño de vocabulario óptimo es de 16K en la tokenización de subpalabras y submorfemas. Empíricamente notamos que la subpalabra, que fue tokenizada por un tamaño de vocabulario de 16K sin reemplazo de espacios en blanco, fue la más efectiva para la incrustación de oraciones en la tarea de análisis de sentimientos en coreano.

Otros recursos que podrían interesarte

Temas Virtualpro