Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones
Autores: Cho, Danbi; Lee, Hyunyoung; Kang, Seungshik
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Unidad de token
Tokenización de subpalabras
Modelos de lenguaje
Incrustación de oraciones
Coreano
Análisis de sentimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Es importante cómo se define la unidad de token en una oración en tareas de procesamiento de lenguaje natural, como clasificación de texto, traducción automática y generación. Muchos estudios recientes utilizaron la tokenización de subpalabras en modelos de lenguaje como BERT, KoBERT y ALBERT. Aunque estos modelos de lenguaje lograron resultados de vanguardia en varias tareas de procesamiento de lenguaje natural, no está claro si la tokenización de subpalabras es la mejor unidad de token para la incrustación de oraciones en coreano. Por lo tanto, llevamos a cabo la incrustación de oraciones basada en palabras, morfemas, subpalabras y submorfemas, respectivamente, en el análisis de sentimientos en coreano. Exploramos los dos métodos de representación de oraciones para la incrustación de oraciones: considerando el orden de los tokens en una oración y no considerando el orden. Al ingresar una oración, que está descompuesta por unidad de token, a los dos métodos de representación de oraciones, construimos la incrustación de oraciones con varias tokenizaciones para encontrar la unidad de token más efectiva para la incrustación de oraciones en coreano. En nuestro trabajo, confirmamos: la robustez de la unidad de subpalabra para problemas de palabras fuera del vocabulario (OOV) en comparación con otras unidades de token, la desventaja de reemplazar espacios en blanco con un símbolo particular en la tarea de análisis de sentimientos, y que el tamaño de vocabulario óptimo es de 16K en la tokenización de subpalabras y submorfemas. Empíricamente notamos que la subpalabra, que fue tokenizada por un tamaño de vocabulario de 16K sin reemplazo de espacios en blanco, fue la más efectiva para la incrustación de oraciones en la tarea de análisis de sentimientos en coreano.
Descripción
Es importante cómo se define la unidad de token en una oración en tareas de procesamiento de lenguaje natural, como clasificación de texto, traducción automática y generación. Muchos estudios recientes utilizaron la tokenización de subpalabras en modelos de lenguaje como BERT, KoBERT y ALBERT. Aunque estos modelos de lenguaje lograron resultados de vanguardia en varias tareas de procesamiento de lenguaje natural, no está claro si la tokenización de subpalabras es la mejor unidad de token para la incrustación de oraciones en coreano. Por lo tanto, llevamos a cabo la incrustación de oraciones basada en palabras, morfemas, subpalabras y submorfemas, respectivamente, en el análisis de sentimientos en coreano. Exploramos los dos métodos de representación de oraciones para la incrustación de oraciones: considerando el orden de los tokens en una oración y no considerando el orden. Al ingresar una oración, que está descompuesta por unidad de token, a los dos métodos de representación de oraciones, construimos la incrustación de oraciones con varias tokenizaciones para encontrar la unidad de token más efectiva para la incrustación de oraciones en coreano. En nuestro trabajo, confirmamos: la robustez de la unidad de subpalabra para problemas de palabras fuera del vocabulario (OOV) en comparación con otras unidades de token, la desventaja de reemplazar espacios en blanco con un símbolo particular en la tarea de análisis de sentimientos, y que el tamaño de vocabulario óptimo es de 16K en la tokenización de subpalabras y submorfemas. Empíricamente notamos que la subpalabra, que fue tokenizada por un tamaño de vocabulario de 16K sin reemplazo de espacios en blanco, fue la más efectiva para la incrustación de oraciones en la tarea de análisis de sentimientos en coreano.