Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones

Autores: Cho, Danbi; Lee, Hyunyoung; Kang, Seungshik

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Un estudio empírico de representación de oraciones coreanas con diversas tokenizaciones

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Unidad de token

Tokenización de subpalabras

Modelos de lenguaje

Incrustación de oraciones

Coreano

Análisis de sentimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Es importante cómo se define la unidad de token en una oración en tareas de procesamiento de lenguaje natural, como clasificación de texto, traducción automática y generación. Muchos estudios recientes utilizaron la tokenización de subpalabras en modelos de lenguaje como BERT, KoBERT y ALBERT. Aunque estos modelos de lenguaje lograron resultados de vanguardia en varias tareas de procesamiento de lenguaje natural, no está claro si la tokenización de subpalabras es la mejor unidad de token para la incrustación de oraciones en coreano. Por lo tanto, llevamos a cabo la incrustación de oraciones basada en palabras, morfemas, subpalabras y submorfemas, respectivamente, en el análisis de sentimientos en coreano. Exploramos los dos métodos de representación de oraciones para la incrustación de oraciones: considerando el orden de los tokens en una oración y no considerando el orden. Al ingresar una oración, que está descompuesta por unidad de token, a los dos métodos de representación de oraciones, construimos la incrustación de oraciones con varias tokenizaciones para encontrar la unidad de token más efectiva para la incrustación de oraciones en coreano. En nuestro trabajo, confirmamos: la robustez de la unidad de subpalabra para problemas de palabras fuera del vocabulario (OOV) en comparación con otras unidades de token, la desventaja de reemplazar espacios en blanco con un símbolo particular en la tarea de análisis de sentimientos, y que el tamaño de vocabulario óptimo es de 16K en la tokenización de subpalabras y submorfemas. Empíricamente notamos que la subpalabra, que fue tokenizada por un tamaño de vocabulario de 16K sin reemplazo de espacios en blanco, fue la más efectiva para la incrustación de oraciones en la tarea de análisis de sentimientos en coreano.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro