Generando conjuntos de frases representativas para experimentos de entrada de texto mediante muestreo de corpora de texto basado en GA
Autores: Ljubic, Sandi; Salkanovic, Alen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Generando conjuntos de frases representativas para experimentos de entrada de texto mediante muestreo de corpora de texto basado en GA
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Campo
Interacción humano-computadora
Métodos de entrada de texto
Modelo de lenguaje
Algoritmo genético
Divergencia de Kullback-Leibler
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
En el campo de la interacción humano-computadora (HCI), los métodos de entrada de texto pueden ser evaluados a través de experimentos controlados con usuarios o técnicas de modelado predictivo. Mientras que el enfoque de modelado requiere un modelo de lenguaje, el enfoque empírico necesita frases de texto representativas para los estímulos experimentales. En este contexto, encontrar un conjunto de frases con la mejor representatividad del lenguaje pertenece a la clase de problemas de optimización en los que se busca una solución en un gran espacio de búsqueda. Proponemos un método basado en algoritmos genéticos (GA) para extraer un conjunto de frases objetivo del corpus de texto disponible, optimizando su representatividad del lenguaje. La divergencia de Kullback-Leibler se utiliza para evaluar candidatos, considerando las distribuciones de probabilidad de los dígrafos tanto del corpus fuente como de la muestra objetivo. El método propuesto es altamente personalizable, supera al muestreo aleatorio típico y muestra independencia del lenguaje. Los conjuntos de frases representativas generados por la solución propuesta facilitan una comparación más válida de los resultados de diferentes estudios de entrada de texto. La implementación de código abierto permite la fácil personalización del método de muestreo basado en GA, promueve su utilización inmediata y facilita la reproducibilidad de este estudio. Además, proporcionamos pautas heurísticas para preparar los experimentos de entrada de texto, que consideran el diseño previsto del experimento y el conjunto de frases a generar con la solución propuesta.
Descripción
En el campo de la interacción humano-computadora (HCI), los métodos de entrada de texto pueden ser evaluados a través de experimentos controlados con usuarios o técnicas de modelado predictivo. Mientras que el enfoque de modelado requiere un modelo de lenguaje, el enfoque empírico necesita frases de texto representativas para los estímulos experimentales. En este contexto, encontrar un conjunto de frases con la mejor representatividad del lenguaje pertenece a la clase de problemas de optimización en los que se busca una solución en un gran espacio de búsqueda. Proponemos un método basado en algoritmos genéticos (GA) para extraer un conjunto de frases objetivo del corpus de texto disponible, optimizando su representatividad del lenguaje. La divergencia de Kullback-Leibler se utiliza para evaluar candidatos, considerando las distribuciones de probabilidad de los dígrafos tanto del corpus fuente como de la muestra objetivo. El método propuesto es altamente personalizable, supera al muestreo aleatorio típico y muestra independencia del lenguaje. Los conjuntos de frases representativas generados por la solución propuesta facilitan una comparación más válida de los resultados de diferentes estudios de entrada de texto. La implementación de código abierto permite la fácil personalización del método de muestreo basado en GA, promueve su utilización inmediata y facilita la reproducibilidad de este estudio. Además, proporcionamos pautas heurísticas para preparar los experimentos de entrada de texto, que consideran el diseño previsto del experimento y el conjunto de frases a generar con la solución propuesta.