logo móvil
Contáctanos

Generando conjuntos de frases representativas para experimentos de entrada de texto mediante muestreo de corpora de texto basado en GA

Autores: Ljubic, Sandi; Salkanovic, Alen

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Generando conjuntos de frases representativas para experimentos de entrada de texto mediante muestreo de corpora de texto basado en GA


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Campo
Interacción humano-computadora
Métodos de entrada de texto
Modelo de lenguaje
Algoritmo genético
Divergencia de Kullback-Leibler

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
En el campo de la interacción humano-computadora (HCI), los métodos de entrada de texto pueden ser evaluados a través de experimentos controlados con usuarios o técnicas de modelado predictivo. Mientras que el enfoque de modelado requiere un modelo de lenguaje, el enfoque empírico necesita frases de texto representativas para los estímulos experimentales. En este contexto, encontrar un conjunto de frases con la mejor representatividad del lenguaje pertenece a la clase de problemas de optimización en los que se busca una solución en un gran espacio de búsqueda. Proponemos un método basado en algoritmos genéticos (GA) para extraer un conjunto de frases objetivo del corpus de texto disponible, optimizando su representatividad del lenguaje. La divergencia de Kullback-Leibler se utiliza para evaluar candidatos, considerando las distribuciones de probabilidad de los dígrafos tanto del corpus fuente como de la muestra objetivo. El método propuesto es altamente personalizable, supera al muestreo aleatorio típico y muestra independencia del lenguaje. Los conjuntos de frases representativas generados por la solución propuesta facilitan una comparación más válida de los resultados de diferentes estudios de entrada de texto. La implementación de código abierto permite la fácil personalización del método de muestreo basado en GA, promueve su utilización inmediata y facilita la reproducibilidad de este estudio. Además, proporcionamos pautas heurísticas para preparar los experimentos de entrada de texto, que consideran el diseño previsto del experimento y el conjunto de frases a generar con la solución propuesta.

Otros recursos que podrían interesarte

Temas Virtualpro