Supervisión de clasificación de datos de texto de atención médica basada en categorías definidas por contexto
Autores: Bolívar, Sergio; Nieto-Reyes, Alicia; Rogers, Heather L.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Supervisión de clasificación de datos de texto de atención médica basada en categorías definidas por contexto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Tasa de éxito
Análisis de clasificación supervisada
Conjunto de datos de texto
Relación
Etiqueta
Métodos de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Lograr una buena tasa de éxito en el análisis de clasificación supervisada de un conjunto de datos de texto, donde la relación entre el texto y su etiqueta se puede extraer del contexto, pero no de palabras aisladas en el texto, sigue siendo un desafío importante que enfrentan los campos de la estadística y el aprendizaje automático. Para este propósito, presentamos un nuevo marco matemático. Luego realizamos un estudio comparativo entre métodos de clasificación establecidos para el caso en el que la relación entre el texto y la etiqueta correspondiente está claramente representada por palabras específicas en el texto. En particular, utilizamos LASSO logístico, redes neuronales artificiales, máquinas de vectores de soporte y procedimientos similares a árboles de decisión. Esta metodología se aplica a un estudio de caso real que implica mapear los constructos del Marco Consolidado para la Implementación e Investigación (CFIR) a datos de texto relacionados con la salud y logra una tasa de éxito de predicción de más del 80% cuando solo se utiliza el primer 55% del texto, o más, para entrenamiento y el resto para pruebas. Los resultados indican que la metodología puede ser útil para acelerar el proceso de codificación del CFIR.
Descripción
Lograr una buena tasa de éxito en el análisis de clasificación supervisada de un conjunto de datos de texto, donde la relación entre el texto y su etiqueta se puede extraer del contexto, pero no de palabras aisladas en el texto, sigue siendo un desafío importante que enfrentan los campos de la estadística y el aprendizaje automático. Para este propósito, presentamos un nuevo marco matemático. Luego realizamos un estudio comparativo entre métodos de clasificación establecidos para el caso en el que la relación entre el texto y la etiqueta correspondiente está claramente representada por palabras específicas en el texto. En particular, utilizamos LASSO logístico, redes neuronales artificiales, máquinas de vectores de soporte y procedimientos similares a árboles de decisión. Esta metodología se aplica a un estudio de caso real que implica mapear los constructos del Marco Consolidado para la Implementación e Investigación (CFIR) a datos de texto relacionados con la salud y logra una tasa de éxito de predicción de más del 80% cuando solo se utiliza el primer 55% del texto, o más, para entrenamiento y el resto para pruebas. Los resultados indican que la metodología puede ser útil para acelerar el proceso de codificación del CFIR.