Soporte de herramientas para mejorar la calidad del software en programas de aprendizaje automático
Autores: Cheng, Kwok Sun; Huang, Pei-Chi; Ahn, Tae-Hyuk; Song, Myoungkyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Soporte de herramientas para mejorar la calidad del software en programas de aprendizaje automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático
Técnica de validación
Modelos de aprendizaje automático
Aplicaciones de aprendizaje automático
Datos de entrenamiento
Precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las técnicas de aprendizaje automático (ML) descubren conocimiento a partir de grandes cantidades de datos. El modelado en ML se está convirtiendo en algo esencial para los sistemas de software en la práctica. La precisión y eficiencia de los modelos de ML han sido el foco de las comunidades de investigación en ML, mientras que hay menos atención en validar las cualidades de los modelos de ML. Validar las aplicaciones de ML es un proceso desafiante y que consume mucho tiempo para los desarrolladores, ya que la precisión de las predicciones depende en gran medida de los modelos generados. Las aplicaciones de ML se escriben mediante una programación relativamente más impulsada por datos, basada en la caja negra de los marcos de ML. Todos los conjuntos de datos y la aplicación de ML necesitan ser investigados individualmente. Por lo tanto, las tareas de validación de ML requieren mucho tiempo y esfuerzo. Para abordar esta limitación, presentamos una nueva técnica de validación de calidad que aumenta la fiabilidad de los modelos y aplicaciones de ML, llamada MLVal. Nuestro enfoque ayuda a los desarrolladores a inspeccionar los datos de entrenamiento y las características generadas para el modelo de ML. Una técnica de validación de datos es importante y beneficiosa para la calidad del software, ya que la calidad de los datos de entrada afecta la velocidad y precisión del entrenamiento y la inferencia. Inspirado en la depuración/validación de software para reproducir los posibles errores reportados, MLVal toma como entrada una aplicación de ML y sus conjuntos de datos de entrenamiento para construir los modelos de ML, ayudando a los desarrolladores de aplicaciones de ML a reproducir y entender fácilmente las anomalías en la aplicación de ML. Hemos implementado un complemento de Eclipse para MLVal que permite a los desarrolladores validar el comportamiento de predicción de sus aplicaciones de ML, el modelo de ML y los datos de entrenamiento en el IDE de Eclipse. En nuestra evaluación, utilizamos 23,500 documentos en el dominio de investigación de bioingeniería. Evaluamos la capacidad de la técnica de validación MLVal para ayudar efectivamente a los desarrolladores de aplicaciones de ML: (1) investigar la conexión entre las características producidas y las etiquetas en el modelo de entrenamiento, y (2) detectar errores temprano para asegurar la calidad de los modelos a partir de mejores datos. Nuestro enfoque reduce el costo de los esfuerzos de ingeniería para validar problemas, mejorando los flujos de trabajo centrados en datos del desarrollo de aplicaciones de ML.
Descripción
Las técnicas de aprendizaje automático (ML) descubren conocimiento a partir de grandes cantidades de datos. El modelado en ML se está convirtiendo en algo esencial para los sistemas de software en la práctica. La precisión y eficiencia de los modelos de ML han sido el foco de las comunidades de investigación en ML, mientras que hay menos atención en validar las cualidades de los modelos de ML. Validar las aplicaciones de ML es un proceso desafiante y que consume mucho tiempo para los desarrolladores, ya que la precisión de las predicciones depende en gran medida de los modelos generados. Las aplicaciones de ML se escriben mediante una programación relativamente más impulsada por datos, basada en la caja negra de los marcos de ML. Todos los conjuntos de datos y la aplicación de ML necesitan ser investigados individualmente. Por lo tanto, las tareas de validación de ML requieren mucho tiempo y esfuerzo. Para abordar esta limitación, presentamos una nueva técnica de validación de calidad que aumenta la fiabilidad de los modelos y aplicaciones de ML, llamada MLVal. Nuestro enfoque ayuda a los desarrolladores a inspeccionar los datos de entrenamiento y las características generadas para el modelo de ML. Una técnica de validación de datos es importante y beneficiosa para la calidad del software, ya que la calidad de los datos de entrada afecta la velocidad y precisión del entrenamiento y la inferencia. Inspirado en la depuración/validación de software para reproducir los posibles errores reportados, MLVal toma como entrada una aplicación de ML y sus conjuntos de datos de entrenamiento para construir los modelos de ML, ayudando a los desarrolladores de aplicaciones de ML a reproducir y entender fácilmente las anomalías en la aplicación de ML. Hemos implementado un complemento de Eclipse para MLVal que permite a los desarrolladores validar el comportamiento de predicción de sus aplicaciones de ML, el modelo de ML y los datos de entrenamiento en el IDE de Eclipse. En nuestra evaluación, utilizamos 23,500 documentos en el dominio de investigación de bioingeniería. Evaluamos la capacidad de la técnica de validación MLVal para ayudar efectivamente a los desarrolladores de aplicaciones de ML: (1) investigar la conexión entre las características producidas y las etiquetas en el modelo de entrenamiento, y (2) detectar errores temprano para asegurar la calidad de los modelos a partir de mejores datos. Nuestro enfoque reduce el costo de los esfuerzos de ingeniería para validar problemas, mejorando los flujos de trabajo centrados en datos del desarrollo de aplicaciones de ML.