Revisitando dropout: escapando de la presión para entrenar redes neuronales con múltiples costos
Autores: Woo, Sangmin; Kim, Kangil; Noh, Junhyug; Shin, Jong-Hun; Na, Seung-Hoon
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Revisitando dropout: escapando de la presión para entrenar redes neuronales con múltiples costos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfrentar
Aprender
Tareas
Estructura compartida
Optimizar
Modelo
Paisaje combinado
Subcostos
Conflictos
Mesetas de costos
óptimo inferior
Desafíos de conflicto de gradiente
Solución
Reducción de costos
Descensos
Iteración
Evidencia teórica
Evidencia empírica
Escapar de la presión
Mecanismo
Mejorar el rendimiento
Aprendizaje multitarea
Clasificación de imágenes
Conjunto de datos MNIST
Traducción automática
Inglés
Francés
Español
Alemán
Conjuntos de datos WMT14
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 50
Citaciones: Sin citaciones
Un enfoque común para aprender conjuntamente múltiples tareas con una estructura compartida es optimizar el modelo con un paisaje combinado de múltiples subcostos. Sin embargo, los gradientes derivados de cada subcosto a menudo entran en conflicto en mesetas de costos, lo que resulta en un óptimo subóptimo. En este trabajo, arrojamos luz sobre los desafíos de conflicto de gradientes y sugerimos una solución llamada Cost-Out, que elimina aleatoriamente los subcostos para cada iteración. Proporcionamos evidencia teórica y empírica de la existencia de presión de escape inducida por el mecanismo Cost-Out. Aunque simple, los resultados empíricos indican que el método propuesto puede mejorar el rendimiento de problemas de aprendizaje multitarea, incluida la clasificación de imágenes de dos dígitos muestreada del conjunto de datos MNIST y tareas de traducción automática para inglés de y hacia francés, español y alemán en los conjuntos de datos WMT14.
Descripción
Un enfoque común para aprender conjuntamente múltiples tareas con una estructura compartida es optimizar el modelo con un paisaje combinado de múltiples subcostos. Sin embargo, los gradientes derivados de cada subcosto a menudo entran en conflicto en mesetas de costos, lo que resulta en un óptimo subóptimo. En este trabajo, arrojamos luz sobre los desafíos de conflicto de gradientes y sugerimos una solución llamada Cost-Out, que elimina aleatoriamente los subcostos para cada iteración. Proporcionamos evidencia teórica y empírica de la existencia de presión de escape inducida por el mecanismo Cost-Out. Aunque simple, los resultados empíricos indican que el método propuesto puede mejorar el rendimiento de problemas de aprendizaje multitarea, incluida la clasificación de imágenes de dos dígitos muestreada del conjunto de datos MNIST y tareas de traducción automática para inglés de y hacia francés, español y alemán en los conjuntos de datos WMT14.