Análisis comparativo de estrategias de indicaciones para modelos de lenguaje grandes: indicaciones de una sola tarea frente a indicaciones multitarea
Autores: Gozzi, Manuel; Di Maio, Federico
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis comparativo de estrategias de indicaciones para modelos de lenguaje grandes: indicaciones de una sola tarea frente a indicaciones multitarea
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estudio
Eficacia
Ingeniería rápida
Modelos de Lenguaje Grandes
Indicaciones multitarea
Indicaciones de una sola tarea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Este estudio investiga la efectividad de estrategias de ingeniería de prompts para Modelos de Lenguaje Grandes (LLMs), comparando prompts de una sola tarea y multitarea. Específicamente, analizamos si un solo prompt que maneja múltiples tareas, como el reconocimiento de entidades nombradas (NER), el análisis de sentimientos y el formato de salida JSON, puede lograr un rendimiento comparable a prompts dedicados de una sola tarea. Para respaldar nuestros hallazgos, empleamos análisis estadísticos, incluidas pruebas emparejadas de Wilcoxon, pruebas de McNemar y pruebas de Friedman, para validar afirmaciones de similitud o superioridad de rendimiento. Los experimentos se realizaron utilizando cinco LLMs de peso abierto: LLama3.1 8B, Qwen2 7B, Mistral 7B, Phi3 Medium y Gemma2 9B. Los resultados indican que no hay una regla definitiva que favorezca los prompts de una sola tarea sobre los prompts multitarea; más bien, su rendimiento relativo depende en gran medida de los datos y la arquitectura específicos del modelo. Este estudio destaca la interacción matizada entre estrategias de prompt y características de LLM, ofreciendo ideas para optimizar su uso para tareas específicas de procesamiento del lenguaje natural. También se discuten limitaciones y futuras direcciones, como la expansión de tipos de tareas.
Descripción
Este estudio investiga la efectividad de estrategias de ingeniería de prompts para Modelos de Lenguaje Grandes (LLMs), comparando prompts de una sola tarea y multitarea. Específicamente, analizamos si un solo prompt que maneja múltiples tareas, como el reconocimiento de entidades nombradas (NER), el análisis de sentimientos y el formato de salida JSON, puede lograr un rendimiento comparable a prompts dedicados de una sola tarea. Para respaldar nuestros hallazgos, empleamos análisis estadísticos, incluidas pruebas emparejadas de Wilcoxon, pruebas de McNemar y pruebas de Friedman, para validar afirmaciones de similitud o superioridad de rendimiento. Los experimentos se realizaron utilizando cinco LLMs de peso abierto: LLama3.1 8B, Qwen2 7B, Mistral 7B, Phi3 Medium y Gemma2 9B. Los resultados indican que no hay una regla definitiva que favorezca los prompts de una sola tarea sobre los prompts multitarea; más bien, su rendimiento relativo depende en gran medida de los datos y la arquitectura específicos del modelo. Este estudio destaca la interacción matizada entre estrategias de prompt y características de LLM, ofreciendo ideas para optimizar su uso para tareas específicas de procesamiento del lenguaje natural. También se discuten limitaciones y futuras direcciones, como la expansión de tipos de tareas.