Hacia un marco de ajuste fino personal de extremo a extremo para la alineación de valores de IA
Autores: Watson, Eleanor; Viana, Thiago; Zhang, Shujun; Sturgeon, Benjamin; Petersson, Lukas
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Hacia un marco de ajuste fino personal de extremo a extremo para la alineación de valores de IA
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Arquitectura novedosa
Alineación de valores
Personalización
Marco de trabajo
Sistemas de IA
Implementación experimental
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Este estudio presenta una arquitectura novedosa para la alineación de valores, preferencias y límites en modelos de lenguaje grandes (LLMs) y sistemas de IA generativos, acompañada de una implementación experimental. Aborda las limitaciones en la confiabilidad de los modelos de IA derivadas de una comprensión insuficiente del contexto personal, las preferencias y la diversidad cultural, lo que puede llevar a sesgos y riesgos de seguridad. Utilizando un enfoque de investigación inductiva y cualitativa, proponemos un marco para personalizar modelos de IA con el fin de mejorar la alineación del modelo a través de un contexto adicional y límites establecidos por los usuarios. Nuestro marco incorpora herramientas amigables para la identificación, anotación y simulación en diversos contextos, utilizando segmentación semántica impulsada por instrucciones y etiquetado automático. Su objetivo es agilizar la generación de escenarios y procesos de personalización al mismo tiempo que proporciona herramientas de anotación accesibles. El estudio examina varios componentes de este marco, incluidas las interfaces de usuario, las herramientas subyacentes y la mecánica del sistema. Presentamos un estudio piloto que demuestra la capacidad del marco para reducir la complejidad de la obtención de valores y la personalización en LLMs. Nuestra configuración experimental implica una implementación prototipo de módulos clave del marco, incluida una interfaz de obtención de valores y un mecanismo de ajuste fino para modelos de lenguaje. El objetivo principal es crear un sistema basado en tokens que permita a los usuarios impartir fácilmente sus valores y preferencias a los sistemas de IA, mejorando la personalización y alineación del modelo. Esta investigación contribuye a la democratización del ajuste fino de modelos de IA y la generación de conjuntos de datos, avanzando en los esfuerzos de alineación de valores en IA. Al centrarse en la implementación práctica y la interacción del usuario, nuestro estudio cierra la brecha entre enfoques teóricos de alineación y aplicaciones del mundo real en sistemas de IA.
Descripción
Este estudio presenta una arquitectura novedosa para la alineación de valores, preferencias y límites en modelos de lenguaje grandes (LLMs) y sistemas de IA generativos, acompañada de una implementación experimental. Aborda las limitaciones en la confiabilidad de los modelos de IA derivadas de una comprensión insuficiente del contexto personal, las preferencias y la diversidad cultural, lo que puede llevar a sesgos y riesgos de seguridad. Utilizando un enfoque de investigación inductiva y cualitativa, proponemos un marco para personalizar modelos de IA con el fin de mejorar la alineación del modelo a través de un contexto adicional y límites establecidos por los usuarios. Nuestro marco incorpora herramientas amigables para la identificación, anotación y simulación en diversos contextos, utilizando segmentación semántica impulsada por instrucciones y etiquetado automático. Su objetivo es agilizar la generación de escenarios y procesos de personalización al mismo tiempo que proporciona herramientas de anotación accesibles. El estudio examina varios componentes de este marco, incluidas las interfaces de usuario, las herramientas subyacentes y la mecánica del sistema. Presentamos un estudio piloto que demuestra la capacidad del marco para reducir la complejidad de la obtención de valores y la personalización en LLMs. Nuestra configuración experimental implica una implementación prototipo de módulos clave del marco, incluida una interfaz de obtención de valores y un mecanismo de ajuste fino para modelos de lenguaje. El objetivo principal es crear un sistema basado en tokens que permita a los usuarios impartir fácilmente sus valores y preferencias a los sistemas de IA, mejorando la personalización y alineación del modelo. Esta investigación contribuye a la democratización del ajuste fino de modelos de IA y la generación de conjuntos de datos, avanzando en los esfuerzos de alineación de valores en IA. Al centrarse en la implementación práctica y la interacción del usuario, nuestro estudio cierra la brecha entre enfoques teóricos de alineación y aplicaciones del mundo real en sistemas de IA.