Neutralización de género para sintetización de voz imparcial
Autores: Rizhinashvili, Davit; Sham, Abdallah Hussein; Anbarjafari, Gholamreza
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Neutralización de género para sintetización de voz imparcial
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje automático
Prejuicios negativos
Estereotipos
Algoritmos
Sesgo de género
Procesamiento del habla
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El aprendizaje automático puede codificar y amplificar sesgos o estereotipos negativos ya presentes en los humanos, lo que resulta en casos de alto perfil. Pueden existir múltiples fuentes que codifiquen el sesgo negativo en estos algoritmos, como errores en el etiquetado humano, representación inexacta de diferentes grupos de población en los conjuntos de datos de entrenamiento, y estructuras de modelo y métodos de optimización elegidos. Nuestro artículo propone un enfoque novedoso para el procesamiento del habla que puede resolver el problema de sesgo de género al eliminar el parámetro de género. Por lo tanto, hemos ideado un sistema que transforma el sonido de entrada (habla de una persona) en una voz neutralizada hasta el punto en que el género del hablante se vuelve indistinguible tanto para humanos como para la inteligencia artificial. Se ha utilizado una red basada en Wav2Vec para llevar a cabo el reconocimiento de género del habla para validar la afirmación principal de este trabajo de investigación, que es la neutralización del género del habla. Un sistema así puede utilizarse como una capa de preprocesamiento en lotes para entrenar modelos, haciendo que el sesgo de género asociado sea irrelevante. Además, un sistema así también puede encontrar aplicación donde el sesgo de género del hablante por parte de los humanos también sea prominente, ya que el oyente no podrá juzgar el género a partir del habla.
Descripción
El aprendizaje automático puede codificar y amplificar sesgos o estereotipos negativos ya presentes en los humanos, lo que resulta en casos de alto perfil. Pueden existir múltiples fuentes que codifiquen el sesgo negativo en estos algoritmos, como errores en el etiquetado humano, representación inexacta de diferentes grupos de población en los conjuntos de datos de entrenamiento, y estructuras de modelo y métodos de optimización elegidos. Nuestro artículo propone un enfoque novedoso para el procesamiento del habla que puede resolver el problema de sesgo de género al eliminar el parámetro de género. Por lo tanto, hemos ideado un sistema que transforma el sonido de entrada (habla de una persona) en una voz neutralizada hasta el punto en que el género del hablante se vuelve indistinguible tanto para humanos como para la inteligencia artificial. Se ha utilizado una red basada en Wav2Vec para llevar a cabo el reconocimiento de género del habla para validar la afirmación principal de este trabajo de investigación, que es la neutralización del género del habla. Un sistema así puede utilizarse como una capa de preprocesamiento en lotes para entrenar modelos, haciendo que el sesgo de género asociado sea irrelevante. Además, un sistema así también puede encontrar aplicación donde el sesgo de género del hablante por parte de los humanos también sea prominente, ya que el oyente no podrá juzgar el género a partir del habla.