El desempeño de postprocesamiento ASR de los desafíos de BackTranScription (BTS): Enfoques centrados en datos y en modelos
Autores: Park, Chanjun; Seo, Jaehyung; Lee, Seolhwa; Lee, Chanhee; Lim, Heuiseok
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
El desempeño de postprocesamiento ASR de los desafíos de BackTranScription (BTS): Enfoques centrados en datos y en modelos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Reconocimiento automático del habla
Secuencia a secuencia
BackTransScription
Método de construcción de datos
Desafíos de investigación
Enfoque centrado en los datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Entrenar un postprocesador de reconocimiento automático del habla (ASR) basado en secuencia a secuencia (S2S) requiere un paralelo (por ejemplo, resultado de reconocimiento de voz y oración post-editada por humanos) para construir el conjunto de datos, lo que demanda una gran cantidad de mano de obra humana. BackTransScription (BTS) propone un método de construcción de datos para mitigar las limitaciones de los postprocesadores de ASR basados en S2S existentes, que pueden generar automáticamente vastas cantidades de conjuntos de datos de entrenamiento, reduciendo tiempo y costos en la construcción de datos. A pesar de la aparición de este enfoque novedoso, el postprocesador de ASR basado en BTS aún tiene desafíos de investigación y en su mayoría no ha sido probado en enfoques diversos. En este estudio, destacamos estos desafíos a través de experimentos detallados analizando el enfoque (es decir, controlando la cantidad de datos sin alteración del modelo) y el enfoque (es decir, modificación del modelo). En otras palabras, intentamos señalar problemas con la tendencia actual de investigación que persigue un enfoque centrado en el modelo y alertamos contra ignorar la importancia de los datos. Nuestros resultados experimentales muestran que el enfoque centrado en los datos superó al enfoque centrado en el modelo en +11.69, +17.64 y +19.02 en las pruebas de puntuación F1, BLEU y GLEU.
Descripción
Entrenar un postprocesador de reconocimiento automático del habla (ASR) basado en secuencia a secuencia (S2S) requiere un paralelo (por ejemplo, resultado de reconocimiento de voz y oración post-editada por humanos) para construir el conjunto de datos, lo que demanda una gran cantidad de mano de obra humana. BackTransScription (BTS) propone un método de construcción de datos para mitigar las limitaciones de los postprocesadores de ASR basados en S2S existentes, que pueden generar automáticamente vastas cantidades de conjuntos de datos de entrenamiento, reduciendo tiempo y costos en la construcción de datos. A pesar de la aparición de este enfoque novedoso, el postprocesador de ASR basado en BTS aún tiene desafíos de investigación y en su mayoría no ha sido probado en enfoques diversos. En este estudio, destacamos estos desafíos a través de experimentos detallados analizando el enfoque (es decir, controlando la cantidad de datos sin alteración del modelo) y el enfoque (es decir, modificación del modelo). En otras palabras, intentamos señalar problemas con la tendencia actual de investigación que persigue un enfoque centrado en el modelo y alertamos contra ignorar la importancia de los datos. Nuestros resultados experimentales muestran que el enfoque centrado en los datos superó al enfoque centrado en el modelo en +11.69, +17.64 y +19.02 en las pruebas de puntuación F1, BLEU y GLEU.