Un teorema límite de tipo Rényi sobre sumas aleatorias y la precisión de la clasificación basada en verosimilitud de secuencias aleatorias con aplicación a la genómica
Autores: Hanin, Leonid; Pavlova, Lyudmila
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un teorema límite de tipo Rényi sobre sumas aleatorias y la precisión de la clasificación basada en verosimilitud de secuencias aleatorias con aplicación a la genómica
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación
Secuencias aleatorias
Puntuación de verosimilitud
Distribuciones de longitud
Distribuciones límite
TNBD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Estudiamos la clasificación de secuencias aleatorias de caracteres seleccionados de un alfabeto dado en dos clases caracterizadas por probabilidades de selección de caracteres y distribuciones de longitud distintas. La clasificación se basa en el signo de la puntuación de verosimilitud logarítmica (LLS) que consiste en una suma aleatoria y un término aleatorio que depende de las distribuciones de longitud para las dos clases. Para secuencias largas seleccionadas de un alfabeto grande, calcular las tasas de error de clasificación incorrecta no es factible ni teórica ni computacionalmente. Para mitigar este problema, calculamos distribuciones límite para dos versiones de la LLS normalizada aplicables a secuencias largas cuya longitud específica de clase sigue una distribución binomial negativa traducida (TNBD). Las dos distribuciones límite resultaron ser distribuciones de Erlang simples o transformadas. Esto nos permitió establecer la precisión asintótica de la clasificación basada en la verosimilitud de secuencias aleatorias con distribuciones de longitud TNBD. Nuestro teorema límite generaliza un teorema clásico sobre sumas aleatorias geométricas debido a Rényi y está estrechamente relacionado con los resultados publicados de V. Korolev y sus colegas sobre sumas aleatorias binomiales negativas. Como ilustración, aplicamos nuestro teorema límite a la clasificación de secuencias de ADN contenidas en el genoma de la bacteria en dos clases: genes codificadores de proteínas y marcos de lectura abierta no codificantes estándar. Encontramos que las TNBDs se ajustan muy bien a las distribuciones de longitud para ambas clases y que las distribuciones límite capturan características esenciales de la LLS empírica normalizada bastante bien.
Descripción
Estudiamos la clasificación de secuencias aleatorias de caracteres seleccionados de un alfabeto dado en dos clases caracterizadas por probabilidades de selección de caracteres y distribuciones de longitud distintas. La clasificación se basa en el signo de la puntuación de verosimilitud logarítmica (LLS) que consiste en una suma aleatoria y un término aleatorio que depende de las distribuciones de longitud para las dos clases. Para secuencias largas seleccionadas de un alfabeto grande, calcular las tasas de error de clasificación incorrecta no es factible ni teórica ni computacionalmente. Para mitigar este problema, calculamos distribuciones límite para dos versiones de la LLS normalizada aplicables a secuencias largas cuya longitud específica de clase sigue una distribución binomial negativa traducida (TNBD). Las dos distribuciones límite resultaron ser distribuciones de Erlang simples o transformadas. Esto nos permitió establecer la precisión asintótica de la clasificación basada en la verosimilitud de secuencias aleatorias con distribuciones de longitud TNBD. Nuestro teorema límite generaliza un teorema clásico sobre sumas aleatorias geométricas debido a Rényi y está estrechamente relacionado con los resultados publicados de V. Korolev y sus colegas sobre sumas aleatorias binomiales negativas. Como ilustración, aplicamos nuestro teorema límite a la clasificación de secuencias de ADN contenidas en el genoma de la bacteria en dos clases: genes codificadores de proteínas y marcos de lectura abierta no codificantes estándar. Encontramos que las TNBDs se ajustan muy bien a las distribuciones de longitud para ambas clases y que las distribuciones límite capturan características esenciales de la LLS empírica normalizada bastante bien.