logo móvil
Contáctanos

Un teorema límite de tipo Rényi sobre sumas aleatorias y la precisión de la clasificación basada en verosimilitud de secuencias aleatorias con aplicación a la genómica

Autores: Hanin, Leonid; Pavlova, Lyudmila

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un teorema límite de tipo Rényi sobre sumas aleatorias y la precisión de la clasificación basada en verosimilitud de secuencias aleatorias con aplicación a la genómica


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Clasificación
Secuencias aleatorias
Puntuación de verosimilitud
Distribuciones de longitud
Distribuciones límite
TNBD

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
Estudiamos la clasificación de secuencias aleatorias de caracteres seleccionados de un alfabeto dado en dos clases caracterizadas por probabilidades de selección de caracteres y distribuciones de longitud distintas. La clasificación se basa en el signo de la puntuación de verosimilitud logarítmica (LLS) que consiste en una suma aleatoria y un término aleatorio que depende de las distribuciones de longitud para las dos clases. Para secuencias largas seleccionadas de un alfabeto grande, calcular las tasas de error de clasificación incorrecta no es factible ni teórica ni computacionalmente. Para mitigar este problema, calculamos distribuciones límite para dos versiones de la LLS normalizada aplicables a secuencias largas cuya longitud específica de clase sigue una distribución binomial negativa traducida (TNBD). Las dos distribuciones límite resultaron ser distribuciones de Erlang simples o transformadas. Esto nos permitió establecer la precisión asintótica de la clasificación basada en la verosimilitud de secuencias aleatorias con distribuciones de longitud TNBD. Nuestro teorema límite generaliza un teorema clásico sobre sumas aleatorias geométricas debido a Rényi y está estrechamente relacionado con los resultados publicados de V. Korolev y sus colegas sobre sumas aleatorias binomiales negativas. Como ilustración, aplicamos nuestro teorema límite a la clasificación de secuencias de ADN contenidas en el genoma de la bacteria en dos clases: genes codificadores de proteínas y marcos de lectura abierta no codificantes estándar. Encontramos que las TNBDs se ajustan muy bien a las distribuciones de longitud para ambas clases y que las distribuciones límite capturan características esenciales de la LLS empírica normalizada bastante bien.

Otros recursos que podrían interesarte

Temas Virtualpro