Adaptación de representación dispersa de entrada continua para máquinas Tsetlin basada en búsqueda estocástica en la línea
Autores: Abeyrathna, Kuruge Darshana; Granmo, Ole-Christoffer; Goodwin, Morten
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Adaptación de representación dispersa de entrada continua para máquinas Tsetlin basada en búsqueda estocástica en la línea
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Nueva aproximación
Entradas continuas
Máquinas Tsetlin
Búsqueda Estocástica en la Línea
Interpretabilidad
Uso de memoria
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Este documento introduce un enfoque novedoso para representar entradas continuas en Máquinas Tsetlin (TMs). En lugar de usar un Autómata Tsetlin (TA) para cada umbral único encontrado al booleanizar la entrada continua, empleamos dos autómatas de Búsqueda Estocástica en la Línea (SSL) para aprender límites inferiores y superiores discriminativos. Las dos características booleanas resultantes se adaptan al resto de la cláusula equipando a cada cláusula con su propio equipo de SSLs, que actualizan los límites durante el proceso de aprendizaje. Finalmente, dos TAs estándar deciden si incluir las características resultantes como parte de la cláusula. De esta manera, solo cuatro autómatas representan en total una característica continua (en lugar de potencialmente cientos de ellos). Evaluamos el rendimiento del nuevo esquema empíricamente utilizando cinco conjuntos de datos, junto con un estudio de interpretabilidad. En promedio, las TMs con representación de características SSL utilizan menos literales que la TM con características basadas en umbrales estáticos. Además, en términos de uso promedio de memoria y puntuación F1, nuestro enfoque supera a las Redes Neuronales Artificiales Multicapa simples, Árboles de Decisión, Máquinas de Vectores de Soporte, Vecino más Cercano, Bosques Aleatorios, Árboles Potenciados por Gradiente (XGBoost) y Máquinas de Potenciación Explicables (EBMs), así como las TMs estándar y las TMs ponderadas por valores reales. Nuestro enfoque supera además a los Modelos Aditivos Neuronales en Detección de Fraude y a StructureBoost en CA-58 en términos del Área Bajo la Curva mientras compite de manera competitiva en COMPAS.
Descripción
Este documento introduce un enfoque novedoso para representar entradas continuas en Máquinas Tsetlin (TMs). En lugar de usar un Autómata Tsetlin (TA) para cada umbral único encontrado al booleanizar la entrada continua, empleamos dos autómatas de Búsqueda Estocástica en la Línea (SSL) para aprender límites inferiores y superiores discriminativos. Las dos características booleanas resultantes se adaptan al resto de la cláusula equipando a cada cláusula con su propio equipo de SSLs, que actualizan los límites durante el proceso de aprendizaje. Finalmente, dos TAs estándar deciden si incluir las características resultantes como parte de la cláusula. De esta manera, solo cuatro autómatas representan en total una característica continua (en lugar de potencialmente cientos de ellos). Evaluamos el rendimiento del nuevo esquema empíricamente utilizando cinco conjuntos de datos, junto con un estudio de interpretabilidad. En promedio, las TMs con representación de características SSL utilizan menos literales que la TM con características basadas en umbrales estáticos. Además, en términos de uso promedio de memoria y puntuación F1, nuestro enfoque supera a las Redes Neuronales Artificiales Multicapa simples, Árboles de Decisión, Máquinas de Vectores de Soporte, Vecino más Cercano, Bosques Aleatorios, Árboles Potenciados por Gradiente (XGBoost) y Máquinas de Potenciación Explicables (EBMs), así como las TMs estándar y las TMs ponderadas por valores reales. Nuestro enfoque supera además a los Modelos Aditivos Neuronales en Detección de Fraude y a StructureBoost en CA-58 en términos del Área Bajo la Curva mientras compite de manera competitiva en COMPAS.