Un sistema de búsqueda de texto de alto rendimiento no indexado
Autores: Kieu-Do-Nguyen, Binh; Dang, Tuan-Kiet; The Binh, Nguyen; Pham-Quoc, Cuong; Phuc Nghi, Huynh; Tran, Ngoc-Thinh; Inoue, Katsumi; Pham, Cong-Kha; Hoang, Trong-Thuc
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un sistema de búsqueda de texto de alto rendimiento no indexado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Búsqueda de texto completo
Indexación
Recuperación
Eficiencia
Memoria
Tiempo de procesamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La búsqueda de texto completo tiene una amplia gama de aplicaciones, incluidos sistemas de seguimiento, visión por computadora y procesamiento de lenguaje natural. Los métodos estándar generalmente implementan un procedimiento de dos fases: indexación y recuperación, con el rendimiento de recuperación dependiendo totalmente de la eficiencia del índice. En la mayoría de los casos, cuanto más potente sea el algoritmo de índice, más memoria y tiempo de procesamiento se requerirán. La cantidad de tiempo y memoria necesarios para indexar una colección de documentos es proporcional a su tamaño total. En este documento, proponemos una implementación de hardware de búsqueda de texto completo sin la fase de indexación, eliminando así los requisitos de tiempo y memoria para la indexación. Además, proponemos un diseño eficiente para aprovechar la arquitectura paralela de la Memoria de Alto Ancho de Banda (HBM). Hasta donde sabemos, pocos (si es que alguno) investigadores han integrado su sistema de búsqueda de texto completo con un control efectivo de acceso a datos en HBM. La funcionalidad del sistema propuesto se verifica en el FPGA Xilinx Alveo U50. Los resultados experimentales muestran que nuestro sistema logró un rendimiento de 8 gigabytes por segundo, aproximadamente 6697 veces más rápido en comparación con otros enfoques basados en software.
Descripción
La búsqueda de texto completo tiene una amplia gama de aplicaciones, incluidos sistemas de seguimiento, visión por computadora y procesamiento de lenguaje natural. Los métodos estándar generalmente implementan un procedimiento de dos fases: indexación y recuperación, con el rendimiento de recuperación dependiendo totalmente de la eficiencia del índice. En la mayoría de los casos, cuanto más potente sea el algoritmo de índice, más memoria y tiempo de procesamiento se requerirán. La cantidad de tiempo y memoria necesarios para indexar una colección de documentos es proporcional a su tamaño total. En este documento, proponemos una implementación de hardware de búsqueda de texto completo sin la fase de indexación, eliminando así los requisitos de tiempo y memoria para la indexación. Además, proponemos un diseño eficiente para aprovechar la arquitectura paralela de la Memoria de Alto Ancho de Banda (HBM). Hasta donde sabemos, pocos (si es que alguno) investigadores han integrado su sistema de búsqueda de texto completo con un control efectivo de acceso a datos en HBM. La funcionalidad del sistema propuesto se verifica en el FPGA Xilinx Alveo U50. Los resultados experimentales muestran que nuestro sistema logró un rendimiento de 8 gigabytes por segundo, aproximadamente 6697 veces más rápido en comparación con otros enfoques basados en software.