Análisis Experimental del Stemming en la Recuperación de Documentos Jurisprudenciales
Autores: N. de Oliveira, Robert A.; C. Junior, Methanias
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Análisis Experimental del Stemming en la Recuperación de Documentos Jurisprudenciales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Algoritmos de stemming
Dimensionalidad de datos
Dominio
Radicalización
Jurisprudencia judicial
Stemmers
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los algoritmos de stemming se utilizan comúnmente durante la fase de preprocesamiento textual para reducir la dimensionalidad de los datos. Sin embargo, esta reducción presenta diferentes niveles de eficacia dependiendo del dominio al que se aplique. Así, por ejemplo, hay informes en la literatura que muestran el efecto del stemming cuando se aplica a diccionarios o bases textuales de noticias. Por otro lado, no hemos encontrado estudios que analicen el impacto de la radicalización en la jurisprudencia judicial brasileña, compuesta por decisiones dictadas por el poder judicial, un instrumento fundamental para que los profesionales del derecho desempeñen su papel. Así, este trabajo presenta dos experimentos completos, mostrando los resultados obtenidos a través del análisis y evaluación de los stemmers aplicados a documentos jurisprudenciales reales, originarios del Tribunal de Justicia del Estado de Sergipe. En el primer experimento, los resultados mostraron que, entre los algoritmos analizados, el RSLP (Removedor de Sufijos de la Lengua Portuguesa) poseía la mayor capacidad de reducción de dimensionalidad de los datos. En el segundo, a través de la evaluación de los algoritmos de stemming en la recuperación de documentos legales, el RSLP-S (Removedor de Sufijos de la Lengua Portuguesa Singular) y UniNE (Universidad de Neuchâtel), stemmers menos agresivos, presentaron la mejor relación costo-beneficio, ya que redujeron la dimensionalidad de los datos y aumentaron la efectividad de las métricas de evaluación de recuperación de información en una de las colecciones analizadas.
Descripción
Los algoritmos de stemming se utilizan comúnmente durante la fase de preprocesamiento textual para reducir la dimensionalidad de los datos. Sin embargo, esta reducción presenta diferentes niveles de eficacia dependiendo del dominio al que se aplique. Así, por ejemplo, hay informes en la literatura que muestran el efecto del stemming cuando se aplica a diccionarios o bases textuales de noticias. Por otro lado, no hemos encontrado estudios que analicen el impacto de la radicalización en la jurisprudencia judicial brasileña, compuesta por decisiones dictadas por el poder judicial, un instrumento fundamental para que los profesionales del derecho desempeñen su papel. Así, este trabajo presenta dos experimentos completos, mostrando los resultados obtenidos a través del análisis y evaluación de los stemmers aplicados a documentos jurisprudenciales reales, originarios del Tribunal de Justicia del Estado de Sergipe. En el primer experimento, los resultados mostraron que, entre los algoritmos analizados, el RSLP (Removedor de Sufijos de la Lengua Portuguesa) poseía la mayor capacidad de reducción de dimensionalidad de los datos. En el segundo, a través de la evaluación de los algoritmos de stemming en la recuperación de documentos legales, el RSLP-S (Removedor de Sufijos de la Lengua Portuguesa Singular) y UniNE (Universidad de Neuchâtel), stemmers menos agresivos, presentaron la mejor relación costo-beneficio, ya que redujeron la dimensionalidad de los datos y aumentaron la efectividad de las métricas de evaluación de recuperación de información en una de las colecciones analizadas.