Sistema de detección de plagio entre idiomas utilizando Análisis Semántico Latente y Vectorización Cuantitativa de Aprendizaje
Autores: Ratna, Anak Agung Putri; Purnamasari, Prima Dewi; Adhi, Boma Anantasatya; Ekadiyanto, F. Astha; Salman, Muhammad; Mardiyah, Mardiyah; Winata, Darien Jonathan
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Sistema de detección de plagio entre idiomas utilizando Análisis Semántico Latente y Vectorización Cuantitativa de Aprendizaje
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Detección de plagio computarizada
Entre idiomas
Bahasa Indonesia
Análisis Semántico Latente
Sintaxis
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La detección automatizada de plagio entre idiomas se ha vuelto esencial recientemente. Debido a la escasez de publicaciones científicas en bahasa indonesia, muchos autores indonesios consultan con frecuencia publicaciones en inglés para aumentar la cantidad de publicaciones científicas en bahasa indonesia (que actualmente está en aumento). Debido a la disparidad de sintaxis entre bahasa indonesia e inglés, la mayoría de los métodos existentes para la detección automatizada de plagio entre idiomas no proporcionan resultados satisfactorios. Este documento analiza la probabilidad de desarrollar Análisis Semántico Latente (LSA) para un detector automatizado de plagio entre idiomas con diferentes sintaxis. Para mejorar el rendimiento, se sugieren varias modificaciones en LSA. Al utilizar un clasificador de cuantización vectorial lineal (LVQ) en el LSA y teniendo en cuenta la norma de Frobenius, la precisión ha alcanzado hasta un 65.98%. Los resultados de los experimentos mostraron que la mejor precisión alcanzada es del 87% con un tamaño de documento de 6 palabras, y el tamaño de definición del documento debe mantenerse por debajo de 10 palabras para mantener una alta precisión. Además, basándose en los resultados experimentales, este documento sugiere utilizar el método de ocurrencia de frecuencia en lugar del método binario para la construcción de la matriz término-documento.
Descripción
La detección automatizada de plagio entre idiomas se ha vuelto esencial recientemente. Debido a la escasez de publicaciones científicas en bahasa indonesia, muchos autores indonesios consultan con frecuencia publicaciones en inglés para aumentar la cantidad de publicaciones científicas en bahasa indonesia (que actualmente está en aumento). Debido a la disparidad de sintaxis entre bahasa indonesia e inglés, la mayoría de los métodos existentes para la detección automatizada de plagio entre idiomas no proporcionan resultados satisfactorios. Este documento analiza la probabilidad de desarrollar Análisis Semántico Latente (LSA) para un detector automatizado de plagio entre idiomas con diferentes sintaxis. Para mejorar el rendimiento, se sugieren varias modificaciones en LSA. Al utilizar un clasificador de cuantización vectorial lineal (LVQ) en el LSA y teniendo en cuenta la norma de Frobenius, la precisión ha alcanzado hasta un 65.98%. Los resultados de los experimentos mostraron que la mejor precisión alcanzada es del 87% con un tamaño de documento de 6 palabras, y el tamaño de definición del documento debe mantenerse por debajo de 10 palabras para mantener una alta precisión. Además, basándose en los resultados experimentales, este documento sugiere utilizar el método de ocurrencia de frecuencia en lugar del método binario para la construcción de la matriz término-documento.