lunes, 25 de julio de 2011

Adiós al "Copie y pegue"


DOCODE - DOcument COpy DEtector es un proyecto Fondef del Web Intelligence Research Center del Departamento de Ingenieria Industrial de la Universidad de Chile

El proyecto

La Web puede ser considerada una gran base de datos desde donde es posible adquirir cualquier tipo de información sobre un determinado tema. Este acceso universal al conocimiento, indudablemente trae consigo enormes beneficios sociales, pero no está exento de ciertos vicios, como lo es la copia textual para propósitos particulares

En efecto, cada vez es más difundido el fenómeno de “copy and paste” en documentos diseminados en la Web, para cumplir con la redacción de algún trabajo.

En tal sentido, utilizando técnicas de minería de datos, específicamente minería de textos, procesamiento de lenguaje natural y minería de datos originados en la Web (web mining), se desarrollará un sistema detector de copias que dado un documento, realice una búsqueda en la Web y en trabajos anteriores, para generar un listado de posibles fuentes de copia, lo que permitirá realizar un análisis más profundo para determinar cuáles documentos fueron creados a partir de las copias textuales de partes o la totalidad de otros escritos y cuáles son un trabajo original de su autor.

Para lograr una conciencia nacional al respecto, y mejorar la calidad de la educación, se llevará a cabo el proyecto DOcument COpy DEtection (DOCODE). Entre una serie de elementos transversales que representar las distintas líneas de investigación, el núcleo de este proyecto se desarrollará en base a metodologías de detección de copia textual, copia de documentos con variaciones y copia utilizando análisis semántico latente. Con respecto a la detección de copia utilizando búsqueda con reglas semánticas y ontologías, no se desarrollarán más que primeras aproximaciones dadas las restricciones presupuestarias presentes en el proyecto.

Más información en: http://www.docode.cl/