Tesis Doctoral "Ingeniería de Atributos y Minería de Datos para la Recuperación de Información con Adversario"

Calendario

Autor: Enrique Puertas Sanz (UEM)

Director: José María Gómez Hidalgo (Optenet)

Fcha: jueves 19 de Diciembre de 2013, a las 12h00

Lugar de defensa: Aula 318, Edificio C, Universidad Europea de Madrid

Resumen

El creciente uso de Internet ha venido acompañado de numerosas ventajas, pero también de oportunidades para el fraude. Un buen ejemplo de este tipo de abuso lo encontramos en el correo electrónico, una herramienta con indudable valor para la comunicación de las personas, pero que tiene el inconveniente del correo no solicitado (spam). Otros abusos son, por ejemplo, la descarga de páginas web inapropiadas (e.g. pornográficas) en el puesto de trabajo, o el spam enviado a dispositivos móviles.

Debido a la naturaleza de índole textual que se maneja en ese tipo de escenarios, éstos han sido abordados normalmente por medio de técnicas de minería de texto, es decir, de descubrimiento de conocimiento en bases de datos textuales. Sin embargo, ese tipo de abusos tienen elemento común que hace que las tareas de minería de texto tradicionales no funcionen correctamente: En todas ellas existe un adversario que intenta degradar la eficiencia de los categorizadores de texto generados por técnicas de aprendizaje automático. En estos casos se habla de tareas de clasificación o categorización (de texto) con adversario, en el que los sistemas de análisis y aprendizaje deben tener presente la existencia de un adversario (por ejemplo, el spammer) cuyo objetivo es degradar la efectividad de los sistemas de clasificación construidos con estas técnicas.

En esta tesis, las dos contribuciones fundamentales del trabajo son la aplicación de técnicas de ingeniería de atributos y el desarrollo de un método específico de evaluación, más adecuado que los precedentes, para este tipo de problemas con adversario. Éste método de evaluación que hemos propuesto en esta investigación se ha convertido en un estándar en el campo científico de la seguridad, y se ha utilizado en competiciones científicas del más alto nivel, como las Conferencias TREC (Text REtrieval Conferences), para la evaluación de sistemas de filtrado de correo basura. Más concretamente, en esta Tesis hemos demostrado que es posible tratar de una manera unificada el proceso más sensible en la Categorización de Texto con Adversario, que es la representación de los textos, usando técnicas de ingeniería del Lenguaje Natural, y realizar una evaluación homogénea para diversas tareas a pesar de los distintos costes, variables, y de los distintas asimetrías en la distribución de las clases.