Ismael Esquivel Gámez
En este articulo, los autores Méndez-Torreblanca y otros [34], describen un método completo para la minería de noticias en línea, el cual navega a través de estos sitios Web, extrayendo las noticias de ellos.
Básicamente el método propuesto es adaptado para la característica peculiar de las noticias. Aplica esquemas dinámicos para la extracción de reportes noticiosos y estrategias estadísticas independientes de dominio para la identificación de tópicos y análisis de tendencias.
El método propuesto, como cualquier otro método minero de la web, consiste de cuatro grandes fases: identificación del recurso; preprocesamiento, generalización y análisis, las cuales se muestran en la figura 3.2 y se describen enseguida.
Figura 3.2 Método propuesto por Méndez-Torreblanca.
3.3.3.1 Identificación del recurso
Esta fase extrae todos los informes de las noticias de un sitio dado. Se lleva a cabo como un reptil que navega por un sitio de la red y continuamente extrae los informes de las noticias de él. Este reptil opera como sigue:
• Descarga la página del sitio web donde se encuentran las noticias
• Filtra la página descargada. Elimina la página si ya había sido descargada o pertenece a otro sitio. También verifica si la página es un informe de las noticias y no está anticuado, volviéndose entonces un documento de interés.
• Analiza el informe de noticias. Elimina información no pertinente como
• etiquetas y almacena el contenido del informe de las noticias para su proceso.
El proceso de identificación se activa periódicamente, ej. diariamente o dos veces en un día. Después de que este proceso se completa, los documentos obtenidos constituyen una foto instantánea de los eventos actuales y son preprocesados y almacenados. Después, el usuario puede seleccionar un periodo para el análisis.
3.3.3.2 Preprocesamiento.
Esta etapa transforma los reportes noticiosos entrantes en una representación estructurada. Se reduce el texto a una lista de tópicos, los cuales son vinculados a sustantivos y almacenados los más populares.
3.3.3.3 Generalización.
Se trata de descubrir tendencias interesantes entre los tópicos mediante dos actividades: la construcción de las distribuciones de los tópicos y el análisis de tendencias.
3.3.3.4 Análisis
En esta etapa el usuario interactúa con el sistema, estableciendo el período de trabajo y algunos parámetros de control. El usuario puede analizar entonces los patrones descubiertos y si no le son interesantes, puede repetir el proceso con otro período y parámetros hasta encontrar resultados satisfactorios.
Los resultados indican que el descubrimiento de tendencias en las noticias ayuda a interpretar los intereses de la sociedad y descubren información escondida acerca de la relación entre los eventos de la vida social.