PROCEDIMIENTO PARA EL TRATAMIENTO DE LAS NOTICIAS

Tesis doctorales de Economía

TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez

Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

5.8 PROCEDIMIENTO PARA EL TRATAMIENTO DE LAS NOTICIAS

Por cada noticia, se llevan a cabo dos acciones complementarias, se procesa el título y se trata el primer párrafo.

A partir del trabajo de Esquivel [61], se ejecutan tres etapas: Configuración, preprocesamiento y post-procesamiento.

Configuración.

Inicialmente se almacenan los objetos y verbos descubiertos del procesamiento manual. Periódicamente se agregan verbos y objetos nuevos al registro que se describe en el anexo B y C, provenientes de los elementos detectados y guardados durante la fase de lectura que más delante se describe.

Además, de vez en cuando se reg.istran y/o modifican datos de la empresa competidora de interés, su nombre y dirección Web donde se publican sus avisos. La relación de empresas se consagra en el anexo A.

Las actividades en esta etapa modifican el contenido de las tablas EMPRESAS, REFERENTES Y ACCIONES, mostradas en el modelo de conjuntos de entidades y su relación de la figura 5.7, para una base de datos relacional.

Figura 5.7 Diagrama ERM

Dicha base de datos, contiene los elementos de referencia y por registrar, una vez que se realizan las tres etapas antes señaladas. Para una mejor comprensión, se describen en la tabla 5.6 los archivos que conforman la base de datos y en el anexo I, se documenta el diccionario de los datos.

Archivo Descripción

NOTICIAS Contiene la noticia en formato estructurado

EMPRESAS Maneja las empresas por procesar

REFERENTES Mantiene los referentes de objetos contenidos en la noticia

ACCIONES Comprende los verbos principales a detectarse en la noticia

PREGUNTAS Engloba las preguntas a ser respondidas para fines de la inteligencia competitiva

BASADAS_EN Registra los referentes asociados a preguntas genéricas que permitirán las consultas al sistema , acciones y

BASADAS_EN1 Registra las acciones asociadas a preguntas genéricas que permitirán las consultas al sistema

EVENTOS Enlista los hechos que comprende cada una de las preguntas genéricas

CONTIENEN Permite la posibilidad de que varios eventos se asignen a más de una pregunta

Tabla 5.6 Descripción de los archivos de la base de datos

Preprocesamiento.

Se efectúan operaciones de lectura (figura 5.8) y escritura (figura 5.9), en una base periódica, como se describen a continuación:

Lectura

- Se obtiene del registro de empresas, la dirección electrónica específica donde se publican las noticias

- Se obtiene una copia del archivo HTML que contiene las noticias

- Se convierte a archivo texto sin etiquetas

- Se procede a transformar el archivo resultante, eliminando de cada noticia, el texto fuera del título y primer párrafo.

- Se compara el archivo obtenido con una versión anterior, si son iguales es indicativo de que todavía no se han publicado noticias nuevas en el sitio y se procede con la siguiente empresa

- De ser una versión distinta, el archivo que resulta se duplica como versión anterior para su posterior comparación. El nombre del archivo se agrega al listado de empresas por trabajar

- Se comparan los títulos obtenidos con los de la versión anterior y, en caso de coincidir alguno de ellos, se elimina del archivo de trabajo.

Figura 5.8 Pasos del preprocesamiento (Lectura)

Escritura

Del listado anterior, se realizan las siguientes operaciones:

- Se obtiene el nombre del archivo por procesar

- Se lee del archivo correspondiente, cada uno de los títulos que la conforman

- Por cada título

o Se verifica que las palabras del título contengan solo mayúsculas ya sea en la primer letra o en todas

o En caso afirmativo, se procede a convertir todas a minúsculas

 Se descartan términos no significativos (artículos, preposiciones, conjunciones, adverbios)

 Luego en los términos resultantes, se buscan palabras correspondientes a objetos del archivo correspondiente (Anexo B)

 Al coincidir, se almacena para el posterior tratamiento del encabezado

 En caso contrario, se verifica que exista en la lista de términos no referenciados. De se así se incrementa su frecuencia y si no se registra en la lista. Esto permitirá posteriormente una revisión manual para enriquecer la lista de objetos

o En caso contrario, el título se procesa con el algoritmo que más adelante se presenta (Máxima Abstracción)

 Se verifica la detección de los elementos principales (Agente, Verbo y Objeto)

• En caso positivo, termina el procesamiento de la noticia (postprocesamiento) y se continua con el siguiente titular

• Caso contrario, se procede al procesamiento del primer párrafo (lead) con el algoritmo denominado Máxima Abstracción

Figura 5.9 Pasos del preprocesamiento (Escritura)

o Se procede a registrar de manera estructurada la noticia (postprocesamiento)

- Se determina si ya se procesaron todos los títulos de la empresa

o De no ser así, se continua con el siguiente

o Caso contrario se procede a la siguiente empresa

Post-procesamiento

Por cada noticia procesada, se realizan tareas de ajuste como a continuación se presenta en la figura 5.10 y se describe.

Figura 5.10 Etapa de Post-procesamiento

• Se normalizan los elementos repetibles como son: referentes de objeto, acciones y calificadores de objeto.

• Una vez hecho lo anterior, se procede a buscar las claves numéricas que los representan dentro de algunos de los archivos previamente presentados (REFERENTES, ACCIONES y EMPRESAS).

• En caso de no encontrar ciertos valores, sobretodo para referentes y acciones, se les asigna un valor de cero, que serán referenciados como valores no disponibles (N/D) en su primera ocurrencia.

• Se incrementa el contador de noticias por cada emisión de la empresa para una fecha dada.

• Se procede al registro de manera estructurada de los elementos básicos de la noticia.