Tesis doctorales de Economía


TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez



Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

 

 

 

2.5.2.1 Minería de contenidos

Text Mining: se trata fundamentalmente de técnicas de recuperación de información (IR), técnicas estadísticas y lingüísticas. Hay dos tipos de aplicaciones: text categorization y text clustering.

Hypertext Mining: no se refiere sólo a los enlaces entre documentos, sino también a enlaces intradocumentos. Se realiza con la ayuda del grafo de referencias.

Markup Mining: las marcas contienen información (las marcas HTML contienen secciones, tablas, negritas, cursivas; las marcas XML contienen aún más información).

Multimedia Mining: campo poco desarrollado, principalmente se realiza sobre bibliotecas de imágenes.

La minería de contenidos puede dividirse en dos grandes apartados:

• Minería de contenidos de páginas web

• Minería de los resultados de búsquedas

2.5.2.2 Minería de estructura

Según Chakrabarti [22], consiste en estudiar la estructura de los enlaces entre documentos e intra documentos. Las técnicas se inspiran en el estudio de las redes sociales y el análisis de citas. Una página (persona o artículo) está reforzada por la cantidad de referencias (amistades o citas) que tiene. El análisis de la estructura es muy útil a la hora de descubrir:

Autoridades, que proporcionan la mejor fuente sobre un tema determinado.

"Hubs", que proporcionan colecciones de enlaces a autoridades.

La minería de estructura puede dividirse en dos grandes apartados:

Utilizando los enlaces

Utilizando la generalización

2.5.2.3 Minería de uso

Se centra en técnicas que pueden predecir el comportamiento del usuario cuando interacciona con el web.

Esta información puede residir en:

 Clientes web (por ejemplo, cookies)

 Servidores

 Proxies

 Servidores de banners (doubleclick.com...)

Previamente a la minería, hay que procesar la información:

 Eliminar los reintentos

 Separar a los diferentes usuarios

 Unir sesiones diferentes

 Juntar páginas con marcos (frames)

 Filtrar por tiempo

 Extraer las páginas poco relevantes

 Otros

El resultado del preprocesado pueden ser:

 Datos específicos para métodos específicos

 Datos relacionales (una base de datos normal)

 Datos en XML

La minería de uso puede dividirse en dos grupos:

Trazado de patrones de acceso general

Trazado de patrones personalizado

2.5.2.4 Aplicaciones

La nueva generación de buscadores

Si tenemos en cuenta que las búsquedas son la segunda tarea que más se hace en Internet después del correo electrónico, tendremos que ver nuevos productos de búsqueda que intenten reducir la recordación de la información recuperada y poder sugerir al usuario aquello que más le convenga, teniendo en cuenta las búsquedas previas e incluso pensar en nuevas maneras de agrupar la información (los mapeadores).

La inteligencia competitiva

Los campos de la documentación donde ello es de fácil e inmediata aplicación es en la inteligencia competitiva, ya que permite realizar el monitoreo y la vigilancia de forma automática.


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios