Ismael Esquivel Gámez
Text Mining: se trata fundamentalmente de técnicas de recuperación de información (IR), técnicas estadísticas y lingüísticas. Hay dos tipos de aplicaciones: text categorization y text clustering.
Hypertext Mining: no se refiere sólo a los enlaces entre documentos, sino también a enlaces intradocumentos. Se realiza con la ayuda del grafo de referencias.
Markup Mining: las marcas contienen información (las marcas HTML contienen secciones, tablas, negritas, cursivas; las marcas XML contienen aún más información).
Multimedia Mining: campo poco desarrollado, principalmente se realiza sobre bibliotecas de imágenes.
La minería de contenidos puede dividirse en dos grandes apartados:
• Minería de contenidos de páginas web
• Minería de los resultados de búsquedas
2.5.2.2 Minería de estructura
Según Chakrabarti [22], consiste en estudiar la estructura de los enlaces entre documentos e intra documentos. Las técnicas se inspiran en el estudio de las redes sociales y el análisis de citas. Una página (persona o artículo) está reforzada por la cantidad de referencias (amistades o citas) que tiene. El análisis de la estructura es muy útil a la hora de descubrir:
Autoridades, que proporcionan la mejor fuente sobre un tema determinado.
"Hubs", que proporcionan colecciones de enlaces a autoridades.
La minería de estructura puede dividirse en dos grandes apartados:
Utilizando los enlaces
Utilizando la generalización
2.5.2.3 Minería de uso
Se centra en técnicas que pueden predecir el comportamiento del usuario cuando interacciona con el web.
Esta información puede residir en:
Clientes web (por ejemplo, cookies)
Servidores
Proxies
Servidores de banners (doubleclick.com...)
Previamente a la minería, hay que procesar la información:
Eliminar los reintentos
Separar a los diferentes usuarios
Unir sesiones diferentes
Juntar páginas con marcos (frames)
Filtrar por tiempo
Extraer las páginas poco relevantes
Otros
El resultado del preprocesado pueden ser:
Datos específicos para métodos específicos
Datos relacionales (una base de datos normal)
Datos en XML
La minería de uso puede dividirse en dos grupos:
Trazado de patrones de acceso general
Trazado de patrones personalizado
2.5.2.4 Aplicaciones
La nueva generación de buscadores
Si tenemos en cuenta que las búsquedas son la segunda tarea que más se hace en Internet después del correo electrónico, tendremos que ver nuevos productos de búsqueda que intenten reducir la recordación de la información recuperada y poder sugerir al usuario aquello que más le convenga, teniendo en cuenta las búsquedas previas e incluso pensar en nuevas maneras de agrupar la información (los mapeadores).
La inteligencia competitiva
Los campos de la documentación donde ello es de fácil e inmediata aplicación es en la inteligencia competitiva, ya que permite realizar el monitoreo y la vigilancia de forma automática.