Ismael Esquivel Gámez
3.3.1 Clasificación automática de textos de desastres naturales en México
Conforme a Téllez-Valero y otros [32], este proyecto tuvo como objetivo el desarrollar un sistema de clasificación automática de noticias de desastres naturales en México. Los resultados que se obtuvieron permiten clasificar una página web dentro de las categorías de huracán, inundación, sequía y no relevantes con una exactitud aproximada del 97%.
El proceso que se siguió fue:
1. Buscar y conformar el conjunto de documentos para el entrenamiento
2. Extraer del conjunto las características principales (conjunto de palabras)
Preprocesamiento (Limpieza de documentos)
Eliminar etiquetas HTML
Eliminar signos de puntuación
Quitar palabras insignificantes
Reducir las palabras a su raíz léxica
Indexado (Conformación de vectores)
Reducción del tamaño (dimensionalidad) de los vectores
3. Clasificar mediante los métodos vecinos más cercanos y clasificador simple de Bayes.
4. Evaluar los resultados y comparar con estándares mediante validación cruzada con 10 pliegues
Al final se determinó que el mejor camino para esta instancia fue aplicar la técnica de ganancia de información para reducir la dimensionalidad y además, aplicar el algoritmo simple de Bayes para llegar a la cifra de 97% de exactitud. Dentro de los trabajos futuros está el ampliar el número de clases que se manejan; construir un sistema adaptable a los ejemplos de prueba mal clasificados; continuar experimentando con otros métodos de representación de documentos y aplicar otros algoritmos de clasificación.
3.3.2 Un sistema para la clasificación de notas periodísticas
De acuerdo con García-Menier [33], este trabajo tuvo como propósito brindar una herramienta para la clasificación de noticias, debido a que es demasiada la información que se genera día a día y la capacidad para analizarla por el ser humano no es tan rápida.
Se pensó en un sistema que en base a ciertos criterios, clasificara las notas como negativas o positivas para una entidad específica.
Las técnicas actuales para la clasificación de textos son:
• Representar los documentos como un espacio vectorial y medir la distancia entre ellos.
• Utilizar una red neural.
• Utilizar técnicas estadísticas.
Estos métodos presentaban el problema de la excesiva dimensionalidad de los vectores, el cual se atacó usando la indexación por semántica latente. Existe otro método para reducir la dimensionalidad, conocido como Clustering Distribucional, que agrupa palabras con base a la distribución de la probabilidad que aparezca la palabra en el documento.
Existen Sistemas que toman frases completas y en base a esto realizan la clasificación de la nota ya sea como positiva o negativa.
Los pasos para la clasificación de la noticia son:
• Identificación de palabras clave o datos relevantes, para eliminar información innecesaria, para clasificar estas palabras se construyó un diccionario de manera manual.
• Agrupar palabras o frases sinónimas, para facilitar la calificación de frases equivalentes.
• Unidades semánticas (basadas en la metáfora de la persona con debilidad auditiva).
Las unidades semánticas son las que van calificando la nota, para hacer este proceso, se clasifican las palabras por separado de las unidades semánticas y en conjunto, es decir, dependiendo de las palabras que se encuentren. Ejemplo si se encuentra la palabra “muertes”, la calificación será mala, si en conjunto con otra palabra se tiene “disminuyen muertes” entonces cambiara a buena.
• Contar las notas positivas y negativas en el artículo, para poder calificar si la nota es positiva o negativa para la entidad.
Si el conteo de negativas es mayor que el doble de positivas, la nota se considera negativa, de lo contrario, la nota se considera positiva.
Este tipo de herramienta se puede usar para cualquier área que requiera algún tipo de clasificación de textos y no necesariamente periodísticos, podría ser de comentarios que se publiquen en foros de Internet.