Tesis doctorales de Economía


TRATAMIENTO AUTOMÁTICO DE NOTICIAS EMPRESARIALES EN LA WEB, MEDIANTE MINERÍA TEXTUAL. CASO DE ESTUDIO: UNIVERSIDADES PRIVADAS DE MÉXICO

Ismael Esquivel Gámez



Esta página muestra parte del texto pero sin formato.
Puede bajarse la tesis completa en PDF comprimido ZIP (227 páginas, 1.49 Mb) pulsando aquí

 

 

 

5.9.3 DESCRIPCIÓN DEL ALGORITMO

El algoritmo propuesto recibe el nombre de Máxima Abstracción porque está basado en la actividad humana de lectura, que para el caso de las noticias, se realiza de manera rápida, obviando aquellos elementos del texto que resultan inútiles, para los fines de solamente enterarse sobre lo que se informa. Generalmente, se lee el título de la noticia y si resulta de interés alguna palabra, se procede a leer el primer párrafo del texto, del cual solamente buscamos los elementos que permiten responder a los planteamientos de:

• ¿Qué se hizo?

• ¿Quién lo hizo?

• ¿Qué se usó?

• ¿Quién fue afectado?

• ¿De que trató lo que se hizo o dijo?

Esta búsqueda se facilita por la habilidad que posee la mente humana de abstraer ciertos términos, ocultando o enmascarando otros que solamente sirven de soporte. Si se desea leer rápidamente un primer párrafo como el que sigue:

Tras diez meses de ausencia, los alumnos de Administración de Instituciones de la Universidad Popular Autónoma del Estado de Puebla (UPAEP), Paola Cortés Paz, Diana López Cruz y Rodrigo Tello Rosete, retornaron a esta casa de estudios después de permanecer en Tesalónica, Grecia, como parte del proyecto “Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”, auspiciado por el programa América Latina-Formación Académica (ALFA).

Los elementos correspondientes a artículos, preposiciones, conjunciones, artículos, pronombres, locuciones, participios de presente, verbos de apoyo son obviados, mientras que los nombres propios y comunes así como las acciones principales atrapan la atención del lector. Más aún, esta tarea se facilita, si el redactor escribe en mayúscula la letra inicial o todas de los nombres propios o bien acota entre comillas y/o paréntesis, los términos de importancia.

Basado en este principio, el algoritmo que se propone está compuesto de los siguientes pasos, mismos que se describirán ampliamente y que se soportarán por cuatro ejemplos subsecuentes.

PASOS

1. Encontrar y englobar los nombres propios

2. Etiquetar y sustituir nombres propios

3. Determinar el objeto, en todos y cada uno de sus elementos

4. Detectar las locuciones no verbales y sustituir

5. Encontrar los verbos y sustituir

6. Determinar el verbo principal y los secundarios

7. Distinguir los nombres propios

8. Definir el lugar y fecha del evento

9. Analizar los términos no participantes

Texto original:

Tras diez meses de ausencia, los alumnos de Administración de Instituciones de la Universidad Popular Autónoma del Estado de Puebla (UPAEP), Paola Cortés Paz, Diana López Cruz y Rodrigo Tello Rosete, retornaron a esta casa de estudios después de permanecer en Tesalónica, Grecia, como parte del proyecto “Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”, auspiciado por el programa América Latina-Formación Académica (ALFA).

1. Encontrar y englobar los nombres propios

Los nombres propios se reconocen por tratarse de palabras cuya letra inicial es una mayúscula. En segundo término, se reconocen como siglas, siglas entre paréntesis ó títulos de empresas como en UCC, UPAEP, etc. Inicialmente se asocian aquellos nombres propios directamente conectados. Para ello, se usa el signo “_”.

Texto resultante:

Tras diez meses de ausencia, los alumnos de Administración de Instituciones de la Universidad_Popular_Autónoma del Estado de Puebla_(UPAEP), Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete, retornaron a esta casa de estudios después de permanecer en Tesalónica,_Grecia, como parte del proyecto “Desarrollo_Sustentable del Turismo entre la Unión_Europea y Latinoamérica”, auspiciado por el programa América_Latina-Formación_Académica_(ALFA).

Nombres propios:

• Tras

• Administración

• Instituciones

• Universidad_Popular_Autónoma

• Estado

• Puebla_(UPAEP)

• Paola_Cortés_Paz

• Diana_López_Cruz

• Rodrigo_Tello_Rosete

• Tesalónica,_Grecia

• “Desarrollo_Sustentable

• Turismo

• Unión_Europea

• América_Latina-Formación_Académica_(ALFA)

Luego se extienden hacia delante y hacia atrás de acuerdo a los conectores de nombres propios que se presentan en el anexo E, conformando términos más aglutinantes.

Texto resultante:

Tras diez meses de ausencia, los alumnos de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete, retornaron a esta casa de estudios después de permanecer en Tesalónica,_Grecia, como parte del proyecto “Desarrollo_Sustentable_del_Turismo_entre_la_Unión_Europea_y_Latinoamérica”, auspiciado por el programa América_Latina-Formación_Académica_(ALFA).

Nombres propios extendidos:

• de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

• Tesalónica,_Grecia

• “Desarrollo_Sustentable_del_Turismo_entre_la_Unión_Europea_y_Latinoamérica”

• América_Latina-Formación_Académica_(ALFA).

Se requiere extender al máximo los nombres propios, buscando términos asociados como los artículos determinados y los nombres comunes detectados entre estos artículos y los nombres propios. Por tanto, los términos resultantes son:

• Los_alumnos_de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

• del_proyecto_“Desarrollo_Sustentable_del_Turismo_entre_la_Unión_Europea_y_Latinoamérica”

• el_programa_América_Latina-Formación_Académica_(ALFA).

2. Etiquetar y sustituir nombres propios.

Los nombres propios detectados se etiquetan y sustituyen en el texto original para facilitar su procesamiento. De lo anterior resulta:

Tras diez meses de ausencia, NP1, retornaron a esta casa de estudios después de permanecer en NP2 como parte NP3, auspiciado por NP4.

NP1 = Los_alumnos_de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

NP2 = Tesalónica,_Grecia

NP3= = del_proyecto_“Desarrollo_Sustentable_del_Turismo_entre_la_Unión_Europea_y_Latinoamérica”

NP4 = el_programa_América_Latina-Formación_Académica_(ALFA).

3. Determinar el objeto, en todos y cada uno de sus elementos

Como se ha precisado, el objeto está conformado por el referente, el determinativo, una calificación y el determinativo de la misma. Para determinar el primero, se trabaja con los términos asociados a objetos encontrados en el apartado previo de procesamiento de los titulares y consagrados en el anexo B. Una vez localizado el referente, se procede mediante el mapeo de elementos básicos (Anexo E) a detectar los demás componentes del objeto y sustituir en el texto por sendas etiquetas.

Objeto referente [OR] = casa

Objeto determinativo [OD] = de_estudios

Calificación del objeto = No aplica (NA)

Tras diez meses de ausencia, NP1, retornaron a esta [OR,OD] después de permanecer en NP2 como parte NP3, auspiciado por NP4

4. Detectar las locuciones y sustituir

Las locuciones se buscan en el texto, a partir de las referidas en el anexo F y se sustituyen por etiquetas. Esta acción facilita la posterior detección de los verbos: principal y auxiliares.

Tras diez meses de ausencia, NP1, retornaron a esta OBJETO[OR,OD] L1 permanecer en NP2 como parte NP3, auspiciado por NP4

L1 = después_de

5. Encontrar los verbos y sustituir

Para llevar a cabo esta actividad, primero se busca alguna expresión de más de una palabra que implique un verbo, como las señaladas en el anexo G. En caso de encontrarse, se realiza la sustitución en el texto. Luego, se detectan los términos que corresponden a adjetivos y sustantivos con la terminación del participio de presente -ante, -ente, -iente y se enmascaran con el término (&), ya que son inútiles para la detección de verbos. Los citados términos se obtienen de la lista presentada en el anexo H. Enseguida, se buscan en el texto, los verbos del anexo C, a partir de su raíz, y al encontrarse se etiquetan y se sustituyen en el texto.

Tras diez meses de ausencia, NP1, retornaron a esta OBJETO[OR,OD] L1 permanecer en NP2 como parte NP3, auspiciado por NP4

Tras diez meses de ausencia, NP1, V1 a esta OBJETO[OR,OD] L1 V2 en NP2 como parte NP3, V3 por NP4

Verbos encontrados:

V1 = retornaron (retornar)

V2 = permanecer (permanecer)

V3 = auspiciado (auspiciar)

6. Determinar el verbo principal y los secundarios

Para elegir al principal, de entre los varios verbos participantes, cada uno de ellos pasa por un proceso de votación de acuerdo a las reglas consagradas en el anexo L; resultando ganador el verbo con mayoría de votos. Para el presente caso, el verbo con más votos es: retornaron

Tras diez meses de ausencia, NP1, VERBO a esta OBJETO[OR,OD] L1 V2 en NP2 como parte NP3, V3 por NP4

Verbo principal: V1

7. Distinguir los nombres propios

De los nombres obtenidos, es necesario distinguir si se trata de un agente, un paciente, el lugar, un relator, un instrumento, el efecto o el contexto, mediante el mapeo de los elementos básicos (Anexo E). En este caso, se analizan:

El agente en ocasiones inicia el párrafo con un artículo determinado o indeterminado. En otras, es el nombre propio que está situado entre la primer coma del párrafo y el verbo principal. Ambas condiciones operan para el presente caso.

Agente=

los_alumnos_de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), _Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

El paciente es el nombre propio que representa la entidad afectada por la acción y generalmente está precedido por una preposición o una preposición y un artículo.

Paciente: No aplica (NA)

El contexto se representa por las condiciones en las cuales se da el evento. Es posible identificarle por los términos previos señalados en el anexo E.

Contexto: del_proyecto_“Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”,

El instrumento es la serie de términos por los cuales se identifica al medio usado para lograr el efecto planteado. Para identificarle se buscan términos como los señalados en el anexo E.

Instrumento: el_programa_América_Latina- Formación_Académica_(ALFA).

El efecto está representado por los términos indicativos de beneficio para el paciente, el cual al ser implícito, se infiere que se trata de la propia empresa. Los términos asociados generalmente al efecto se describen en el anexo E.

Efecto: No aplica (NA)

El relator es el nombre propio asociado a verbos que indican una declaración. Para identificarle, se puede apoyar en los términos que le preceden, tal y como se muestra en el anexo E.

Relator: No aplica (NA)

Tras diez meses de ausencia, AGENTE, VERBO a esta OBJETO[OR,OD] L1 V2 en NP2 como parte CONTEXTO, V3 por INSTRUMENTO

8. Definir el lugar y fecha del evento

Debido a que normalmente no aparece de manera explícita el lugar del evento y la fecha, es posible identificar a la empresa y la fecha de publicación como tales datos.

Lugar y Fecha: No aplica (NA)

Al final del procesamiento, las etiquetas se sustituyen por su contenido y se obtienen los elementos básicos del hecho noticioso planteado inicialmente, como se muestra en la tabla 5.8.

Elemento Subelemento Contenido

Lugar NA

Fecha NA

Agente los_alumnos_de_Administración_de_Instituciones_de_la_ Universidad_Popular_Autónoma_del_Estado_de_Puebla_(UPAEP), _Paola_Cortés_Paz, Diana_López_Cruz y Rodrigo_Tello_Rosete,

Accion Retornar

Objeto

Rf = Referente Casa

Drf = Determinativo del ref. de_estudios

C = Calificación NA

Dc = Determinativo de la Cal. NA

Paciente NA

Complemento

I = Instrumento el_programa_América_Latina-Formación_Académica_(ALFA).

E = Efecto NA

K = Contexto del_proyecto_“Desarrollo Sustentable del Turismo entre la Unión Europea y Latinoamérica”,

Relator NA

Tabla 5.8 Elementos básicos del hecho noticioso


Grupo EUMEDNET de la Universidad de Málaga Mensajes cristianos

Venta, Reparación y Liberación de Teléfonos Móviles
Enciclopedia Virtual
Biblioteca Virtual
Servicios