Yaniel Hernández Brito*
Universidad de Sancti Spíritus “José Martí”. Cuba
yhbrito@uniss.edu.cu
Crear un sistema de recuperación de información a través de la construcción de una base de datos documental para el Centro Universitario Municipal “Simón Bolívar” de Yaguajay (CUM) perteneciente a la Universidad de Sancti Spíritus “José Martí” (UNISS) es un propósito logrado como tarea de impacto en la introducción de nuestro centro al manejo y explotación de las herramientas pertenecientes a las Tecnologías de la Información y las Comunicaciones. El sistema es accesible desde un portal Web identificativo del CUM, que tiene como propósito esencial mostrar la actividad científica y docente del mismo; así como permitir el intercambio dinámico de información entre los diferentes centros de educación superior del país. La base de datos pertenece al software libre Greenstone y el portal se construye bajo la herramienta manejadora de contenidos WordPress. El sistema facilita la gestión de la información para que ésta llegue a los usuarios interesados de forma apropiada y en el tiempo adecuado, lográndose un aporte a la eficiencia y eficacia de los procesos sustantivos que se desarrollan en esa institución.
Palabras clave: publicación digital, software, gestión documental, metadatos, sistema manejador de contenidos, código abierto.
The present work aims to create an information retrieval system by building a database of documents for the Centro Universitario Municipal (CUM) of the Universidad de Sancti Spíritus “José Martí” (UNISS). The system is accessible from a Web portal for the CUM and also will enable the dynamic exchange of information among different Colleges and display the work of the CUM. The database belongs to the open source Greenstone and the website tool was built on the Wordpress content management system. The system provides management information that reaches users appropriately and in a timely manner, achieving a contribution to the efficiency and effectiveness of substantive processes taking place in that institution.
Keywords: digital library, software, metadata, system content management, open sourcePara citar este artículo puede utilizar el siguiente formato:
Yaniel Hernández Brito(2018): “Sistema de gestión documental para el CUM “Simón Bolívar” de Yaguajay”, Revista Caribeña de Ciencias Sociales (noviembre 2018). En línea:
https://www.eumed.net/rev/caribe/2018/11/sistema-gestion-documental.html
//hdl.handle.net/20.500.11763/caribe1811sistema-gestion-documental
Actualmente, el proceso de recuperación de información representa un verdadero reto para quienes necesitan satisfacer alguna necesidad específica en un momento dado. Este desafío se debe, en gran medida, al aumento exponencial de este recurso estratégico, que alcanza volúmenes antes impensados, independientemente de la dificultad consistente en la localización de información de calidad. Además, pese a la existencia de Internet, tal reto se mantiene vigente dada la imposibilidad de su utilización por millones de personas por disímiles causas (2008). Las instituciones dedicadas a la gestión de información han experimentado importantes cambios al introducir las nuevas tecnologías de información y la comunicación (TIC) que renuevan sus formas de trabajo y logran ofrecer mejores servicios (Surajit Chaudhuri, 2003).
En Cuba, la gestión de la información y el conocimiento, ha experimentado grandes avances constructivos tras la utilización de las TIC en el desarrollo de sistemas de gestión, los cuales han brindado destrezas centradas en el proceso de recogida y análisis de información, permitiendo su mejor manipulación. Además, se han proporcionado nuevos resultados debido al descubrimiento de nuevas interrelaciones entre los datos manejados, logrando mejoras en la toma de decisiones en el proceso de gestión de información. La Educación Superior, desde el triunfo revolucionario en 1959, adquiere gran importancia, convirtiéndose hoy, por las transformaciones que realiza, en uno de los mayores proyectos que la sociedad cubana enfrenta, debido a los retos y desafíos que plantea la Revolución del Conocimiento. Este proceso se produce a partir de la transición de un paradigma a otro de mayor dinamismo, teniendo en cuenta que el desarrollo económico y social está condicionado por factores insoslayables, como aquellos que estén vinculados con el desarrollo del conocimiento, la investigación y el progreso de la ciencia y la tecnología, en un mundo cada vez más globalizado, donde sólo llevando la cultura a toda la sociedad se podrán alcanzar saltos hacia niveles cualitativamente superiores. La universidad cubana está inmersa en un constante proceso de desarrollo de diferentes plataformas de difusión de la información, con el objetivo de poner las diferentes fuentes de conocimiento a disposición de todos los educandos.
El CUM Yaguajay, perteneciente a la UNISS, es una institución de carácter científico y docente que potencia el autodesarrollo de las comunidades mediante los resultados obtenidos por la investigación científico técnica y la formación profesional y postgraduada mediante ediciones de Maestría en Desarrollo Local. Este centro no cuenta con un medio para divulgar la información de todas las actividades que en él se llevan a cabo como son los eventos y cursos de postgrado, así como la publicación de la cátedra honorífica y el acceso al contenido de su biblioteca. Es necesario aclarar que el mismo cuenta con la infraestructura de hardware necesaria para establecer la comunicación con los otros centros, pero no está creada la infraestructura de software que permita mostrar la actividad del centro y crear espacios de intercambio de información de forma dinámica. Por tanto es necesario determinar cómo crear espacios dinámicos de intercambio de información entre el CUM y los demás centros universitarios, empresas de producción locales y Gobierno Municipal.
Este trabajo tiene como objetivo crear un sistema de base de datos documental accesible desde la Web que permita gestionar colecciones de documentos como revistas, cursos, libros y multimedia para propiciar la entrega dinámica de información.
En el año 2009 fue resuelta la aprobación de la creación del CUM adscrito a UNISS, con la dirección metodológica de las cuatro filiales universitarias municipales, adscritas al INDER, MINED, MINSAP y el MES. Este centro es una organización de carácter científico docente en la educación superior cubana cuyas funciones tributan al ideal comunista de transformación social. Tiene como misión potenciar el autodesarrollo de las comunidades, como elemento clave para alcanzar niveles superiores de emancipación humana y dignificación personal, mediante el desarrollo de la investigación científico técnica, la formación profesional y postgraduada y los servicios científicos técnicos. Valores importantes que se forman y fomentan en este centro son:
Dado que el CUM está dirigido hacia el desarrollo local comunitario a través de la investigación científico-técnica, se trazan los siguientes objetivos generales de trabajo:
Los sujetos comunitarios hacia los que se dirigen los objetivos de trabajo son, esencialmente, las comunidades, gobernantes y funcionarios del Poder Popular, directivos, tutores de los colegios universitarios municipales, trabajadores sociales, directivos de la dirección municipal de trabajo social, profesionales del desarrollo comunitario, estudiantes universitarios, otros sujetos comunitarios. El Centro responde a una línea de investigación priorizada de la UNISS: “Comunidades: Estrategias para su autodesarrollo”, abordando las temáticas siguientes:
Dentro de las áreas de resultados clave del centro se encuentran la Dirección (Director, sustitutos, reservas, secretaria y económica), Formación (postgrado y pregrado), Investigación (proyectos científico estudiantil y publicaciones), Servicios Científico-Técnicos (DLC, Biblioteca, TIC, traducción, página Web y otros servicios), Relaciones (eventos y convenios).
Actualmente se tiene en el CUM siete proyectos de investigación:
Se realizan además:
El crecimiento incontrolable de los recursos de información existentes en la Web dio lugar a la paradoja “acceso global a la información”, mientras que en la realidad los usuarios se enfrentan a una red confusa carente del orden necesario para recuperar la información pertinente. En este contexto, la tarea profesional vinculada con los servicios de información se ha visto modificada en aspectos como la selección, adquisición, procesos de descripción y modo de acceso aplicados a los objetos de información; dando lugar a un nuevo reto acerca de cómo organizar la información en la Web para garantizar su localización y recuperación exitosa. El desarrollo de las TIC ha hecho que todos puedan crear y publicar en la red, sin prever que la falta de tratamiento de ese acopio documental provocaría puntos débiles en la tarea de localización y recuperación que realizan los usuarios a través de denominados buscadores de información. En este sentido la gestión documental juega un papel fundamental puesto que permite administrar el flujo de documentos de todo tipo en una organización.
Según (Escobar, 2009) un Sistema Gestor de Base de Datos Documental (SGBDD) se ocupa de la gestión de documentos optimizando el almacenaje y facilitando su recuperación. A diferencia de cualquier otro sistema gestor de base de datos (SGBD), un SGBDD no realiza ningún tratamiento sobre la información, éste la almacena y posibilita su recuperación. Un SGBDD es un software que dispone de todas las funciones necesarias para el almacenamiento, indexación, consulta y modificación de la información textual y que aplica de manera limitada las técnicas de la informática documental. Están basados en sistemas de archivos y ficheros inversos. El fichero inverso es una modalidad de organización y utilización de los datos, especialmente apropiada para la recuperación de información textual mediante consultas interactivas.
Dentro de los rasgos característicos que podemos encontrar en un SGBDD tenemos la capacidad de almacenar información textual en forma estructurada, puede también manejar información textual de longitud grande y variable, recuperar con rapidez, en base a la generación de índices, registros que responden a un criterio de búsqueda, realizar búsquedas sobre ficheros inversos utilizando la lógica booleana, administrar tesauros y diccionarios terminológicos. Entre las tareas básicas se puede distinguir la creación y gestión de bases de datos con la creación de índices inversos, consulta de información en línea, edición de los resultados de las búsquedas, producción de catálogos e índices impresos. Otras de las funciones complementadas en un SGBDD son la seguridad de acceso y protección del contenido, facilidades de interrogación asistida, almacenamiento de las consultas para poder utilizarlas en cualquier momento, posibilidad de formatear las salidas impresas así como el procedimiento de mantenimiento de la base de datos y copias de seguridad (Escobar, 2009).
Las bases de datos se componen de diferentes registros con su correspondiente número de identificación. En una base de datos bibliográfica cada registro se corresponde con una referencia de un documento original, que puede ser una publicación independiente (monografía, tesis, informe,...) o una parte con autonomía de contenido dentro de otra publicación (artículo incluido en una revista, una serie o una compilación, ponencia o comunicación en las actas de una reunión científica,...).
La información contenida en cada registro bibliográfico se estructura en diferentes campos para facilitar su control sistemático y su recuperación individualizada. Algunos campos reflejarán la descripción formal del documento y otros van destinados a reflejar su contenido temático. Según el modelo de base de datos y el tipo de documentos vaciado en la misma se establece una estructura de campos particular.
Una base de datos documental gestiona una gran cantidad de información con un alto grado de homogeneidad, que permite que sea compartida por varios usuarios. Las diferencias más claras con los gestores de bases relacionales son:
En resumen, podemos afirmar que para automatizar el proceso de búsqueda de información documental en determinada entidad es más coherente decidirse por un SGBDD que por un SGBD relacional.
Las organizaciones necesitan sistemas de información que capturen y gestionen información contextual que ayude al entendimiento, uso, acceso y gestión de sus documentos a lo largo del tiempo. Esta información es crítica para afirmar la autenticidad, fiabilidad, integridad, disponibilidad y valor probatorio de los documentos. En su conjunto, esta información se conoce como metadatos para la gestión de documentos (Escobar, 2008).
En este contexto de modificación sustantiva las propuestas de procesamiento y manejo de los recursos digitales tienen como pilar a los metadatos, cuyo uso normalizado se presenta como la solución a los gestores y creadores de recursos de información quienes tendrán que agregar a éstos descripciones susceptibles de procesarse por los buscadores de información. Los metadatos se emplean para describir el continente, el contenido y otras características de los datos primarios posibilitando a una persona o máquina ubicar y entender la información. Son datos secundarios como pueden ser el autor, el título, las palabras clave, el resumen, la fecha u otros que describen los datos primarios o recursos de información. A diferencia de las fichas catalográficas, una de las características más importantes de los metadatos, es su capacidad de relación o de establecer enlaces indizando y clasificando inmensas cantidades de información de diversos tipos, razón por la cual se han hecho imprescindibles en la recuperación de información en línea (Jaroszczuk, 2007). Más allá de su identificación terminológica y etimológica así como de su evolución y condición de documento secundario, lo destacable es que el concepto estricto de metadatos surge en la Web; es amplio, permite muchas conceptualizaciones, interpretaciones y aplicaciones. En cuanto a tipología, funciones y modelos los metadatos presentan múltiples alternativas que dependen de factores también diversos como: el tipo de información que describen, el nivel de estructuración de la información, el lugar donde se encuentren, su ámbito de aplicación, el tipo de usuario que los utiliza, así como también sus finalidades.
A propósito de la preservación digital, se define a los metadatos como “elementos o estructuras de organización de la información que, asignados a cada objeto de información electrónica la clasifican, categorizan y describen. En definitiva “es información estructurada sobre información distribuida” y su papel emergente es la actualización y la preservación de la información (Jaroszczuk, 2007). Entre sus funciones fundamentales está la de describir los objetos de información, informar a los usuarios la existencia, el contenido, la calidad y los objetivos de los recursos de información descritos, garantizando el punto de acceso a la información que los usuarios desean consultar. Los metadatos se clasifican de varias formas para las cuales se establecen tres categorías que responden a las funciones que desempeñan y a la información que se desea ofrecer:
2.1 Metadatos descriptivos: como su nombre lo indica tienen como objetivo la descripción e identificación de la información contenida en el recurso. Estos metadatos ayudan a responder preguntas como: ¿Cuál es el tema de este documento? ¿Quiénes son sus autores?
2.2 Metadatos estructurales: facilitan la navegación y presentación de los recursos electrónicos proporcionando información sobre la estructura interna de los mismos. Ayudan a responder preguntas como: ¿Es un informe o un libro? ¿Cuántos capítulos o secciones tiene?
2.3 Metadatos administrativos: facilitan la gestión y procesamiento tecnológico y físico de las colecciones digitales tanto a corto como largo plazo, refiriéndose a características y propiedades de la imagen. Ayudan a responder preguntas como: ¿Cuál es el formato del archivo? (PDF, JPG, etc.)¿Cuán grande es el archivo digital? ¿Cuál es la resolución de la imagen?
Es importante que la definición de un esquema de metadatos para cada tipo de recurso sea definido con antelación, tomando siempre muy en cuenta el uso que se le dará a la información en términos de localización y respuesta.
La construcción del repositorio modelo responde al recurso de código libre denominado Greenstone; conjunto de programas de software diseñado para crear y distribuir colecciones digitales, proporcionando así una nueva forma de organizar y publicar la información a través de internet o en forma de CD-ROM. Es una aplicación que tiene como núcleo el motor de indización y recuperación de información textual. Es capaz de procesar e incorporar a las colecciones documentos en numerosos formatos.
Para la selección de este Software se han hecho los recorridos teóricos por espacios institucionales que ofrecen herramientas para la creación de repositorios comparando Dspace, Fedora, Content DM y Greenstone.
Aspectos a tener en cuenta en la comparación:
La amplia proliferación de las herramientas para crear colecciones digitales hace que su selección requiera de un proceso de análisis antes de escoger la que se utilizará en cada institución, según sus necesidades y las bondades que ofrezca dicha herramienta. La selección debe centrarse principalmente en los siguientes aspectos:
Greenstone se soporta en Windows y Unix. Además, puede desarrollarse perfectamente sobre servidores Web Apache, PWS o IIS de Microsoft y requiere la aplicación Java para su correcto funcionamiento. Las computadoras clientes podrán mostrar las colecciones en ambiente Web mediante sus navegadores, Internet Explorer u otros. En el proceso de instalación, se ofrece la posibilidad de instalar la herramienta en varios idiomas, entre los que se encuentra el español. Esta alternativa permite que la interfaz, tanto para el trabajo bibliotecario como de presentación de los usuarios, pueda consultarse en el idioma nativo. Greenstone tiene dos posibilidades para instalarse: biblioteca local y biblioteca Web. La biblioteca local es para computadoras autónomas. Tiene incluido un servidor Web, limitado, para poder utilizarlo por otras computadoras de la red. No necesita ningún tipo de configuración por parte de sus usuarios. La biblioteca Web puede instalarse en cualquier computadora con un servidor Web para distribuir las colecciones con mayor amplitud. El procesamiento de documentos con Greenstone, que acepta todo tipo de formatos, como son: texto, imágenes, bases de datos en Isis, etc., se realiza de forma fácil y ágil por medio de la interfaz del bibliotecario. En este ambiente de trabajo se asignan metadatos a los documentos mediante una plantilla, según el modelo de metadatos escogido, entre los que está Dublin Core (Paulus, 2001), y un formato propio que ofrece Greenstone. Es posible asignar metadatos a los documentos individuales o a varios, agrupados en carpetas. La página principal de cada colección creada con Greenstone, tiene una breve descripción del tema de la colección y las formas en las que pueden realizarse las búsquedas. La recuperación puede hacerse por medio de los índices que declare el creador de la colección; incluye autor, título, materia y el texto completo. Además, puede navegarse en la colección por medio de la consulta de listas, también declaradas por el creador de la colección, principalmente autor, temática y fecha.
DSpace es un sistema que provee una forma de gestionar materiales y publicaciones resultantes, tanto de la actividad de investigación como de educación, almacenadas en un repositorio que ofrece a los usuarios accesibilidad en todo momento. Es una herramienta open source, gratuita y de licencia GPL. Puede instalarse sobre el sistema operativo Unix, que además necesita de la aplicación Java para su funcionamiento. Esta herramienta también incluye un sistema de bases de datos relacionales; este repositorio de colecciones digitales puede montarse sobre servidores Web PostgreSQL, Apache o Tomcat. DSpace utiliza el estándar de metadatos Dublin Core para la descripción de los documentos, que van desde texto, hasta imágenes y videos, entre otros, y que luego posibilita su recuperación precisa. La interfaz en ambiente Web varía en dependencia de la persona que la utilice; así, los responsables de la colección tienen una, los administradores del sistema otra y los usuarios finales otra; aunque todas coinciden en que son en idioma inglés. Los usuarios pueden hacer sus búsquedas a partir de los metadatos declarados por los especialistas o simplemente mediante las listas de documentos por campos específicos, como son: autor, título y fecha.
Fedora es el acrónimo de Flexible Extensible Digital Object Repository Architecture (Arquitectura digital de repositorio de objetos digitales flexible y extensible). El repositorio de documentos digitales Fedora requiere de la instalación previa del programa Java en el servidor en el que funcionará; además, Fedora incluye en su paquete de instalación una base de datos que en caso de que los especialistas decidan no utilizarla, puede sustituirse por otras como Oracle y MySQL. Este software funciona con los sistemas operativos Windows y Unix y sobre servidores Web Apache y Tomcat. Fedora, al ser un sistema open source gratuito, ofrece a los programadores su código fuente. Se distribuye bajo la Licencia de la Comunidad Educativa, que permite que el programa se propague a todos los que lo requieran y que se hagan modificaciones, siempre que se coloquen en forma visible los términos de esta licencia para que otras personas puedan conocer sobre ella. El procesamiento de los documentos se realiza según los metadatos asignados por los especialistas en formato Dublin Core. La interfaz de presentación de Fedora es distinta para cada una de sus sesiones, es decir, una para el procesamiento de los documentos y otra para los usuarios finales, que además tendrán la posibilidad de recuperar los contenidos mediante búsquedas en varios índices, previamente declarados por los procesadores o mediante la navegación por las listas de las colecciones. Fedora permite crear colecciones digitales en varios formatos de documentos, como son: texto, imagen, sonido, etcétera. El lenguaje del programa, tanto de la interfaz de trabajo como de presentación a los usuarios, es en inglés, aunque es posible configurar, por medio de la agregación de aplicaciones adicionales que ofrece el sistema, el programa en varios idiomas.
CONTENTdm provee herramientas para la organización, gestión, publicación y recuperación de colecciones digitales de todo tipo de documentos, desde texto (en varios formatos) hasta imágenes, videos y audio. Este programa se utiliza desde servicios Web; así los usuarios pueden ver los resultados desde sus navegadores Web, sin necesidad de instalar herramientas adicionales. Los servidores en los que se instala CONTENTdm requieren de Windows Server, Linux o Solaris, además de servidores Web dedicados, montados en IIS con Windows o Apache. Las estaciones de trabajo de las personas que se ocupan de desarrollar las colecciones necesitan instalar Windows 2000 o superior para poder trabajar con el programa. El procesamiento de los documentos con CONTENTdm se realiza según metadatos predefinidos, que los creadores de las colecciones pueden seleccionar, tanto entre los propios del programa como de Dublin Core. También permite exportar metadatos definidos en otras bases de datos de la institución que lo utilice, con vista a lograr una compatibilidad entre todas. CONTENTdm ofrece, además, un vocabulario controlado para la indización de los documentos, aunque permite que los usuarios utilicen otros, si así lo desea o necesitan. La recuperación de información se realiza mediante una interfaz Web, que presenta una descripción detallada de la colección y por medio de la que se puede hacer búsquedas por varios índices, como son: autor, título, materia, en el texto completo o como lo declaren los creadores. Los usuarios también pueden, si lo desean, navegar en la colección, por título, autores o como lo definan los creadores. CONTENTdm es una herramienta paga, con licencia privada, que permite a los usuarios desarrollar sus colecciones a partir de los patrones que ellos definen, pero no pueden hacer ningún tipo de cambio o adecuación si lo necesitaran. CONTENTdm soporta los lenguajes de los creadores y usuarios, y permite que se puedan construir colecciones en idiomas distintos al inglés.
El análisis de repositorios institucionales efectuados permitió seleccionar el software Greenstone por las siguientes razones:
Se ha procedido a seleccionar diversos tipos de materiales documentales conocido como corpus documental, así como también memorias de eventos realizados, generados en los últimos años y siendo resultados de investigaciones, informes de proyectos académicos, conferencias impartidas por profesores del CUM que merecen ser visibles, accesibles y disponibles a través de esta acción de composición del repositorio documental. Así es que la tipología de recursos que componen el corpus documental seleccionado está conformado por artículos científicos y de divulgación, ponencias a texto completo y resumido, proyectos, libros y partes de libros, informes de investigación, conferencias en audio y video. También se han incorporado los planes de estudio.
La creación de una colección de documentos se asocia al usuario autorizado, en ella se escribe el nombre de la colección a crear, se especifica si la colección se construye sobre la base de una existente o sobre un perfil nuevo. Se adjunta el fichero que contiene el conjunto de documentos a contener. Finalmente se detalla una descripción de la colección que se va a crear. Una vez llenados cada uno de estos campos se oprime el botón siguiente, que nos lleva a la opción siguiente (véase figura 2).
En la ventana siguiente (véase la figura 2) se escribe el correo de la persona que crea la colección, seguidamente se especifica si será pública o no. Puede especificarse que índice se mostrará en la ventana de gestión de documentos dentro de una colección. Pueden ponerse combinación de cada uno de ellos. Estos índices varían según el clasificador de búsqueda que se especifique, que puede ser List o VList.
En la figura que se muestra a continuacion (véase la figura 3) se añaden los valores correspondientes a cada uno de los metadatos, los metadatos seleccionados siguen el modelo Dublin Core una vez seleccionado el archivo al cual pertenecen los valores de los metadatos y también seleccionada la colección a la cual pertenece este documento. Se oprime el botón enriquecer. Este procedimiento se sigue para cada uno de los documentos.
Una vez realizados todos estos pasos se puede buscar documentos en la interfaz correspondiente a la colección seleccionada. Se puede buscar por palabras específicas o palabras completas en el documento o en el título.
El recurso electrónico logrado en esta experiencia es la demostración práctica de aplicar las alternativas del modelo de “acceso abierto” representado en la creación de un repositorio de documentos relacionados con la labor de gestión documental. Constituye una herramienta para la gestión del corpus documental, adecuada a las necesidades del contexto en que se enmarca el CUM.