"Contribuciones a la Economía" es una revista
académica con el
Número Internacional Normalizado
de Publicaciones Seriadas
ISSN 1696-8360
Jonathan David Nima Ramos (CV)
davidnim@hotmail.com
INTRODUCCIÓN
El principal problema dentro de una empresa es que existen muchos datos y muy poca información. Eso significa un alto volumen de datos y necesidades de respuesta rápida que exige un análisis complejo con consultas imposibles de prever y un ambiente de negocio en cambio constante.
El soporte a las decisiones en el modelo tradicional ha generado un impacto negativo sobre los sistemas operacionales y los analistas de negocios se vuelven “PROGRAMADORES”, originando que las reglas de negocio no sean compartidas y los datos no están disponibles.
En lugar de construir sistemas para el apoyo del negocio, se dedican muchas veces sólo a resolver problemas operacionales del mismo y operar sus sistemas con más eficiencia, soportando más usuarios concurrentes, sin pensar en los sistemas y datos como importantes activos de la empresa que podrían ayudarla a ser más competitiva en el mercado mediante la explotación de los mismos. Este último punto que no se le hubiera escapado a un mercadólogo, no fue considerado por los ingenieros de sistemas que construyeron los sistemas de soporte operacional del negocio.
Por este motivo el presente libro presenta las ventajas significativas de utilizar sistemas de inteligencia de negocios teniendo como base fundamental las bodegas de datos; detalla los pasos necesarios para diseñar un datawarehouse que es la herramienta fundamental de los sistemas de procesamiento analítico y concluye con un caso de aplicación desarrollado por el autor que afianza los conceptos explicados.
Les invito a navegar por el texto a fin de enriquecer vuestros conocimientos en soluciones inteligentes de negocios, esperando sea de su completo agrado.
Para ver el artículo completo en formato pdf comprimido zip pulse aquí
Nima Ramos, J.D.: "Soluciones de Inteligencia de Negocios a su alcance: Fundamentos y Casos de Aplicación" en Contribuciones a la Economía, septiembre 2009 en http://www.eumed.net/ce/2009a/
PARTE I. INTRODUCCIÓN A LAS SOLUCIONES INTELIGENTES DE NEGOCIOS
SISTEMAS TRANSACCIONALES OLTP
Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.
El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).
Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental...).
Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).
El historial de datos suele limitarse a los datos actuales o recientes.
CARACTERISTICAS DE UN SISTEMA OLTP
Se describen como características de un Sistema OLTP las que se mencionan a continuación:
Operaciones Típicas: Update, Insert
Un nivel bajo de requerimientos de análisis
Screens o Pantallas No deben cambiar
Cantidad pequeña de datos por transacción
Nivel de los datos debe ser detallado
Data tiene que estar actualizada
Registrar la Orientación
¿Porque no es adecuada esta tecnología para sistemas complejos y sistemas de soporte de decisiones?
OLTP SISTEMA COMPLEJO
Información para soportar los servicios del día a día. Requiere información histórica para el análisis
Data almacenada en niveles de transacción. Datos necesitan ser integrados
Diseño de Base de Datos Normalizado
Diseño de Base de Datos desnormalizado. Star Model
Características principales del análisis de los datos desde sistemas operacionales:
Estructura de Datos Complejas
La Data está dispersa
Los sistemas OLTP no están preparadas para consultas intensivas y complejas.
SISTEMAS DE INFORMACION
Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos, orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los casos anteriores, cuya utilización es periódica.
Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial-AI).
Sistemas Tácticos, diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios).
Sistemas Técnico-Operativos, que cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de censores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing.
Sistemas Interinstitucionales, este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo ésto a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnología data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de decisiones. Este último es la base de un data warehouse.
1.2.1 Sistemas técnico-operacionales
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con sus operaciones cotidianas. Estos son los sistemas que operan sobre el "backbone" (columna vertebral) de cualquier empresa o institución, entre las que se tiene sistemas de ingreso de órdenes, inventario, fabricación, planilla y contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas operacionales siempre han sido las primeras partes de la empresa a ser computarizados. A través de los años, estos sistemas operacionales se han extendido, revisado, mejorado y mantenido al punto que hoy, ellos son completamente integrados en la organización.
Desde luego, la mayoría de las organizaciones grandes de todo el mundo, actualmente no podrían operar sin sus sistemas operacionales y los datos que estos sistemas mantienen.
1.2.2 Sistemas de Soporte de Decisiones
Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con el planeamiento, previsión y administración de la organización. Estas funciones son también críticas para la supervivencia de la organización, especialmente en nuestro mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y "análisis financiero", requieren, además, de sistemas de información que los soporte. Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la información requerida son también diferentes. Las funciones basadas en el conocimiento son los sistemas de soporte de decisiones.
Estos sistemas están relacionados con el análisis de los datos y la toma de decisiones, frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola área, los datos para el soporte de decisiones, con frecuencia, toma un número de áreas diferentes y necesita cantidades grandes de datos operacionales relacionadas.
Son estos sistemas sobre los se basa la tecnología data warehousing.
DATA WAREHOUSE AL RESCATE
Afortunadamente las empresas se han dado cuenta de que se deben desarrollar Sistemas que ayuden a la toma de decisiones.
Este es un esfuerzo importante debido a que el desarrollo de significados en los sistemas no está estandarizado; es decir, un programador puede almacenar un 1 en una base de datos para indicar sexo masculino y 0 para indicar sexo femenino, mientras que otro programador puede lograrlo de manera parecida guardando la letra "M" para indicar masculino y la letra "F" para indicar femenino, imposibilitando el cruce de la información de ambos sistemas porque no son compatibles entre sí. Otros problemas de los sistemas de base de datos, llamados por los técnicos de sistemas "Sistemas de Transacciones en Línea", (OLTP en el lenguaje de los técnicos) es que están orientados a la máquina, son adecuados para la actualización rápida de la información y están diseñados para el análisis de las operaciones del día a día porque contienen mucho detalle, pero no poseen herramientas de análisis para tomar decisiones a largo plazo.
El Data warehousing es un esfuerzo para llevar esta torre de Babel de sistemas a un formato orientado al análisis inmediato de la información. Debido a que no tiene mucho nivel de detalle en los niveles elevados, es fácil para hacer análisis de negocio a nivel macro, pudiéndose aumentar el nivel de detalle mediante una técnica llamada "Drill Down" hasta llegar al nivel atómico o más.
Veamos a continuación en forma genérica una vista del proceso de Extracción de Datos de un sistema transaccional a una bodega de datos que permita una Solución Inteligente de Negocios.
2. PROCESO DE EXTRACCIÓN DE DATOS
Los usuarios finales acceden a los datos fuera de línea de entornos operacionales siendo estos los propietarios de la data.
1.3 PRODUCTIVIDAD
Duplicación de esfuerzos
Utilización de múltiples tecnologías
Reportes obsoletos
No tienen metadata
1.4 CALIDAD DE LOS DATOS
Diferentes calculos de algoritmos
Diferentes niveles de extracción
Diferentes niveles de granularidad
Diferentes nombres de campos de datos
Diferentes significado de campos de datos
Información perdida
No posee capaciad de drill-down
1.4 EXTRACCIÓN DE DATOS AL DATAWAREHOUSE DSS
Controlada
Confiable
Calidad de la ill mación
Unica fuente de datos
PARTE II. DATA WAREHOUSE
CONSIDERACIONES SOBRE UN DATAWAREHOUSE
a. ¿PORQUÉ UTILIZARLO?
Para transformar la data en información, ante el alcance limitado de los sistemas tradicionales y a la vez brindar mayor credibilidad en la transformación de los datos operacionales en base a la unificación de criterios y así aumentar la productividad en los procesos de consulta Ante la necesidad de integrar datos dispersos en distintas BD.
b. VENTAJAS DEL DATAWAREHOUSE
No duplica esfuerzos
No necesita el soporte a muchas herramientas y tecnologías
No hay diferencia en el significado y la representación de los datos
No hay conflictos con los sistemas de producción
No hay confusión de algoritmos
No drill-down restricciones
c. DEFINICIONES IMPORTANTES
Bill Inmon
“El DWH es una colección de datos integrada en una Base de Datos, orientada según un tema, diseñadas para soportar un Sistema de Soporte a las Decisiones (DSS), donde cada unidad de dato es relevante en algún momento del tiempo.”
Ralph Kimball
“Un DWH es una copia de Data Transaccional, específicamente diseñada para realizar queries y análisis.”
d. PROPIEDADES DEL DATA WAREHOUSE
4.1 Orientada a Un tema
La data es categorizada y almacenada por áreas de negocio en lugar de aplicaciones
4.2 Integrada
La data es definida como única.
4.3 Variante en el Tiempo
La data es almacenada como serie de fotos asociadas al tiempo.
4.4 No-Volatil
La data en el DW tipicamente No cambia.
e. CARACTERISTICAS DEL DW
Las Bases de Datos son creadas específicamente para dar soporte a las decisiones.
La información es extraída desde los sistemas originales, transformada e integrada
La estructura del DWH es simplificada y en términos comunes del negocio, haciéndola más fácil de usar y entender
Un DWH contiene información basada en el tiempo
Los datos son analizados básicamente para detectar patrones y tendencias
f. DATAWAREHOUSE EMPRESARIAL
Permite la implementación a escala grande y alcance de todo el negocio. Se relacionan los datos desde todas las áreas mediante niveles atómicos y el desarrollo incremental.
Los usuarios de toda la organización son involucrados en este tema. Punto de distribución de los DATA MARTS dependientes
g. CARACTERISTICAS DE UN DATA MART
h. DATA WAREHOUSES VS DATA MARTS
ALMACEN DE DATOS OPERACIONALES (OPERATIONAL DATA STORE (ODS)
Almacena data táctica desde los sistemas de producción, orientada a un tema e integrada con fines operacionales.
Características:
Mixtura de un DATAWAREHOUSE y un sistema operacional
Atiende necesidades operacionales
Estructura desnormalizada
Levemente sumarizada, datos de detalle
Contiene algunos datos operacionales
Data actualizada o casi actualizada
PROCESAMIENTO OPERACIONAL
Es el conjunto de sistemas transaccionales on-line que ejecutan las operaciones diarias del negocio.
PROCESAMIENTO ANALÍTICO
Es el conjunto de sistemas que ofrecen información usada para el análisis de un problema o situación.
MODELO DE DATOS MULTIDIMENSIONAL
La data se encuentra en la intersección de las dimensiones.
MULTI-DIMENSIONAL VS. BASES DE DATOS RELACIONALES
Multi-Dimensional Relacional
– Acceso mas rápido
– Multiplicidad de vistas de los datos
– Slice and dice
– Problemas de performance con base de datos grandes
– Usada especialmente para Data Marts.
– Es conocida y entendida
– Fuerte procesos de back- up y de restore
– Mejor performance en base de datos grandes
TECNOLOGIA MOLAP
TECNOLOGIA ROLAP
TECNOLOGIA HOLAP
i.
PARTE III. ELABORANDO UN DATAWAREHOUSE
PASOS PARA ELABORAR UN DATAWAREHOUSE
3.1 Identificar los Sistemas Fuentes
Estudiar y entender la arquitectura IT
Inventario de los sistemas transaccionales existentes
Inventario de los sistemas de análisis existentes
Investigar fuentes potenciales del Data Warehouse
Explorar e investigar fuentes externas a la empresa
Explorar los temas de calidad de datos
Entender la administración de cambios de los sistemas fuentes
3.2 Modelar los datos
Modelar la data
Escoger la herramienta de modelado de datos
Establecer estándares de nombres
Determinar la granularidad
Escoger un esquema
Desarrollar los modelos de datos de alto nivel para las áreas de negocio a ser consideradas en este Data Warehouse
Validar el modelo de datos
3.3 Diseñar la Base de Datos del data Warehouse
Planear un nivel de staging
Estimar volúmenes
Escoger un DBMS
Identificar las necesidades de los datos derivados
Generar scripts
3.4 Mapear los datos
Establecer mapeo de los requerimientos del negocio
Mapear requerimientos a las necesidades de datos
Crear el mapeo destino
Mapear los datos
3.5 Extraer los datos
Alinear los procesos de extracción al mapeo de datos
Determinar el rol del staging area
Considerar actividades de transformación y limpieza
Escoger la data a extraer y el software de transformación
Extraer los datos requeridos y colocarlos en el staging area (o direccionarlos en el data warehouse destino)
Validar y probar los procesos de extracción de datos
3.6 Limpiar los datos
Considerar modificaciones en las reglas de la data operacional.
Documentar las fuentes.
Crear un programa de calidad de datos.
Diseñar claramente los procesos de limpieza.
Los procesos de limpieza iniciales y los de los incrementos pueden ser diferentes
Definir Estándares de Calidad
3.7 Transformar los datos
Revisar la visión de los procesos de transformación de datos
Detallar y describir las derivaciones necesarias, sumarizaciones y/o otras operaciones
Escoger el software de transformación de Datos
Transformar la Data
Validar y probar los procesos de transformación y los datos
Rutinas de transformación:
Limpieza de datos
Eliminar inconsistencias
Agregar elementos
Juntando datos
Integrando datos
Transformando datos antes de la carga
3.8 Cargar el DataWarehouse
Desarrollar el plan de carga
• Calcular el tiempo
• Preparar la infraestructura técnica
• Preparar el software y los datos
• Desarrollar el plan de contingencia
Considerar el rol del staging area
Cargar los datos
• Desarrollar y probar la carga inicial
Validar la data cargada
3.9 Liberar la Metadata
La metadata son los datos acerca de los datos
Tan importante como el propio dato del warehouse
Es generado en todos los pasos del proceso
En resumen, ¿ Que contiene un repositorio de metadata?
Nombres de campos y definiciones
Mapeo de los datos
Tablas
Indices
Cronogramas de extracción, carga, etc.
Criterios de selección
Calculos de los datos derivados
Transformación de los datos
PARTE IV. Caso de Aplicación: Solución Inteligente de Negocios para Compras y Ventas en una Empresa
DESCRIPCION DE LA BASE DE DATOS EN ESTUDIO:
La base de datos que se ha tomado en cuenta para la aplicación de las técnicas de DATA WAREHOUSE. Esta base corresponde a un Sistema de Compras y Ventas de Repuestos en una empresa de motos.
Esta dividida en tres partes importantes:
1.-Manejo de las Compras: se trabaja con tablas de PROVEEDORES, VENDEDOR (Comprador de la empresa), CABECERA DE COMPRAS, DETALLE DE COMPRAS, REPUESTOS y/o otros.
2.- Manejo de VENTAS: se trabaja con tablas de CLIENTES, VENDEDOR, CABECERA DE VENTA, DETALLE DE VENTA, REPUESTOS y/o otros.
3.-Manejo de tablas MAESTRAS (MOVIMIENTO y DETALLE DE MOVIMIENTO), además de una tabla llamada TIPO DE MOVIMIENTO que pueden ser Compras, Ventas, Devoluciones, Regalos, Donaciones, etc.
Sacando esas deducciones podemos decir que tenemos tres diferentes tipos de DATA WAREHOUSE: DWCompras, DWVentas, DWMaestras.
DIAGRAMA DE LA BASE DE DATOS
ELABORACION DEL DATAWAREHOUSE Ventas
OBTENCIÓN DE DIMENSIONES:
Para esta DATA DATAWAREHOUSEse trabajara con las dimensiones: Repuesto_dim, Cliente_dim, Time_venta_dim, Vendedor_dim.
Aquí se muestra la obtención de la tabla de dimensión Repuesto_dim, la cual se obtuvo de la creación de una vista, en la Base de Datos Original.
Repuesto_dim
De igual manera, con la ayuda de la Herramienta: Proyecto de Integration Services del SQL 2005 se logro crear la tabla de dimensiones en el DATA DATAWAREHOUSEmencionado, con la siguiente consulta:
Aquí se muestran las otras consultas para la creación de las otras tablas de dimensión, empleando las Herramienta del SQL SERVER 2,005 antes mencionada.
Para poder conservar las integridad de los datos del DATAWAREHOUSE y evitar que estos se dupliquen o se muestren datos erróneos o incorrectos, se utilizara una tabla, la cual se obtendrá de la creación de una vista en nuestra base de datos, la que estará formada por las claves originales de las tablas que actúan en esta vista y que son campos de las tablas de dimensiones, mas no llaves principales de estas. Además, de tener las medidas del DATA WAREHOUSE.
Luego de esto con la ayuda de la herramienta: Proyecto de Integration Services se creara la tabla auxiliar: VENTAS_AUXILIAR, la cual como se dijo anteriormente nos sirve de ayuda mas no forma parte del DATA DATAWAREHOUSEVentas.
OBTENCION DE LA TABLA DE HECHOS
En la tabla de hechos, se han identificado sus claves foráneas, las cuales son claves principales de las claves de dimensiones. Además se le agrego los campos de las medidas (todo esto se ha logrado gracias a la creación de una vista donde se mezclan todas las tablas de dimensiones con la Tabla Auxiliar).
Aquí se muestra la sentencia SQL SERVER 2 005 que se utilizo en la herramienta Proyecto de Integration Services para la creación de la tabla de hechos obteniéndose al final el diagrama del DATA WARE HOUSE Ventas de nuestra base de datos en estudio.
4. ELABORACION DEL DATAWAREHOUSE Compras
Obtención tabla de Dimensiones
Proveedor, Vendedor (Comprador de la empresa), Repuesto, Time_compra_dim (Dimensión de Tiempo).
Obtención medidas.
• Cantidad.
• Subtotal.
OBTENCION DE LOS CUBOS DEL DATA WAREHOUSE
En el recuadro que presento en la pagina siguiente se observa la Solución Inteligente implementada mediante CUBOS OLAP.
Se ha utilizado Visual Studio 2005 Bussiness Inteligence para implementar la solución y procesar los datos en modo de almacenamiento HOLAP utilizando Cubos.
Se observa la granularidad que nos permite un Reporte OLAP y que es de mucha ayuda al momento de analizar la información por parte de los Gerentes de una organización pues ellos pueden simplemente con arrastrar una columna o fila ver un resultado que llamamos información y que tardaría talvez mucho tiempo obtener si lo desarrolláramos con consultas simples.
Es importante acotar la importancia de la forma en que se visualización los datos pues es una gran ayuda para las personas que toman las decisiones en la Organización tener reportes que engloben información relevante, consistente y fácil de entender.