Datamart (y data warehouse) en empresas: paso a paso para implementarlo
Datamart (y data warehouse) en empresas: paso a paso para implementarlo
Índice de Contenido
El datamart y el data warehouse son recursos de suma importancia para las empresas que desean mejorar la toma de decisiones mediante un enfoque data driven. Ya sea a través de mecanismos de big data, business intelligence, minería de datos o cualquier otro, es necesario contar con repositorios de datos altamente eficientes, y aquí es donde entra en juego el datamart como una posible extensión del data warehouse (DWH).
¿Qué es un datamart?
Un datamart empresarial es un repositorio de datos especializado en una única área de la organización. Es decir, el datamart almacena información solo de una temática, de un proceso o de un departamento específico de la empresa. Por ejemplo, en tu negocio puedes tener:
- Un datamart para lo relacionado con la temática de materias primas y aprovisionamiento,
- Un datamart para tu proceso de fabricación,
- Un datamart para tu departamento de marketing, y así sucesivamente.
La función del datamart es ordenar y disponibilizar la información de un área específica para que el personal especializado en dicha área pueda consultar los datos de manera rápida y fácil, ya sean datos maestros, transaccionales u otros.
Diferencias entre datamart y data warehouse
Un data warehouse es un gran almacén de datos dentro de la organización, y dentro de este sí se encuentra registrada la información de todas las áreas de la empresa: ventas, marketing, fabricación, logística, etc.
Si tu empresa no maneja grandes cantidades de datos puede tener entonces solo un data warehouse y prescindir de los datamarts, ya que el proceso de consulta dentro del data warehouse se puede realizar con relativa rapidez.
Sin embargo, si tu empresa maneja gran cantidad de datos, las consultas en el data warehouse se vuelven muy lentas y complejas. Aquí es donde nace la necesidad de separar la información del data warehouse por áreas temáticas, procesos o departamentos a través de los datamarts.
En este sentido, las principales diferencias entre el datamart y el data warehouse son las siguientes:
Datamart:
- Su capacidad se suele medir en gigabytes.
- Almacena información especializada en un área.
- Su alcance es departamental.
- Se alimenta de pocas fuentes de datos.
- Soporta consultas de una cantidad limitada de usuarios.
- Su información sirve de apoyo para la toma de decisiones tácticas.
- Su implementación puede tardar semanas o meses.
- Su velocidad de consulta sobre los datos es rápida.
Data warehouse:
- Su capacidad se suele medir en terabytes.
- Almacena información generalizada de toda la empresa.
- Su alcance es corporativo.
- Se alimenta de muchas fuentes de datos.
- Soporta consultas de gran cantidad de usuarios.
- Su información sirve de apoyo para la toma de decisiones estratégicas.
- Su implementación puede tardar años.
- Su velocidad de consulta sobre los datos suele ser lenta.
Ejemplo de implementación de un datamart paso a paso
La implementación paso a paso de un datamart varía de complejidad técnica según el tamaño de la organización. Sin embargo, como gerente o ejecutivo de negocios, sí te es posible mantener una supervisión permanente sobre todo el desarrollo del datamart en la empresa.
Por esta razón, desde la Comunidad de Entel Empresas te explicamos cómo suele ser la implementación de un datamart paso a paso, para que puedas entender y supervisar el proceso dentro de la empresa aun cuando los despliegues técnicos no sean tu especialidad.
A continuación, un ejemplo de 6 pasos para crear un datamart:
1. Planificación del alcance del proyecto de datamart
Como todo proyecto tecnológico en las empresas, la creación de un datamart inicia con una minuciosa planificación. Tu equipo de IT y tus gerentes de negocio deben trabajar en conjunto para planificar y definir aspectos como los siguientes:
- Cómo es el nivel de rendimiento del data warehouse. Si es alto, probablemente no necesites de un datamart, pero si es bajo, entonces sí necesitarás uno o varios datamarts.
- Cuáles son las unidades de negocio que necesitan ser apoyadas por datamarts. Con base en ello, sabrás cuántos datamarts son necesarios en la empresa.
- Cuántos usuarios utilizarán el datamart. Definir esta cantidad es clave para proyectar el nivel de exigencia que tendrá el repositorio de datos.
- Cuántos recursos serán necesarios para implementar y mantener el datamart (recursos humanos, técnicos, financieros, etc.).
- Cómo será el roadmap de la implementación (etapas y fechas) y cómo serán asignadas las responsabilidades al personal.
2. Identificación de los datos relevantes para el datamart
Los datos que almacenará y procesará el datamart en la empresa dependen de los tipos de usuarios que consultarán dichos datos. Entonces, se debe definir si el datamart será usado por el personal de marketing, de ventas, de logística, de finanzas o de cualquier otra área. Una vez hecho, ya se sabrá a qué categoría pertenecerán dichos datos.
De esta manera, tenemos por ejemplo que si el datamart será comercial (para marketing y ventas), entonces se tienen que identificar cuáles son los datos relevantes para esa área, como pueden ser datos relacionados sobre los clientes, los productos, las ventas, las campañas, las promociones, etc.
3. Selección del tipo de datamart en la empresa
En líneas generales, existen 3 tipos de datamarts:
- Datamart dependiente: se crea como una extensión de un data warehouse. Por tanto, siempre dependerá de dicho data warehouse.
- Datamart independiente: se crea como un repositorio de fuentes externas, sin estar relacionado con el data warehouse.
- Datamart híbrido: este modelo integra los dos anteriores. Es decir, está relacionado tanto con el data warehouse como con fuentes externas.
Teniendo en cuenta esta clasificación, se debe decidir bajo criterios técnicos y funcionales si lo adecuado es que el datamart empresarial a implementar sea dependiente, independiente o híbrido.
4. Clasificación de las fuentes de datos del datamart
Con base en el paso anterior, a continuación hay que clasificar todas las fuentes de datos que alimentarán al datamart. Estas pueden ser, por ejemplo: bases de datos, tablas de Excel, archivos delimitados,
Una vez que haya enumerado todas las dimensiones y hechos necesarios para diseñar el mercado de datos, el siguiente paso es identificar las fuentes que alimentar el repositorio. Estas fuentes pueden incluir bases de datos, archivos de Excel, archivos delimitados, registros provenientes de sistemas CRM, ERP, SCM, entre otros.
En este punto también es importante definir cuál herramienta ETL es la más adecuada para que el datamart procese los datos. Si se trata de un datamart dependiente cuya fuente de datos es el data warehouse, entonces utilizará la herramienta ETL de DWH. Si se trata de un datamart independiente con fuentes de datos externas, entonces utilizará una herramienta ETL aparte.
La herramienta ETL es la que ejecuta el proceso ETL (Extract, Transform and Load), que es el que permite que el datamart pueda gestionar los datos para disponibilizarlos hacia los usuarios.
5. Definición de la estructura del datamart
A nivel técnico, los datos del datamart se deben estructurar bajo un modelo específico en función de la cantidad y la calidad de los indicadores que se desean analizar. Los dos tipos de modelos más comunes son esquema en estrella y esquema en copo de nieve.
Diseñar a nivel teórico el modelo lógico del datamart permite organizar la manera en cómo se relacionarán los datos dentro del repositorio. Aunque este paso es completamente técnico, debe estar fundamentado al 100% en las necesidades de tu negocio, ya que se trata de mapear los datos teniendo en cuenta sus fuentes de origen y los requisitos del usuario final.
Fuente: Wikipedia / Autor: Jesuja
Fuente: Wikipedia / Autor: Jesuja
6. Reevaluación de la infraestructura del datamart
A medida que tu empresa crece de tamaño, también crecen los datos que gestiona cada departamento. Por tanto, los datamarts comienzan a exigir una infraestructura informática con mayores capacidades, tanto de almacenamiento como de procesamiento y de ancho de banda.
Teniendo en cuenta esta variabilidad, es importante que de manera constante evalúes si la actual infraestructura del datamart sigue siendo la más adecuada o si, por el contrario, necesita actualizar sus capacidades.
Por otro lado, para evitar estar invirtiendo de manera constante en infraestructuras físicas, lo recomendable es que crees tu datamart empresarial en la nube o en una arquitectura de IT híbrida (nube + on-premise). De esta manera, no tendrás que preocuparte nunca por el espacio de almacenamiento o la capacidad de procesamiento que necesita el datamart, ya que la nube le provee de forma automática a tu datamart todos los recursos que va requiriendo para funcionar a su máximo nivel de rendimiento.
En la Comunidad Empresas de Entel somos proveedores de servicios cloud de última generación, a través de los cuales puedes puedes crear o migrar tu datamart o tu datawarehouse a la nube de nuestro datacenter. Contamos con un datacenter en Santiago de Chile que tiene las certificaciones más prestigiosas a nivel mundial otorgadas por el Uptime Institute, la cuales son:
- TIER IV Certification of Constructed Facility
- TIER IV Gold Certification of Operational Sustainability
- TIER IV Certification of Design Documents
De hecho, somos la primera y única empresa chilena en obtener las certificaciones TIER IV de “Certification of Constructed Facility” y “Gold Certification of Operational Sustainability”, y somos una de las únicas dos empresas chilenas con la Certification of Design Documents.
Así, si quieres crear o migrar tu datamart a la nube de nuestro datacenter, nosotros nos encargamos de proteger tus datos con los más altos estándares de seguridad informática, de brindarte funciones de analítica interactiva en tiempo real, y de disponibilizar todos tus datos para que puedas consultarlos a través de internet desde cualquier parte del mundo, utilizando cualquier dispositivo (PC, laptop, tablet o smartphone) y a cualquier hora del día (24/7).