Caso de uso

No tener una herramienta ETL es un problema pero tenerla y que procese un 4% de sus datos con errores podría ser catastrofico
La dirección de negocio de un grupo empresarial requiere un sistema de información que les proporcione informacion de ventas, marketing,etc
La mayoría de empresas del grupo tienen su ERP con Oracle y el resto con SAP sobre SQL Server.
El departamente de BI tiene un gran reto para integrar todas esas fuentes de datos en su Data Warehouse y eligen Open Datastage como plataforma para las gestión de su DWH.

¿Qué han logrado hacer?

Automatizar la extracción de 70 bases de datos, usando templates SQL parametrizables para no repetir las consultas en cada una de las bases de datos que tienen el mismo sistema ERP
Automatizar la carga de ficheros de datos de usuarios
Con un equipo de 2 personas no técnicas y con conocimientos de sql mantener un dwh con el minimo esfuerzo y centrarse en el desarrollo de cuadros de mando y en las generacion de datos analiticos para un grupo empresarial de mas 1000 empleados.
Tener un DWH sin necesidad de tener expertos en ETLs, con analistas centrados en desarrollar sus cuadros de mandos y en generar datos analíticos importantes para el negocio.
Tener un equipo de 2 analistas centrados en desarrollar cuadros de mandos y datos analíticos.
Definir una estructura jerarquica de procesos para definir los procesos Batch y las dependencias entre ellos. Por ejemplo, se han definido 4 steps sequenciales:
  • Stage: es lo primero que se hace, ejecutar las cargas de datos de las fuentes externas, dichas ejecuciones se paralelizan
  • Dim: despues de que finalice el paso anterior, se ejecutan los procesos de calculo de dimensiones
  • Fact: después de finalizar el paso anterior se ejectuan los procesos de calculo de las tablas de hechos
  • Olap: finalmente se generan tablas desnormalizadas para publicar en los distintos cloud para las visualización con Powerbi, Qllick.
Definir reglas de control de calidad de datos para preservar el datos válido en todo momento
Versionar y testear procesos sin necesidad de tener que gestionar otro entorno duplicado en paralelo
Monitorizar en todo momento que se está ejecutando, evolución de tiempos de carga, de volumetría, reglas de calida fallidas, etc
Todo el equipo de BI tiene acceso a los procesos que son de su control para su evolución y gestión de incidencias, cualquier miembro es capaz de detectar de forma rápida los errores y meter cambios con un par de clicks

¿Cuantas personas han sido necesarias para el desarrollo inicial del DWH?

Un ingeniero de datos