Data Integration

8 junio, 2016

Data Integration (ETL)

Los procesos de Extracción, Transformación, y Carga (ETL) son componentes críticos para la carga de Data Warehouse, sistemas de Business Intelligence, o plataformas de Big Data.

Aunque invisibles para la mayoría de los usuarios de plataformas de BI, los procesos de ETL recuperan los datos de los sistemas operacionales, y los pre-procesan, para su posterior explotación en herramientas de reporting y analytics.

 

La complejidad de estos procesos se resume en 3 simples pasos:

 

Extracción (Extract)

Extracción de los datos de las aplicaciones y bases de datos productivas (ERP , CRM, RDBMS , archivos , etc.)

 

Transformación (Transform)

La transformación de datos para reconciliarlo a través de los sistemas de origen , realizar cálculos o parseo de cadenas , enriquecerlo con información externa , y también coincidirlo con el formato requerido por el sistema de destino.

 

Carga (Loading)

Cargar los datos resultantes en aplicaciones de Business Intelligence y Analytics: Data Warehouse o Enterprise Data Warehouse, Data Marts, Online Analytical Processing (OLAP), etc.

 

Funcionalidades de las herramientas ETL:

  • Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad.
  • Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes.
  • Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes, integrando la extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los Data Marts.
  • Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas de consolidación.
  • Acceso a una gran variedad de fuentes de datos diferentes.
  • Manejo de excepciones.
  • Gestión de la planificación de todos los procesos necesarios para la carga del DW.
  • Interfaz independiente de hardware.
  • Soporte en la explotación del Data Warehouse.

Otros usos para las herramientas de ETL:

  • Tareas de Bases de datos como Consolidar, Migrar y Sincronizar bases de datos operativas.
  • Migración de datos entre diferentes aplicaciones por cambios de versión o cambio de aplicativos.
  • Sincronización entre diferentes sistemas operacionales (por ejemplo, nuestro entorno ERP y la Web de ventas).
  • Consolidación de datos: sistemas con grandes volúmenes de datos que son consolidados en sistemas paralelos para mantener históricos o para procesos de purga en los sistemas originales.
  • Interfaces con sistemas externos: envío de información a clientes, proveedores.
  • Otros usos: Actualización de usuarios a sistemas paralelos, preparación de procesos masivos (mailings, newsletter), etc.

 

Articulos sobre Business Intelligence:

*  ETL: La Columna Vertebral del BI Moderno

Herramientas ETL en las que tenemos experiencia:

Informatica Power Center

IBM Websphere DataStage

Microsoft SQL Server Integration Services

Oracle Data Integrator

SAS Data Integration Studio

AB Initio

Pentaho Data Integration

Talend Open Studio