TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Evaluar productos ETL es dificil

ETL
No cabe duda que la evaluación de cualquier tecnología es dificil. Si nos centramos en el área del Business Intelligence (en donde existe una numerosísima variedad de productos y fabricantes), mucho más; pero si vamos más allá, a un área específica del BI, como son las herramientas ETL (extracción, transformación y carga de los datos), la dificultad se hace mucho mayor.
Los motivos son los que comento a continuación y que he recogido del interesante blog
Clickstream .
- Todos los productos ETL tienen un aspecto similar. Si, incluso mas que las herramientas de análisis. Parece que se ha establecido un 'standard' de facto sobre el look & feel. Lo cierto es que muchos DBA´s agradecerían algo de innovacion en este aspecto.
- Las presentaciones de los preventas son todas iguales. Se habla de las fuentes a las que se accede, de las herramientas para realizar transformaciones, de la forma de representarlo visualmente y de los metadata que se generan. Raramente se incide en los procesos de negocio que afecta, de las ventajas para la toma de decisiones y de como afecta al 'día a día' de un programador o dba.
- Si vemos demos colgadas en sus web, nos resulta practicamente imposible distinguirlas.
- Es probablemente, el área de BI en donde se necesite un conocimiento mas especializado y técnico. Y, en muy pocas empresas se tiene este conocimiento.
- La informacion que dan los analistas tipo Gartner, IDC, etc... se centran en generalidades y no inciden en los aspectos técnicos fundamentales.
- Muchas veces, los check-list standards sobre ETL no nos sirven para tomar decisiones.
Por eso, lo mejor es tratar de plantear cuestiones concretas y ver como pueden ser respondidas y solventadas:
Ej) Si el motor de transformacion esta realizando una gran carga de trabajo, ¿que ocurre si de repente entra una gran cantidad de datos no prevista? stop, delay, buffer...
Si tenemos que hacer una join entre una tabla de 4Gb de Sql Server y otra de 8Gb de Oracle. ¿cómo la realiza?
¿Como se evita que se sature toda la memoria?
¿Cómo se maneja el buffer?

Este es sólo un ejemplo, pero la idea es ir siguiendo paso a paso un posible caso real. Desde el principio al final. Por ello, la mejor forma de evaluar herramientas ETL es realizar unas pruebas o prototipos con una cantidad importante de datos. Aunque pueda suponer un mayor desembolso al principio, al final será muy útil.


Productos ETL:
Comerciales:
BusinessObjects Data Integrator
IBM Websphere DataStage
Informatica PowerCenter
Oracle Warehouse Builder
SAS Data Integration Studio
SQL Server Integration Services
Open Source:
Enhydra Octopus
KETTLE (Pentaho ETL)
CloverETL Project
Para saber mas:
Evaluating ETL Tools and Technologies
ETL Tools and Increased Productivity
ELT and ETL - candid view of pros ...
ETL "Ten Mistakes" paper

Getting Technical - ETL Selection Criteria, Part 1
Getting Technical - ETL Selection Criteria, Part 2
Differences Between EAI and ETL