TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Debería migrar de Pentaho Data Integration a Apache Hop?

Buena pregunta, en la actualidad, hay muchas implementaciones realizadas con PDI. Apache Hop, en cuyo proyecto está colaborando el propio Matt Casters, creador de PDI, propone cosas muy interesantes.

Antes de daros unas pautas y consejos, os recomendamos unos videotutoriales, papers y materiales que hemos venido publicando, para conocer mejor ambas tecnologías (en el caso de Pentaho Data Integration es un módulo más dentro de la suite Pentaho):

Conociendo Hop ETL Open Source
Gracias al gran Matt Casters, buen amigo, creador de Kettle (Pentaho Data Integration), se encuentra embarcado en el desarrollo de una nueva herramienta ETL open Source, Hop (os contamos todas las novedades que ya incluye: Aquí puedes descargar el paper gratuito en español con toda la información Ho…
Novedades Pentaho Data Integration 9.0
1. Novedades Pdi 9.0Las principales novedades de PDI 9.0 son las siguientes: Multi-clúster de Hadoop Los usuarios pueden acceder y procesar datos de múltiples clústeres de Hadoop, de diferentes distribuciones y versiones, todo desde una sola transformación e instancia de Pentaho.Además, dentro…
Como Pentaho ayuda a los cientificos de datos
Hace ya algunas semanas os veníamos comentando sobre las mejoras que estaba realizando Pentaho para facilitar la creación y ejecución de Machine Learning .  También os hablábamos de como habían introducido el concepto de Machine Intelligence Hoy, vamos un paso más allá y tras la celebra…
Comparacion entre Talend y Pentaho
Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio . Hoy traemos otra comparación interesante: Talend:  Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integra…

Consejos para evaluar si hacer una migración de Pentaho Data Integration a Apache Hop

  1. Revisa bien la documentación, webs y características de ambas herramientas. Vamos, echa un vistazo a los videos, papers y comentarios que os hemos compartido un poco más arriba
  2. Descárgate Apache Hop y curiosea un poco con la herramienta
  3. Analizar bien tu sistema actual basado en Pentaho Data Integration. Para qué lo estás usando, si es de misión crítica, si tiene carencias, si le faltan funcionalidades que pudiera cubrir Hop...
  4. Puedes hacer una prueba directa e importar tus proyectos de PDI en Hop y empezar a usarlo a ver que pasa. Verás luego, que el funcionamiento es un poco diferente, pero habrás dado el primer paso

5. También es aconsejable hacer una auditoría y revisión de todos tus jobs actuales, ver aquellos que más tardan, aquellos que no se usan, los que dan errores, ver los que se pueden mejorar y optimizar, etc...

6. Un par de herramientas que te pueden venir bien es usar el legendario Kettle Cookbook, que te genera documentación y metadatos de todos tus procesos. Sí, es cierto que quedó deprecado hace mucho tiempo pero nosotros hemos conseguido hacerlo funcionar lo mejor posible. Nos puedes escribir.

7. También puedes usar una herramienta para auditar el comportamiento de tus procesos, como STAudit de LinceBI, que usa PDI como una de sus herramientas de ingesta de datos

8. Si haces la migración, ves poco a poco y con cuidado. Probablemente, debes plantearte que convivirán ambos sistemas un tiempo

9. Vale, puedes estar pensando que es complicado, que necesitas ayuda, etc... la comunidad, al ser Open Source está creciendo y te puede ayudar.

Por ejemplo, puedes hablar con los amigos de Stratebi, que han trabajado con los desarrolladores, llevan mucho en esto y lo conocen bien. Además, colaboran en este portal publicando tutoriales :-)

Te pueden ayudar a hacerlo, darte formación, etc...