Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

5 may. 2016

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:


Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport  generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:



Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil

·  


21 comentarios:

Giri Mani 2 dijo...

This blog giving the details of technology. This gives the details about working with the business processes and change the way. Here explains think different and work different then provide the better output. Thanks for this blog.
Hadoop Training in Chennai

Akalya dijo...

Its Nice Article about "Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)"

Akalya from Digital Marketing Training in Chennai

Reena S dijo...

Thanks for sharing this informative blog keep updating more ..

Core Java Training in chennai

vishali dijo...

Hadoop Training

SKARtec SEO dijo...

Its Nice Article about "Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)"

digital marketing course

mohd Sameer dijo...

https://stitchclothes.com here we stitch clothes as per your design and selection

Apsara G dijo...


Nice Blog... RPA Training in Chennai | Blue Prism Training in Chennai

hari raj dijo...

The blog, you presented on Big data and business intelligence is clear to understand the basics of the software. Really good blog. Best Software Training Institute in Chennai

hari raj dijo...

The blog, you presented on Big data and business intelligence is clear to understand the basics of the software. Really good and nice blog. RPA Training in Chennai|Blue Prism Training in Chennai

shalinipriya dijo...

This is a nice article here with some useful tips for those who are not used-to comment that frequently. Thanks for this helpful information I agree with all points you have given to us. I will follow all of them.
Data Science Training in Chennai
Data science training in bangalore
Data science online training
Data science training in pune
Data science training in kalyan nagar

Ram priya dijo...

Hi, Great. The tutorial is just awesome.It is really helpful for a newbie like me.. I am a regular follower of your blog. The really very informative post you shared here. Kindly keep blogging.

Devops training in Chennai
Devops training in Bangalore
Devops Online training
Devops training in Pune

amilu B dijo...

Very nice post here and thanks for it .I always like and such a super contents of these post.Excellent and very cool idea and great content of different kinds of the valuable information's.java training in chennai | java training in bangalore

java online training | java training in pune

selenium training in chennai

selenium training in bangalore

ajay. chinna dijo...

Nice post keep do posting The Info was too good, for more information regarding the technology Click
Amazon web Services Training
Professional Salesforce CRM Training
Devops training

Nithin dijo...

we repair and service all models of oneplus Service in Chennai, We rely on customer satisfaction. We can service all problems faced by oneplus customers in chennai.


Oneplus Service Center in Chennai | Oneplus Service Centre | Oneplus Service Center | Oneplus Service Center near me | Oneplus Service Center in velachery | Oneplus Service Chennai

Priya Rajesh dijo...

Wonderful post. Thanks for taking time to share this information with us.
RPA courses in Chennai | RPA Training in Chennai | Blue Prism Training Institute in Chennai | UiPath Courses in Chennai

Mouni yoga dijo...

A very nice guide. I will definitely follow these tips. Thank you for sharing such detailed article. I am learning a lot from you.
python training in pune
python training institute in chennai
python training in Bangalore

gowsalya dijo...

Thank you for allowing me to read it, welcome to the next in a recent article. And thanks for sharing the nice article, keep posting or updating news article.
Online DevOps Certification Course - Gangboard
Best Devops Training institute in Chennai

Sri Nithya dijo...

Wonderful post. Thanks for taking time to share this information with us.
Big Data Analytics Courses in Chennai
Data Analytics Training in Chennai
Blue Prism Training near me
Blue Prism Training Chennai
ccna Training institute in Chennai
AWS Certification in Chennai

Priya Rajesh dijo...

Thanks for sharing this information admin, it helps me to learn new things. Continue sharing more like this.
DevOps certification Chennai
DevOps Training in Chennai
RPA Training in Chennai
RPA courses in Chennai
R Training in Chennai
UiPath Training in Chennai

Teju Teju dijo...

It is nice blog Thank you provide important information and I am searching for the same information to save my time Big Data Hadoop Online Training Bangalore

Robotic Process Automation Tutorial dijo...

Very informative article.Thank you admin for you valuable points.Keep Rocking
rpa training chennai | rpa training in velachery | best rpa training in chennai