Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

23 abr. 2019

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:



Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport  generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:




Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil


·  


16 abr. 2019

Por que el ETL es crucial

 

Por favor, leed este articulo. Es una joya para todos los que trabajan en Data Warehouse, Business Intelligence, Big Data


En TodoBI nos gusta decir que en los proyectos BI, DW son como un iceberg (la parte oculta es la mas grande e importante) y se corresponde con el ETL


Un extracto del artículo:


"ETL was born when numerous applications started to be used in the enterprise, roughly at the same time that ERP started being adopted at scale in the late 1980s and early 1990s"


Companies needed to combine the data from all of these applications into one repository (the data warehouse) through a process of Extraction, Transformation, and Loading. That’s the origin of ETL.


So, since these early days, ETL has essentially gotten out of control. It is not uncommon for a modest sized business to have a million lines of ETL code. 


ETL jobs can be written in a programming language like Java, in Oracle’s PL/SQL or Teradata’s SQL, using platforms like Informatica, Talend, Pentaho, RedPoint, Ab Initio or dozens of others.



With respect to mastery of ETL, there are two kinds of companies:


  • The ETL Masters, who have a well developed, documented, coherent approach to the ETL jobs they have
  • The ETL Prisoners who are scared of the huge piles of ETL code that is crucial to running the business but which everyone is terrified to change.
Mas info: ETL con soluciones Open Source

Las 53 Claves para conocer Machine Learning


Si hace unos días os presentábamos las 69 claves para conocer Big Data, hoy os traemos las 53 Claves para conocer Machine Learning

Que lo disfrutéis, si quereis conocer más o practicar, tenemos cursos


Tambien os recomendamos: Una breve historia del Machine Learning



12 abr. 2019

Nuevos Desarrollos y Futbol Analytics





Presentación del Evento

Todo comenzó a las 09:00 con una presentación en la que uno de los principales promotores del evento José Luis Sánchez Vera excusaba su ausencia mediante un video por compromisos con el equipo femenino. PD: Enhorabuena José Luis por el evento y por la victoria frente al Levante por 0-4.






Víctor Mañas – Arsenal (Integración de la analítica de datos en los procesos de análisis del juego de un equipo de futbol profesional)
Inicio Víctor su intervención indicando el enfoque de análisis de equipo propio y rival para el que dentro de su club disponen de una empresa propia que les proporciona los datos.




En la siguiente diapositiva nos mostraba dentro del cuerpo técnico cuales eran sus tareas principales a lo largo de la semana entre las que destacan el análisis del equipo rival (Realizando cortes de entre 4-6 partidos completos y revisando 8-10 encuentros en facetas de balón parado).



Interesante destacar el proceso de adquisición de datos que llevan a cabo, almacenamiento y visualización con Power BI y Tableau (analítica de datos descriptiva) y realizando predicciones con R (analítica de datos predictiva).  A nivel personal resulta gratificante ver como los clubs punteros realizan este proceso de adquisición, almacenamiento y análisis del dato al que yo me llevo dedicando desde 2009 en el ámbito más puramente empresarial.



Una vez que los datos nos dan información de los patrones de comportamiento del equipo rival, llega la hora de entrenar la manera de contrarrestar los puntos fuertes del rival. Fue muy interesante la parte de la charla en la que menciona las Vigilancias defensivas.




Concluyó Victor su intervención indicando que el análisis de datos debe de facilitar y ayudar en los procesos de toma de decisiones.


Xabi Ruiz Ocenda – Atlético de Madrid (Desarrollo metodológico del plan de partido, Microciclo competitivo desde el punto de vista táctico)
Comenzó su intervención Xabi indicando cuales son los 3 cimientos del modelo de juego del Atlético de Madrid en los todos identificamos un 4-4-2 siendo un equipo con un fuerte concepto defensivo y al que resulta muy difícil generarle ocasiones de gol, teniendo en la victoria su principal prioridad.



A partir de esta introducción comenzó una de las mejores partes del Congreso en la que Ocenda nos impartió una clase magistral analizando las 4 fases y momentos del juego y bajando hasta grandes niveles de detalle en los puntos que se analizan en una semana de trabajo tipo para un analista.




Terminó Xabi su ponencia mostrando videos de entrenamientos para contrarrestar los puntos fuertes de los oponentes y marcando los retos a afrontar en su futuro, aunque ya te lo indiqué en persona, volver a repetir por aquí lo bueno y educativo de tu intervención Xabi.





Mesa Redonda Analistas La Liga

En esta mesa redonda moderada por el ovetense Marcos López (Best of You, Cope, Movistar) y en la que participaron el Rubén Reyes (analista del Rayo Vallecano), Borja de Matías (Analista del Alavés), Tino Cabrera (Analista del Betis) y Susana Ferreras (Científica de datos del Arsenal).
La mesa tuvo un formato muy interactivo en el que todos los asistentes podíamos formular preguntas a los analistas de la mesa, enriqueciendo así el debate y las posibilidades formativas de la mesa.





Carles Planchart – Manchester City (Evolución y adaptación del Análisis en los diferentes equipos)
Para cerrar el evento estaba dedicada la ponencia de Carles un fiel compañero de Pep Guardiola.
Carles realizo una reseña a su evolución desde la temporada 2002-2003 en el FC Palafrugell con videos en formato VHS hasta la gran cantidad de recursos audiovisuales que la Premier League Ofrece.
Planchart indicó que dentro de su club confían más en los datos generados por recursos propios del club con información personalizada, confidencial y más fiable que la proporcionada de forma masiva por los proveedores de datos deportivos (Opta, STATS, InStat, Wyscout, ...)




Me pareció bastante interesante y diferencial la parte de entrenamiento para jugadores lesionados con gafas de realidad aumentada. Una forma novedosa de transmitir por ejemplo conceptos de salida de balón a Eliaquim Mangala o Vincent Kompany sin necesidad de saltar al terreno de juego.




Continuó su intervención mostrando un video en el que Pogba realizaba conducciones durante la época de Mourinho en el Manchester United y quiso matizar que su filosofía en el City era totalmente distinta apostando por un avance del balón apoyándose en las triangulaciones y utilizando el concepto del tercer hombre.
Para terminar, es digno de reseña la transformación de la Premier League en los últimos años con el desembarco en las islas de entrenadores y jugadores no anglosajones, generando significativos cambios en el estilo de juego de esta competición.




Con la llegada de los entrenadores y jugadores no británicos los pases cortos y el tiempo de posesión ha aumentado considerablemente.

Un evento genial. El Futbol Analytics ha llegado!!

Autor: David Fombella docente del Máster en Big Data Deportivo del Big Data International Campus, realiza en este post un resumen del Congreso de Análisis de Rendimiento y Nuevos Desarrollos en el Fútbol celebrado el sábado 23 de Marzo de 2019 en el auditorio del estadio Wanda Metropolitano.

11 abr. 2019

10 trucos para integrar el Business intelligence dentro de los procesos de negocio




El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

10 abr. 2019

Conoce la nueva versión de Odoo




Las soluciones de negocio de Odoo son cada vez más conocidas en España. Sea en las pequeñas o grandes empresas, de los más diversos sectores, utilizándose en distintas aplicaciones como CRM, Fabricación o Proyectos. 

Todos los que buscan las mejores apps para gestionar su empresas utilizan o piensan en implementar Odoo.


Para presentar las nuevas funcionalidades de la versión 12 de Odoo, estuvieron en España  los gerentes de cuentas de Odoo SA para el mercado español en las ciudades de Bilbao, Sevilla y Valencia.

Desde el punto de vista de la analítica de los datos de Odoo, nuestros amigos de Stratebi han creado Odoo Analytics:

Odoo Analytics, es la solucion que combina lo mejor de las soluciones Open Source para CRM/ERP y Business Intelligence, usando Odoo y LinceBI

Odoo es una suite de aplicaciones de gestión tanto para el mundo de la empresa como administración pública y otro tipo de organizaciones, que incluye una gama de herramientas de fácil uso para optimizar y rentabilizar los procesos.




Su objetivo es englobar en un único software todas las herramientas que necesita una organización para la operativa en todos los principales departamentos. En este sentido, Odoo nos ofrece funcionalidades que podrían encajar tanto en un software ERP como en un software CRM.



Odoo es una aplicación con una amplia trayectoria. Antes se conocía como OpenERP y ya era considerado una de las principales aplicaciones para la gestión empresarial

LinceBI es la mejor solución Analytics basada en Open Source, partiendo de desarrollos en Pentaho e incluyendo funcionalidades de Machine Learning y Big Data

Incluye conectores con las principales fuentes de datos, así como soluciones verticales por industrias, con los principales KPIs, Dashboards e informes de cada área, estando en uso en gran cantidad de grandes organizaciones

Su escalabilidad, permite a LinceBI ser la solución ideal para el uso de los más modernos algoritmos de Machine Learning y las tecnologías Big Data OLAP con acceso y visualización de grandes volúmenes de datos

9 abr. 2019

Extreme OLAP tutorial con Apache Kylin - Kyligence




Quieres aprender todo sobre Apache Kylin y Kyligence? No te pierdas estos videotutoriales. Saber más sobre Kylin (en español)
Enable Interactive Big Data Analytics of Power BI
See how fast and easy it is to analyze 10 million rows of data in Microsoft Power BI using Kyligence vs. Hive for Big Data.
Icon
Explore Dataset in Large Scale with Qlik
Learn how Kyligence, the leading intelligent Big Data OLAP platform, helps Qlik users explore and query datasets quickly at any scale.
Icon
Why Xactly chose Kyligence as a centralized data analytic platform?
See how Kyligence helped Xactly simplify data management and accelerate business value generation with its centralized Big Data analytics platform.
Icon
Accelerate BI on Big Data with Kyligence
Discover how Kyligence makes sub-second query response times on massive datasets for thousands of concurrent users a breeze.
Icon
Extreme OLAP with Apache Kylin
See how the latest version of Apache Kylin is making OLAP on Big Data faster and easier than ever before with these real use cases.
Icon
Building enterprise OLAP on Hadoop in Finance
Get an overview of Apache Kylin and Kyligence’s Big Data analytics platform that covers key enterprise features including concurrency and compatibility.
Icon
Apache Kylin Use Cases in China and Japan
Learn how Apache Kylin is being adopted in China and Japan with real use cases and best practices you can apply to your own Big Data efforts.
Icon
Kyligence Insight for Superset
Learn how to get started with Kyligence Insight for Superset and start accelerating your Big Data analytics and time to insight today.

14 usos que tienen las aplicaciones Business Intelligence Analytics


Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc... pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadisticas y de Machine Learning

He aquí unos ejemplos:



  1. Business experiments: Business experiments, experimental design and AB testing are all techniques for testing the validity of something – be that a strategic hypothesis, new product packaging or a marketing approach. It is basically about trying something in one part of the organization and then comparing it with another where the changes were not made (used as a control group). It’s useful if you have two or more options to decide between.
  1. Visual analytics: Data can be analyzed in different ways and the simplest way is to create a visual or graph and look at it to spot patterns. This is an integrated approach that combines data analysis with data visualization and human interaction. It is especially useful when you are trying to make sense of a huge volume of data.
  2. Correlation analysis: This is a statistical technique that allows you to determine whether there is a relationship between two separate variables and how strong that relationship may be. It is most useful when you ‘know’ or suspect that there is a relationship between two variables and you would like to test your assumption.
  1. Regression analysis: Regression analysis is a statistical tool for investigating the relationship between variables; for example, is there a causal relationship between price and product demand? Use it if you believe that one variable is affecting another and you want to establish whether your hypothesis is true.
  1. Scenario analysis: Scenario analysis, also known as horizon analysis or total return analysis, is an analytic process that allows you to analyze a variety of possible future events or scenarios by considering alternative possible outcomes. Use it when you are unsure which decision to take or which course of action to pursue.
  1. Forecasting/time series analysis: Time series data is data that is collected at uniformly spaced intervals. Time series analysis explores this data to extract meaningful statistics or data characteristics. Use it when you want to assess changes over time or predict future events based on what has happened in the past.
  1. Data mining: This is an analytic process designed to explore data, usually very large business-related data sets – also known as ‘big data’ – looking for commercially relevant insights, patterns or relationships between variables that can improve performance. It is therefore useful when you have large data sets that you need to extract insights from.
  1. Text analytics: Also known as text mining, text analytics is a process of extracting value from large quantities of unstructured text data. You can use it in a number of ways, including information retrieval, pattern recognition, tagging and annotation, information extraction, sentiment assessment and predictive analytics.
  1. Sentiment analysis: Sentiment analysis, also known as opinion mining, seeks to extract subjective opinion or sentiment from text, video or audio data. The basic aim is to determine the attitude of an individual or group regarding a particular topic or overall context. Use it when you want to understand stakeholder opinion.
  1. Image analytics: Image analytics is the process of extracting information, meaning and insights from images such as photographs, medical images or graphics. As a process it relies heavily on pattern recognition, digital geometry and signal processing. Image analytics can be used in a number of ways, such as facial recognition for security purposes.
  1. Video analytics: Video analytics is the process of extracting information, meaning and insights from video footage. It includes everything that image analytics can do plus it can also measure and track behavior. You could use it if you wanted to know more about who is visiting your store or premises and what they are doing when they get there.
  1. Voice analytics: Voice analytics, also known as speech analytics, is the process of extracting information from audio recordings of conversations. This form of analytics can analyze the topics or actual words and phrases being used, as well as the emotional content of the conversation. You could use voice analytics in a call center to help identify recurring customer complaints or technical issues.
  1. Monte Carlo Simulation: The Monte Carlo Simulation is a mathematical problem-solving and risk-assessment technique that approximates the probability of certain outcomes, and the risk of certain outcomes, using computerized simulations of random variables. It is useful if you want to better understand the implications and ramifications of a particular course of action or decision.

  1. Linear programming: Also known as linear optimization, this is a method of identifying the best outcome based on a set of constraints using a linear mathematical model. It allows you to solve problems involving minimizing and maximizing conditions, such as how to maximize profit while minimizing costs. It’s useful if you have a number of constraints such as time, raw materials, etc. and you wanted to know the best combination or where to direct your resources for maximum profit.

Visto en Forbes