Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

29 abr. 2019

Checklist para hacer un proyecto Business Intelligence

Analisis

BI Termometer, es la iniciativa que tenemos en marcha, para hacer una gran recopilación de los indicadores más importantes a la hora de poner en marcha un proyecto Business Intelligence. Muchos proyectos Business Intelligence fracasan por no haber realizado una correcta toma de requerimientos. Desde Stratebi queremos ayudar a solventar este problema.

El objetivo es llegar a los 1500 indicadores de relevancia para construir este tipo de sistemas. Además, nos hemos propuesto ofrecer esta herramienta en abierto de forma que pueda ser de utilidad para todos, ofrecíéndola de forma online y generando informes y cuadros de Mando de resumen. Totalmente gratis!!

Aquí tenéis toda la información.

Ya están disponibles dos nuevas áreas de análisis (con gran cantidad de indicadores), que se añaden a la anteriores ya disponibles, por lo que ya tenemos:
- Analisis
- Reporting y User Interface
- Business Rules.
- ETL y Calidad de Datos.

- DW (Nuevo)

- Arquitectura (Nuevo)

Dashboard

Esperamos que esta herramienta os sea de ayuda!! no dudéis en darnos feedback de vuestra utilización.

26 abr. 2019

Ranking de las mejores Bases de Datos

Mas de 300 bases de datos son evaluadas en la comparativa que realizan en DB-engines anualmente

Un imprescindible para todos los que manejan datos. Cada vez tenemos más opciones y tecnologías donde elegir. Ah, y la mayoría, son Open Source





23 abr. 2019

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:



Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport  generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:




Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil


·  


16 abr. 2019

Por que el ETL es crucial

 

Por favor, leed este articulo. Es una joya para todos los que trabajan en Data Warehouse, Business Intelligence, Big Data


En TodoBI nos gusta decir que en los proyectos BI, DW son como un iceberg (la parte oculta es la mas grande e importante) y se corresponde con el ETL


Un extracto del artículo:


"ETL was born when numerous applications started to be used in the enterprise, roughly at the same time that ERP started being adopted at scale in the late 1980s and early 1990s"


Companies needed to combine the data from all of these applications into one repository (the data warehouse) through a process of Extraction, Transformation, and Loading. That’s the origin of ETL.


So, since these early days, ETL has essentially gotten out of control. It is not uncommon for a modest sized business to have a million lines of ETL code. 


ETL jobs can be written in a programming language like Java, in Oracle’s PL/SQL or Teradata’s SQL, using platforms like Informatica, Talend, Pentaho, RedPoint, Ab Initio or dozens of others.



With respect to mastery of ETL, there are two kinds of companies:


  • The ETL Masters, who have a well developed, documented, coherent approach to the ETL jobs they have
  • The ETL Prisoners who are scared of the huge piles of ETL code that is crucial to running the business but which everyone is terrified to change.
Mas info: ETL con soluciones Open Source

Las 53 Claves para conocer Machine Learning


Si hace unos días os presentábamos las 69 claves para conocer Big Data, hoy os traemos las 53 Claves para conocer Machine Learning

Que lo disfrutéis, si quereis conocer más o practicar, tenemos cursos


Tambien os recomendamos: Una breve historia del Machine Learning



11 abr. 2019

10 trucos para integrar el Business intelligence dentro de los procesos de negocio




El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

10 abr. 2019

Conoce la nueva versión de Odoo




Las soluciones de negocio de Odoo son cada vez más conocidas en España. Sea en las pequeñas o grandes empresas, de los más diversos sectores, utilizándose en distintas aplicaciones como CRM, Fabricación o Proyectos. 

Todos los que buscan las mejores apps para gestionar su empresas utilizan o piensan en implementar Odoo.


Para presentar las nuevas funcionalidades de la versión 12 de Odoo, estuvieron en España  los gerentes de cuentas de Odoo SA para el mercado español en las ciudades de Bilbao, Sevilla y Valencia.

Desde el punto de vista de la analítica de los datos de Odoo, nuestros amigos de Stratebi han creado Odoo Analytics:

Odoo Analytics, es la solucion que combina lo mejor de las soluciones Open Source para CRM/ERP y Business Intelligence, usando Odoo y LinceBI

Odoo es una suite de aplicaciones de gestión tanto para el mundo de la empresa como administración pública y otro tipo de organizaciones, que incluye una gama de herramientas de fácil uso para optimizar y rentabilizar los procesos.




Su objetivo es englobar en un único software todas las herramientas que necesita una organización para la operativa en todos los principales departamentos. En este sentido, Odoo nos ofrece funcionalidades que podrían encajar tanto en un software ERP como en un software CRM.



Odoo es una aplicación con una amplia trayectoria. Antes se conocía como OpenERP y ya era considerado una de las principales aplicaciones para la gestión empresarial

LinceBI es la mejor solución Analytics basada en Open Source, partiendo de desarrollos en Pentaho e incluyendo funcionalidades de Machine Learning y Big Data

Incluye conectores con las principales fuentes de datos, así como soluciones verticales por industrias, con los principales KPIs, Dashboards e informes de cada área, estando en uso en gran cantidad de grandes organizaciones

Su escalabilidad, permite a LinceBI ser la solución ideal para el uso de los más modernos algoritmos de Machine Learning y las tecnologías Big Data OLAP con acceso y visualización de grandes volúmenes de datos

9 abr. 2019

Extreme OLAP tutorial con Apache Kylin - Kyligence




Quieres aprender todo sobre Apache Kylin y Kyligence? No te pierdas estos videotutoriales. Saber más sobre Kylin (en español)
Enable Interactive Big Data Analytics of Power BI
See how fast and easy it is to analyze 10 million rows of data in Microsoft Power BI using Kyligence vs. Hive for Big Data.
Icon
Explore Dataset in Large Scale with Qlik
Learn how Kyligence, the leading intelligent Big Data OLAP platform, helps Qlik users explore and query datasets quickly at any scale.
Icon
Why Xactly chose Kyligence as a centralized data analytic platform?
See how Kyligence helped Xactly simplify data management and accelerate business value generation with its centralized Big Data analytics platform.
Icon
Accelerate BI on Big Data with Kyligence
Discover how Kyligence makes sub-second query response times on massive datasets for thousands of concurrent users a breeze.
Icon
Extreme OLAP with Apache Kylin
See how the latest version of Apache Kylin is making OLAP on Big Data faster and easier than ever before with these real use cases.
Icon
Building enterprise OLAP on Hadoop in Finance
Get an overview of Apache Kylin and Kyligence’s Big Data analytics platform that covers key enterprise features including concurrency and compatibility.
Icon
Apache Kylin Use Cases in China and Japan
Learn how Apache Kylin is being adopted in China and Japan with real use cases and best practices you can apply to your own Big Data efforts.
Icon
Kyligence Insight for Superset
Learn how to get started with Kyligence Insight for Superset and start accelerating your Big Data analytics and time to insight today.

14 usos que tienen las aplicaciones Business Intelligence Analytics


Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc... pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadisticas y de Machine Learning

He aquí unos ejemplos:



  1. Business experiments: Business experiments, experimental design and AB testing are all techniques for testing the validity of something – be that a strategic hypothesis, new product packaging or a marketing approach. It is basically about trying something in one part of the organization and then comparing it with another where the changes were not made (used as a control group). It’s useful if you have two or more options to decide between.
  1. Visual analytics: Data can be analyzed in different ways and the simplest way is to create a visual or graph and look at it to spot patterns. This is an integrated approach that combines data analysis with data visualization and human interaction. It is especially useful when you are trying to make sense of a huge volume of data.
  2. Correlation analysis: This is a statistical technique that allows you to determine whether there is a relationship between two separate variables and how strong that relationship may be. It is most useful when you ‘know’ or suspect that there is a relationship between two variables and you would like to test your assumption.
  1. Regression analysis: Regression analysis is a statistical tool for investigating the relationship between variables; for example, is there a causal relationship between price and product demand? Use it if you believe that one variable is affecting another and you want to establish whether your hypothesis is true.
  1. Scenario analysis: Scenario analysis, also known as horizon analysis or total return analysis, is an analytic process that allows you to analyze a variety of possible future events or scenarios by considering alternative possible outcomes. Use it when you are unsure which decision to take or which course of action to pursue.
  1. Forecasting/time series analysis: Time series data is data that is collected at uniformly spaced intervals. Time series analysis explores this data to extract meaningful statistics or data characteristics. Use it when you want to assess changes over time or predict future events based on what has happened in the past.
  1. Data mining: This is an analytic process designed to explore data, usually very large business-related data sets – also known as ‘big data’ – looking for commercially relevant insights, patterns or relationships between variables that can improve performance. It is therefore useful when you have large data sets that you need to extract insights from.
  1. Text analytics: Also known as text mining, text analytics is a process of extracting value from large quantities of unstructured text data. You can use it in a number of ways, including information retrieval, pattern recognition, tagging and annotation, information extraction, sentiment assessment and predictive analytics.
  1. Sentiment analysis: Sentiment analysis, also known as opinion mining, seeks to extract subjective opinion or sentiment from text, video or audio data. The basic aim is to determine the attitude of an individual or group regarding a particular topic or overall context. Use it when you want to understand stakeholder opinion.
  1. Image analytics: Image analytics is the process of extracting information, meaning and insights from images such as photographs, medical images or graphics. As a process it relies heavily on pattern recognition, digital geometry and signal processing. Image analytics can be used in a number of ways, such as facial recognition for security purposes.
  1. Video analytics: Video analytics is the process of extracting information, meaning and insights from video footage. It includes everything that image analytics can do plus it can also measure and track behavior. You could use it if you wanted to know more about who is visiting your store or premises and what they are doing when they get there.
  1. Voice analytics: Voice analytics, also known as speech analytics, is the process of extracting information from audio recordings of conversations. This form of analytics can analyze the topics or actual words and phrases being used, as well as the emotional content of the conversation. You could use voice analytics in a call center to help identify recurring customer complaints or technical issues.
  1. Monte Carlo Simulation: The Monte Carlo Simulation is a mathematical problem-solving and risk-assessment technique that approximates the probability of certain outcomes, and the risk of certain outcomes, using computerized simulations of random variables. It is useful if you want to better understand the implications and ramifications of a particular course of action or decision.

  1. Linear programming: Also known as linear optimization, this is a method of identifying the best outcome based on a set of constraints using a linear mathematical model. It allows you to solve problems involving minimizing and maximizing conditions, such as how to maximize profit while minimizing costs. It’s useful if you have a number of constraints such as time, raw materials, etc. and you wanted to know the best combination or where to direct your resources for maximum profit.

Visto en Forbes

5 abr. 2019

Todo lo que necesitas saber para trabajar con Vertica Database


No te pierdas los videos sobre Vertica, la mejor base de datos columnar para Analytics
















Saber más:


How to create an open source Big Data Stack



Big Data Stack Sub second interactive queries, machine learning, real time processing and data visualization. Nowadays there is a lot technology that enables Big Data Processing. However, choosing the right tools for each scenario and having the know-how to use these tools properly, are very common problems in Big Data projects management. For this reason, we have proposed the Big Data Stack, a choice of tools for Big Data processing based...


Free whitepaper 'Big Data Analytics benchmark' for faster Business Intelligence performance



The use of Business Intelligence (BI) systems usually gets a very fast and interactive response when using dashboards, reports and detailed analytical queries. BI applications that meet this interactive processing requirement are known as OLAP (On-Line Analytical Processing) applications.  However, when we work with data sources with Big Data features (Volume, Variety and Velocity), our metrics tables (e.g. sales volume, units...) and those...


Workshop Big Data Analytics en Madrid y Barcelona



2018 ha sido un buen año, en el que hemos vuelto a organizar nuestros workshops sobre tecnologías Open Source aplicadas al Big Data, Analytics, OLAP y Business Intelligence, en diferentes ciudades en España, así como también en algunas ciudades en Latam (Lima, Asunción, Santiago de Chile...) Hace unas semanas, cerrábamos de la mejor de las maneras, con el Workshop Big Data OLAP realizado en Madrid, en donde se cubrió todo el aforo (algunos amigos...


Los Workshop Big Data Analytics continuan



Tras la buena acogida de nuestro primer Workshop Big Data Analytics en Barcelona, ya estamos planeando nuevas ediciones: Madrid, Sevilla y Alicante, además de Bolonia, en donde también lo presentaremos en el Pentaho Community Meetup, PCM18 Aquí tienes toda la información del Workshop Big Data Analytics  ...


Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning



Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que: i), no requieren programación ni instalación,  ii), son más eficientes que otras opciones como la integración con Python/Pandas,  iii) se aplican sobre tablas o vistas,  iv) implementan los algoritmos...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Charla Introduccion Bases de Datos Analiticas (Vertica-MonetDB)


Si hace unos días, os dejábamos disponibles la charla de los Open Spaces sobre Real Time Big Data con Apache Storm y el de Apache Cassandra-NoSQL, hoy tenéis el video y la presentación del más que interesante de Bases de Datos Analíticas (orientadas a columnas). Estas bases de datos nos proporcionan un gran rendimiento en tiempos de consulta para grandes volúmes de datos en entornos analíticos, como son los cubos olap Si os es útil y os gusta, no dejéis de darnos feedback para continuar con nuevos materiales También disponible en slideshare: ...


Real Time Analytics, concepts and tools



We could consider three types of Real Time when we manage data and depends on each stage: 1. Real Time Processing: Is the possibility of ingest data at the time the event is produced in real live. This includes only processing step, i.e copying data from source to destiny and guarantees data to be ready for analytics You can try some online demos here Technologies: -Apache Flink -Apache Flume -Apache Kafka -Apache Spark -Apache...