Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

30 jun. 2017

Superset, la solucion analitica Open Source de Airbnb



Son muchas las multinacionales de nueva aparición que comparten sus aplicaciones. Os hemos hablado de Ebay, Linkedin... Hoy os contamos sobre Superset de Airbnb:




Apache Superset is a data exploration and visualization web application.
Superset provides:

  • An intuitive interface to explore and visualize datasets, and create interactive dashboards.
  • A wide array of beautiful visualizations to showcase your data.
  • Easy, code-free, user flows to drill down and slice and dice the data underlying exposed dashboards. The dashboards and charts acts as a starting point for deeper analysis.
  • A state of the art SQL editor/IDE exposing a rich metadata browser, and an easy workflow to create visualizations out of any result set.
  • An extensible, high granularity security model allowing intricate rules on who can access which product features and datasets. Integration with major authentication backends (database, OpenID, LDAP, OAuth, REMOTE_USER, ...)
  • A lightweight semantic layer, allowing to control how data sources are exposed to the user by defining dimensions and metrics
  • Out of the box support for most SQL-speaking databases
  • Deep integration with Druid allows for Superset to stay blazing fast while slicing and dicing large, realtime datasets
  • Fast loading dashboards with configurable caching

Mas recursos:

MapD libera Open Source GPU-Powered Database

Tenemos una nueva Base de Datos abierta, MapD.

Este es el mensaje: "The code is available on Github under an Apache 2.0 license. It has everything you need to build a fully functional installation of the MapD Core database, enabling sub-second querying across many billions of records on a multi-GPU server. All of our core tech, including our tiered caching system and our LLVM query compilation engine, is contained in today’s open source release"



MapD nace para ofrecer altas velocidades en el campo de las bases de datos analíticas. Diseñada para procesar billones de registros en cuestión de milisegundos aprovechando el poder de cómputo que ofrecen los GPUs.

Construida precisamente para aprovechar al máximo todas las capacidades de hardware y software disponibles en tarjetas gráficas, ofrece a los analistas y científicos de datos, tiempos de respuesta de unos 3 órdenes de magnitud (x1000) por encima sobre las tecnologías empleadas anteriormente para estos propósitos

27 jun. 2017

Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)


Hace ya algunos meses que mostramos cómo el motor OLAP de código libre Apache Kylin hace posible el análisis OLAP sobre Big Data, o lo que es lo mismo, la posibilidad de realizar consultas analíticas con tiempos de respuesta inferiores al segundo sobre enormes volúmenes de datos (hasta billones y trillones de filas).
Y a los que además acompañan otras características como la necesidad de capturarlos y analizarlos en tiempo real, o la integración desde múltiples fuentes datos menos estructuradas.

Además, mostramos en un caso de estudio cómo integrar Apache Kylin con el motor OLAP Pentaho Mondrian para la creación de vistas multidimensionales con visores como STPivot, haciendo también posible la consulta del Big Data mediante el lenguaje MDX. También mostramos cómo integrar Apache Kylin con Apache Zeppelin, herramienta de exploración de datos para la creación de cuadros de mando interactivos.

Sin embargo, en este nuevo caso de estudio hemos querido analizar la integración de Kylin con herramientas comerciales como Tableau, una de las herramientas para la creación de cuadros de mando y exploración de datos por usuarios finales más conocidas en el mundo del Business Intelligence. A continuación mostramos el vídeo del making off de nuestra nueva demo.




Y, aquí, el diagrama de la arquitectura Kylin + Tableau:
Como puede verse en el diagrama anterior, el almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella o copos de nieve (nuevo en Kylin 2.0)  y se mantiene en Apache Hive. 
A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline con Map Reduce o Spark (nuevo en Kylin 2.0), crea un cubo multidimensional (MOLAP) en la BD NoSQL Apache HBase. 
En el caso de Kylin, el cubo MOLAP lo forman un conjunto de estructuras que pre agregan o resumen los datos a distinto nivel, siendo esta característica una de las que más reducen el tiempo de consulta. A partir de este momento, Kylin permite hacer consultas sobre el cubo MOLAP generado a través de su interfaz SQL, también accesible a través de conectores J/ODBC.
Precisamente gracias a la disponibilidad de conexión ODBC, es posible conectar Kylin con herramientas como Tableau o Power BI.  En nuestro caso, hemos hecho uso de las herramientas Tableau Desktop y Tableau Public para la creación de un cuadro mando sobre un cubo OLAP que contiene datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos Big Data, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. 
En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
En primer lugar hemos usado Tableau Desktop, herramienta comercial, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zeppelin

La herramienta Tableau Desktop facilita a los usuarios finales de los datos (ej. analistas u otras personas del negocio) la creación y publicación de completos cuadros de mando, arrastrando y soltando las fuentes de datos y gráficos en un lienzo. A continuación mostramos una captura del diseño del cuadro de mando con Tableau Desktop.


Tras esto, publicamos nuestro cuadro de mando para compartirlo con el resto de nuestra organización. Si requerimos una conexión en vivo necesitaremos una licencia de Tableau Server o Tableau Online. 

Sin embargo, podemos optar por crear un extracto de los datos y publicar el cuadro de mando con la herramienta gratuita Tableau Public, como es el caso de nuestro cuadro de mando de ejemplo. Como podemos ver la web de la demo y en la siguiente captura, el resultado es un cuadro de mando con un aspecto profesional y cuyo desarrollo es fácil, incluso para un usuario no experto en Big Data y herramientas BI como Tableau.


Cómo veis, se abren unas posibilidades increibles, al poder realizar auténtico Business Intelligence sobre Big Data. Para cualquier cuestión, estaremos encantados de ayudaros en vuestros proyectos


15 jun. 2017

Free tools for Pentaho



Our colleagues from Stratebi (analytics specialists), have developed a suite of tools for Pentaho or embed in your own application, that includes:

- Improvements in BI Server Console (search, tags...)
- OLAP viewer and Adhoc Reporting improved
- New tools for end users self service dashboarding

- New amazing scorecard solution on top of Pentaho stack
- Powerful predefined real time dashboards
- Integration with Big Data technologies
- They are free and you can get open source code

- They only charge support, training and maintenance in order to give you security using this tools in production environments avoiding bugs, including updgrade to new versions (contact with them)
- Forget licenses costs!!

See in action:

Demo_Tools - Demo Big Data


14 jun. 2017

Una introduccion al Machine Learning con emojis




A step-by-step guide for this sheet: 
  • Learning Styles
  • Regressions
  • Classification
  • Clustering
  • The Curse of Dimensionality
  • Our * Wildcard * Section


Check out all this information, here


12 jun. 2017

Si quereis conocer R, visitad esto sitios



Os recomendamos estos sitios. No os lo perdáis:

Shiny

R-bloggers

RStudio







9 jun. 2017

Pentaho Data Integration Webspoon (ETL Web)



Pentaho Data Integration Webspoon nos permite utilizar una de las herramientas más potentes en cuanto a integración de datos en entorno web. Un gran paso para estas herramientas, tradicionalmente usadas en desktops.




Para conocer más de PDI, revisar este enlace en que lo comparábamos con Talend



Gracias a Hiromu Hota, Webspoon es posible. Lo mejor es decargarlo e instalarlo, pues es muy sencillo y probarlo. 
Os dejamos unas slides que os pueden ser útiles



FrontRunners for Business Intelligence, April 2017, powered by Gartner Methodology



These are the facts, take your conclusions. Study detail

You can check too, our Business Intelligence Comparison Report, 300 pages (spanish)

7 jun. 2017

Diferencias entre Data Lake y Data Warehouse



Let’s briefly take a look at each one:
  • Data. A data warehouse only stores data that has been modeled/structured, while a data lake is no respecter of data. It stores it all—structured, semi-structured, and unstructured. [See my big data is not new graphic. The data warehouse can only store the orange data, while the data lake can store all the orange and blue data.]

  • Processing. Before we can load data into a data warehouse, we first need to give it some shape and structure—i.e., we need to model it. That’s called schema-on-write. With a data lake, you just load in the raw data, as-is, and then when you’re ready to use the data, that’s when you give it shape and structure. That’s called schema-on-read. Two very different approaches.

  • Storage. One of the primary features of big data technologies like Hadoop is that the cost of storing data is relatively low as compared to the data warehouse. There are two key reasons for this: First, Hadoop is open source software, so the licensing and community support is free. And second, Hadoop is designed to be installed on low-cost commodity hardware.

  • Agility. A data warehouse is a highly-structured repository, by definition. It’s not technically hard to change the structure, but it can be very time-consuming given all the business processes that are tied to it. A data lake, on the other hand, lacks the structure of a data warehouse—which gives developers and data scientists the ability to easily configure and reconfigure their models, queries, and apps on-the-fly.

  • Security. Data warehouse technologies have been around for decades, while big data technologies (the underpinnings of a data lake) are relatively new. Thus, the ability to secure data in a data warehouse is much more mature than securing data in a data lake. It should be noted, however, that there’s a significant effort being placed on security right now in the big data industry. It’s not a question of if, but when.

  • Users. For a long time, the rally cry has been BI and analytics for everyone! We’ve built the data warehouse and invited “everyone” to come, but have they come? On average, 20-25% of them have. Is it the same cry for the data lake? Will we build the data lake and invite everyone to come? Not if you’re smart. Trust me, a data lake, at this point in its maturity, is best suited for the data scientists.
Visto en kdnuggets

6 jun. 2017

Descripción de Tipos de Graficos para Visualizacion





Muy buena recopilación que realiza el Financial Times de los diferentes tipos de gráficos y como utolizarlos y en que casos


Un poster y un web site para ayudar a los diseñadores para seleccionar la mejor simbología en los gráficos, gracias al Financial Times Visual Journalism Team. Inspirado por the Graphic Continuum por Jon Schwabish y Severino Ribecca.
Se recomienda leer el Chart Doctor feature column para una mejor información del porqué: Simple techniques for bridging the graphics language gap
Para D3 templates para usarlos con el estilo del Financial Times, ir a Visual Vocabulary repo.

5 jun. 2017

Drill to Detail, podcasts para todos los interesados en Analytics



Los que hacemos este blog, llevamos más de 15 años conociendo y reconociendo a Mark Rittman, como uno de los mejores especialistas en Business Intelligence a nivel global. Inicialmente, centrado en el entorno Oracle y diseño de sistemas BI/DW, ha ido extendiendo su conocimiento al campo del Big Data

En su web Drill To Detail, nos deja unos podcasts muy interesantes con entrevistas y reflexiones con grandes especialistas del sector. Recomendado!!
Check-out  personal website and Medium blog