Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

22 feb. 2019

Por que es interesante Elastic?



Hace unos días se celebró en Madrid el evento Elastic{ON} tour, dónde los creadores y usuarios del conocido motor de búsqueda y analítica de datos, contaron las novedades sobre el mismo, así como algunos casos de uso en empresas como Orange o Banco Santander.

Shay Banon, creador de Elastic, abrió el evento con una presentación acerca del presente y futuro de Elastic. En primer lugar, puso de manifiesto que esta herramienta surgida como un motor de búsqueda en una base de datos de documentos (índice invertido), se ha convertido en un conjunto de herramientas mucho más potente, ELK (Elasctiserach, Logstash y Kibana), dónde los usuarios además de implementar un sistema de búsquedas interactivos, tiene la posibilidad de implementar analítica de datos mediante la creación métricas de agregación (medias, recuentos, máximos, histogramas…), cuadros de mando y procesos de machine learning que se pueden crear de forma muy sencilla usando la herramienta Kibana.


Además, distintos miembros de elastic presentaron las novedades en algunas de las características más importantes y novedosas:

·  Data Rollups: Pre agregación de datos de histórico mediante un asistente en Kibana, para mejorar el rendimiento de las consultas analíticas.

·  Canvas: Para la creación de cuadros de mando pixel-perfect con Kibana, mucho más personalizables que los que actualmente podemos desarrollar. Además, se mostró un ejemplo usando el módulo de Elastic que permite consultar datos con lenguaje SQL, en lugar de usar la sintaxis clásica de la API JSON de elascticsearch.

·   Machine Learning: Se hizo hincapié en las características para la detección de outliers y generación de predicciones, características muy útiles por ejemplo para la detección de fallos o sobrecargas en infraestructuras.

·   Elastic Common Schema: Esquema para el mapeo de campos comunes (ej. campos geográficos, como la ciudad)


No menos importantes fueron los casos de uso mostrados por Orange y Banco Santander.
En el caso de Orange, usan Elastic para varios objetivos como la monitorización de las infraestructuras (redes móviles, tv) o el análisis de los datos de llamadas (CDR).

En el caso del Banco Santander, lo están usando para proporcionar una plataforma de análisis financiero a través de su nube privada, como servicio de valor añadido a los inversores. En ambos casos se trata arquitecturas dónde se ha desplegado Elastic en clústeres que van de 10 a cientos de nodos.

Además, destaca la presencia de otros componentes de datos como Kafka, cola de mensajes distribuida que facilita el movimiento de datos en tiempo real a distintas partes de la Big Data pipeline y aumenta la tolerancia a fallos actuando como un buffer persistente.

Por todo ello, consideremos que Elastic es una herramienta consolidada para la implementación de búsquedas y analítica sobre logs u otros conjuntos de datos con características Big Data. 

No obstante, en cuanto a la analítica de datos, existen algunas limitaciones frente a planteamientos tradicionales de Data Warehousing, como la imposibilidad de hacer joins entre tablas (índices o tipos de documentos en elasctic) y otras limitaciones en la forma de agregar los datos o la creación de métricas. 

Por ellos es importante determinar si nuestro escenario de Big Data Analytics puede ser cubierto usando únicamente Elastic (ELK). No obstante, dado que la integración con entornos Hadoop es posible (ej. a través de Spark), podemos combinar lo bueno de ambos mundos para el procesamiento analítico del Big Data, como así proponemos en nuestro Big Data Stack.




21 feb. 2019

Machine Intelligence Landscape

Genial!! via Shivon Zilis


Dashboards using ascii/ansi


Great to see this initiative: Build dashboards using ascii/ansi art and javascript 

Rich dashboard

See source code

License

This library is under the MIT License

More Information

Created by Yaron Naveh (twitter, blog)

20 feb. 2019

Buena oferta de empleo para Data Scientists y Big Data (o que quieran serlo)!!



En Stratebi, líderes en Business Intelligence, Big Data y Machine Learning y creadores de la plataforma LinceBI están buscando apasionados por estas áreas, con muchas ganas de aprender, crecer profesionalmente y liderar el desarrollo de la mejor plataforma Big Data Analytics en grandes proyectos.

"Nos gustaría que tuvierais los siguientes skills. Como es complicado tenerlos todos, con varios de ellos y muchas ganas de aprender, también sería factible. Escríbenos

Echa un vistazo a nuestros entornos Lab en Big Data y Business Intelligence"


  • DATA SCIENTIST 

    • Recomendable:
      • Teoría de analítica de datos (estadística descriptiva, análisis de correlacion, reduccion de la dimensionalidad (PCA), regresión, etc.) , series temporales (estacionalidad, tendencia, predicciones, modelo ARIMA, etc.) y regresión (regresión lineal, algoritmos basados en árboles, etc.). También se valoraran conocimiento en técnicas de clasificación, clústering y sistemas de recomendación.
        • Conocimientos matemáticos y estadísticos que permitan interpretar e implementar con facilidad los algoritmos anteriores.
      • Experiencia demostrable en el uso de una o más de las siguientes tecnologías:
        • R desde RStudio, Jupyter, …
        • Python con Pandas, Scikit, TensorFlow….
        • Spark (en Scala o Python) con MLIB, R,…
      • Conocimiento medios de bases de datos y del lenguaje SQL:
        • Consultas analíticas con group by, joins, funciones de resumen (ej. Sum, count,…)
        • Consultas de creación de tablas y carga/actualización de los datos de las mismas (INSERT, UPDATE…)
        • Experiencia en el uso de alguna base de datos conocida (MySQL, PostgreSQL , SQLServer, Oracle,…)
        • Modelado relacional. (interpretación de esquemas de bases de datos)
      • Conocimiento de programación en alguna de las siguientes tecnologías
        • Scala
        • Python
        • Otras tecnologías de programación también se valoraran.

    • Deseable. Además de lo anterior se valoraran:
      • Conocimientos de Business Intelligence
        • Data Warehousing
        • Modelos de datos multidimensionales (esquemas estrella o copo de nieve)
      • Conocimientos teorico-prácticos de Big Data y el entorno Hadoop. Se valoraran conocimientos en:
        • Spark (Spark SQL, RDD, streaming, mlib, R,…)
        • Hive
        • Zeppelin
        • Sqoop
        • Kafka
        • Otros: HDFS, Map Reduce, Flink, Elasctic-Search,….
      • Conocimiento de herramientas de Business Intelligence:
        • Servidor BI: Power BI, Pentaho, Tableau, Microstrategy,…
        • Procesos ETL: Pentaho, Talend, SSIS…
      • Experiencia en empresa en las habilidades y herramientas anteriores.


  • BIG DATA ENGINEER 

    • Recomendable:
      • Conocimientos de Business Intelligence
        • Data Warehousing
        • Modelos de datos multidimensionales (esquemas estrella o copo de nieve)
        • Procesos de extracción, transformación y carga de datos (ETL)
      • Experiencia demostrable en Big Data y el entorno Hadoop. Especialmente en las siguientes tecnologías:
        • Hive o Impala
        • Spark (Spark SQL, Streaming,..)
        • Gestión del clúster (Ambari, Cloudera Manager, configuración manual Hive, Spark, Hadoop…)
        • Otros que también se valoraran : HDFS, Map Reduce, HBase, Kafka, Kylin, Druid, Flink, Elasctic-Search ….
      • Manejo de una o más herramientas de Business Intelligence:
        • Servidor BI: Power BI, Pentaho, Tableau, Microstrategy,…
        • Procesos ETL: Pentaho, Talend, SSIS…
      • Conocimiento de bases de datos y del lenguaje SQL:
        • Consultas analíticas con group by, joins, funciones de resumen (ej. Sum, count,…)
        • Consultas de creación de tablas y carga/actualización de los datos de las mismas (INSERT, UPDATE…)
        • Experiencia en el uso de alguna base de datos conocida (MySQL, PostgreSQL , SQLServer, Oracle,…)
        • Modelado relacional. (interpretación de esquemas de bases de datos)
      • Experiencia en empresa en las habilidades y herramientas anteriores.

    • Deseable. Además de lo anterior se valoraran:
      • Teoría de machine learning (técnicas regresión, clasificación, clustering, …)
        • Conocimientos matemáticos y estadísticos que permitan interpretar e implementar con facilidad los algoritmos anteriores.
      • Conocimiento teórico prácticos en el uso de una o más de las siguientes tecnologías:
        • R desde RStudio, Jupyter, …
        • Python con Pandas, Scikit, TensorFlow….
        • Spark (en Scala o Python) con MLIB, R,…
      • Conocimientos de programación en alguna de las siguientes tecnologías
        • Scala
        • Python
        • Otras tecnologías de programación también se valoraran.


Top 50 Business Intelligence Blogs Winners


Estamos muy contentos de poder contaros que vuestro blog Todobi.com es uno de los 'Top 50 Business Intelligence Blogs Winners'. De hecho es el único blog en español, por lo que el mérito es si cabe aun mayor

Seguiremos dedicando esfuerzo para ampliar y mejorar los contenidos y que os sean de interés

Muchas gracias,

Como ha evolucionado el Machine Learning?

Muy buena ilustración


19 feb. 2019

Big Data para PowerBI



Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy. 
Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características como el desarrollo de cuadros de mando (denominados informes en Power BI), la compartición web o dentro de la organización, un gran número de gráficos incluyendo gráficos con análisis estadístico (ej. forecasting página 2 demo), conexión a fuentes relacionales y Big Data, exploración en lenguaje natural (Q & A), soporte para ejecutar código R y visualizar resultados, o pre procesamiento de datos (ETL).
Las características anteriores se implementan repartidas en las distintas aplicaciones. Power BI Desktop es la herramienta de cliente para la exploración, transformación y diseño de visualizaciones a partir de los datos. Se trata de una herramienta completamente gratuita, que dispone de conexiones a las fuentes Big Data y relacionales más usadas. Aunque para algunas fuentes dispone de un conector específico, en el caso de Apache Kylin hemos de hacer uso del conector ODBC disponible en su web
Tras la conexión, se genera un extracto de los datos. A partir de este momento los pasos para la creación de nuestro cuadro de mando han sido i) la definición del modelo de datos, ii) la aplicación de alguna transformación (ej. formato de fecha), iii) la definición de métricas calculadas (ej. tasa de éxito) o jerarquías sobre las dimensiones (ej. tabla OLAP página 2 demo), y, por último, iv) la creación del cuadro de mando demo, compuesto por dos páginas (selector en barra inferior).
Una vez hemos diseñado y guardado nuestro cuadro de mando con Power BI Desktop, llega el momento de compartirlo. Para ello hemos creado una cuenta de Power BI Service en su alternativa gratuita, pues en esta herramienta sí dispone de versiones Pro y Premium, ambas de pago. Aunque estas versiones disponen de conexión directa a algunas bases de datos como SQL Server (con o sin Analysis Services), Oracle o Cloudera Impala, para el resto de conexiones, como la conexión ODBC con Kylin, es necesario publicar el extracto de los datos, que se refresca de forma manual (versión gratuita) o programada (Pro y Premium).
Además de Power BI Desktop y Power BI Service (Free, Pro y Premium), existen otras herramientas como Mobile , para el acceso a los informes desde nuestro smartphone y el trabajo colaborativo, o Embedded, para componer nuestras propias aplicaciones, portales web, Share Point a partir de las visualizaciones desarrolladas con Power BI.
Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI, Partner de Microsoft PowerBI con larga experiencia

Aquí, (Ver Demo) puedes ver un ejemplo combinado de PowerBI on open source based Business Intelligence solutions, como LinceBI, de forma que puedes tener una solución completa BI, que cubre todos los módulos y necesidades

- Adhoc Reporting
- Predefined Dashboards
- OLAP Analysis
- Adhoc Dashboarding
- Scorecards
- Forecasts

Mas info:





PowerBI for Big Data

Arquitecture:
En el caso de estudio que presentamos (Ver Demo), hacemos uso de las herramientas Apache Kylin , Power BI Desktop y Power BI Servicio para dar soporte al análisis mediante Cuadros de Mando de un almacén de datos (Data Warehouse, DW) que contiene datos con características Big Data (Volumen, Velocidad y Variedad).
Se trata de un gran Volumen de datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
Dado que este Volumen de datos es demasiado grande para analizarlo con un rendimiento aceptable con los sistemas OLAP (R-OLAP y M-OLAP) tradicionales, hemos decidido probar la tecnología Apache Kylin, la cual promete tiempos de respuesta de unos pocos segundos para Volúmenes que pueden superar los 10 billones de filas en la tabla de hechos o medidas.
Las tecnologías del entorno Hadoop fundamentales para Kylin son Apache Hive y Apache HBase. El almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella y se mantiene en Apache Hive. A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline, crea un cubo multidimensional (MOLAP) en HBase. A partir de este momento, Kylin permite hacer consultas sobre el mismo a través de su interfaz SQL, también accesible a través de conectores J/ODBC.
Por último, para hacer posible la exploración de los datos del cubo de Kylin mediante lenguaje SQL y la creación de cuadros de mando que podamos compartir con los usuarios finales de los datos, hemos hecho uso de las herramientas Power BI Desktop y Power BI Service.
En primer lugar hemos usado Power BI Desktop, herramienta gratuita, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zepelin y, también, con Tableau. La herramienta Power BI es una herramienta de Autoservicio para el usuario final (Self Service BI): facilita la creación y publicación de completos cuadros de mando a los usuarios finales de los datos, así como el modelado y transformación de los datos si es necesario.
Una vez diseñado el cuadro de mando, lo hemos publicado en la Web haciendo uso del servicio en la nube de Power BI. Para ello, es necesario la creación de un extracto o copia de los datos, que se hace de forma transparente al usuario y se sube a la nube de Power BI junto con el cuadro o cuadros de mando. En este caso hemos usado la versión gratuita, aunque también dispone de versiones Pro y Premium con características añadidas como la compartición intra organización (además de vía Web) o el refresco programado de los datos del extracto desde el origen, Apache Kylin por ODBC en nuestro caso.

7 feb. 2019

Odoo Analytics (la mejor solución para CRM/ERP y Business Intelligence Open Source)


Os presentamos Odoo Analytics, la solucion que combina lo mejor de las soluciones Open Source para CRM/ERP y Business Intelligence, usando Odoo y LinceBI

Odoo es una suite de aplicaciones de gestión tanto para el mundo de la empresa como administración pública y otro tipo de organizaciones, que incluye una gama de herramientas de fácil uso para optimizar y rentabilizar los procesos.



Su objetivo es englobar en un único software todas las herramientas que necesita una organización para la operativa en todos los principales departamentos. En este sentido, Odoo nos ofrece funcionalidades que podrían encajar tanto en un software ERP como en un software CRM.



Odoo es una aplicación con una amplia trayectoria. Antes se conocía como OpenERP y ya era considerado una de las principales aplicaciones para la gestión empresarial

LinceBI es la mejor solución Analytics basada en Open Source, partiendo de desarrollos en Pentaho e incluyendo funcionalidades de Machine Learning y Big Data

Incluye conectores con las principales fuentes de datos, así como soluciones verticales por industrias, con los principales KPIs, Dashboards e informes de cada área, estando en uso en gran cantidad de grandes organizaciones

Su escalabilidad, permite a LinceBI ser la solución ideal para el uso de los más modernos algoritmos de Machine Learning y las tecnologías Big Data OLAP con acceso y visualización de grandes volúmenes de datos

5 feb. 2019

Whitepaper gratuito 'Usos de Machine Learning por sectores'



Ya tenéis disponible un Estudio muy interesante de más de 60 páginas, que os podéis descargar gratuitamente desde el enlace anterior

Que podéis encontrar?






Más información:

-         Otros VideoTutoriales:

-         Otras Presentaciones:




Artículos interesantes sobre Machine Learning:

4 feb. 2019

When to apply Business Intelligence, Big Data and Machine Learning

A great explanation