Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

27 sept. 2018

Google Data Studio, analisis de la herramienta


Hace unos días os contábamos que Google ya había dejado disponible Data Studio, saliendo del beta. Ahora os contamos primeras impresiones. 

Lo primero: no es un ETL tipo Pentaho Data Integration o Talend, se trata más bien de una herramienta 'data preparation', muy útil para el ecosistema Google, pero que aun debe madurar bastante

Introducción

Google Data Studio se basa en tres principios: conexión con una fuente de datos, generación de informes y distribución.
Conexión

Google permite una gran cantidad de conexiones a diversas fuentes de datos. Los distintos conectores están divididos en tres secciones:

  • Google Connectors: desarrollados por google.
  • Partner Connectors: desarrollados por los partner Data Studio.
  • Open Source Connectors: desarrollados por la comunidad.
Por parte de google se permiten conectores tradicionales JDBC a bbdd relacionales (PostgreSQL, MySQL). Adicionalmente, permite la conexión contadas las herramientas de Google Cloud y una gran cantidad de APIs provenientes de sus Partners.

Informes


Antes de generar informes Data Studio permite realizar cierto tratamiento de datos:


En este punto se observa que, la herramienta necesita de más desarrollo debido a:

Tras seleccionar los campos del datasource se puede proceder a la creación de informe:


La interfaz recuerda a PowerBI, sin tener la mitad de las funcionalidades disponibles en el mismo. Aunque, existe cierto potencial en la capacidad para cruzar fuentes de datos distintas desde la opción COMBINAR DATOS, pero conlleva una correcta estructuración previa de los datos (que habrá que realizar con otra herramienta: PDI/Talend).

Se ha realizado una pequeña Demo utilizando los servicios disponibles desde la API de Star Wars:


En la demo se ha podido observar que carece de la posibilidad de moverse entre las dimensiones, es decir, no se puede hacer drill en las gráficas solo disponemos de los filtros definidos por el usuario.

Distribución


Uno de los puntos positivos encontrados es que permite compartir la edición con otros usuarios de google y trabajar en el mismo informe en paralelo. Para ello simplemente es necesario generar un enlace con permisos de edición.


Conclusión


En conclusión, Google Data Studio es una herramienta en proceso de ser terminada, la funcionalidad actual es tener la capacidad de crear informes con datos de prueba suministrados por APIs o Datasources previamente estructurados. 

Por lo tanto, no se puede comparar a una herramienta ETL como Talend o PDI, más bien, se podría comparar a STDasboard/PowerBI, etc... que permite la generación de Dashboards/Informes sin que el usuario tenga que depender de conocimientos previos.

New Pentaho Roadmap


Here you have fresh news about future Pentaho roadmap: Pentaho, 8.2, Pentaho 9 thanks to our friend Nelson Sousa, @UbiquisBI




Hace 8 ho

21 sept. 2018

Data Studio is now generally available



Data Studio, Google’s free data visualization and reporting product, is out of beta and now generally available

Data Studio, part of Google Marketing Platform and closely integrated with Google Cloud, allows you to easily access data from Google Analytics, Google Ads, Display & Video 360, Search Ads 360, YouTube Analytics, Google Sheets, Google BigQuery and over 500 more data sources, both Google and non-Google, to visualize and interactively explore data. 

It allows you to easily share your insights with anyone in your organization. And beyond just sharing, Data Studio offers seamless real-time collaboration with others—whether you’re sitting across the room, or across the world

Aquí, puedes ver un análisis detallado de la herramienta (en español)


14 sept. 2018

Why Business Intelligence, Big Data and CRM Open Source are importants?

Really interesting!!


13 sept. 2018

Business Intelligence Tools 'White Paper' comparison



Great paper you can download, where you can compare several Business Intelligence tools




 








You can check this other very useful and complete study of several Business Intelligence tools



12 sept. 2018

Las 9 verdades para el futuro del Big Data

 

El respetado Seth Grimes hace un esbozo de lo que considera 9 puntos claves a la hora de pensar en el futuro del Big Data:

1. "Correlation is not causation."
2. "All models are wrong, but some are useful."
3. Big data knows (almost) all.
4. "80% of business-relevant information originates in unstructured form, primarily text, (but also video, images, and audio)."
5. "It's not information overload. It's filter failure."
6. "The same meaning can be expressed in many different ways, and the same expression can express many different meanings."
7. "Big data is not about the data! The value in big data [is in] the analytics."
8. "Intuition is as important as ever."
9. The future of big data is synthesis and sensemaking.       

 

7 sept. 2018

Google Dataset Search


Nos os perdáis este motor de búsqueda de Datasets de Google. Y, como casi todo lo que hace Google seguro que crece y crece...

6 sept. 2018

Los mejores posts de TodoBI durante el verano

Este verano os hemos traído material muy interesante, con muchos documentos y tutoriales. Aquí tenéis un resumen:


Videotutorial: Usando R para Machine Learning con PowerBI



Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial: Temario del Videotutorial: 1º Posibilidades de R dentro de Power BI  2º Instalar R y RStudio  3º Matriz de Correlación para el sector Retail  4º Árbol Decisión Titanic  5º Clustering K-Means Estados Unidos  6º Clustering DBSCAN Estados Unidos para detectar Outliers  7º Forecasting Exponencial Smoothing...


STCard, a free license way to create powerful Scorecards



The improvements in this version of STCard, an open source based solution, are focused on user interface for panel and dashboard and also some enhancement in performance and close some old bugs: - Import with ETL - New KPIs always in red bug - Tooltips and characters solved - Export to PDF - Modify colors of new scorecard - Some other minus bugs... It works with Pentaho and embeded in web applications You can manage your organization...


Como sacar todo el partido a los mapas en tus visualizaciones



Muy interesante lo que podéis encontrar en este enlace. Y todo Open Source. Descargar imagen en PDF Como construir diversos tipos de mapas (incluye códi...


Caso Practico: trabajando con APIs y Talend



En este ejercicio practico, vamos a enriquecer el flujo de datos con API de datos estadísticos. Descargar Documento completo 1      Introducción El propósito de este documento es demostrar como con un pequeño ejemplo se puede establecer un flujo de datos continuo entre la API Idescat y la herramienta Talend. El Idescat expone parte de sus datos a través de una colección de API de tipo REST. Además, la...


Las 50 claves para aprender y conocer PowerBI



Si tenéis curiosidad por conocer sobre todas las posibilidades de PowerBI, como funciona, integración, costes, etc... no te puedes perder este documento.  Altamente recomendable!!! También te puede interesar: Las 50 claves para conocer Futbol Analytics julio 18, 2018  Analytics, big data, open source, Stratebi, Tablero Futbolero  No comments Os presentamos un estudio muy...


Ejercicio practico de Machine Learning con Jupyter Notebooks, Anaconda y Python 3



Que mejor forma que aprender de Machine Learning, con algunas de las tecnologías mas potentes y completas, que mediante la realización de un buen ejercicio práctico. Podéis seguir el tutorial práctico en el video y también utilizar la presentación. Esperamos que os sea útil!! ...


Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning



Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que: i), no requieren programación ni instalación,  ii), son más eficientes que otras opciones como la integración con Python/Pandas,  iii) se aplican sobre tablas o vistas,  iv) implementan los algoritmos...



Descarga Paper gratuito: Zero to beautiful (Data visualization)



Quieres conocer la mejor manera de contar una historia a través de los datos y la visualización? Pues no te puedes perder este white paper que nos ofrecen desde PowerBI y que te puedes descargar gratuitamente Quieres saber más sobre PowerBI: Demos, Formación, Desarrollo... Info en español Using data visualization to tell a story: You know which charts best represent your data, and you understand best practices for sharing insights. Now it’s...


Formacion Data Engineer: Machine Learning con Spark



Uno de los capítulos más interesante del curso 'Curso de Data Engineers', de nuestros compañeros de Stratebi es el 11. Machine Learning con Spark Este curso incluye ejercicios prácticos sobre nuestro Cluster. Os dejamos unas pinceladas del contenido de este capítulo: ...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Aprende Machine Learning con Facebook



Gran iniciativa de Facebook, que nos explica en 6 videos como aplicar Machine Learning en casos concretos, siguiendo el siguiente patrón: 1. Problem definition2. Data3. Evaluation4. Features5. Model6. Experimentation Muy recomenda...


Las 50 claves para conocer Futbol Analytics



Os presentamos un estudio muy interesante sobre Fútbol Analytics, un área que está teniendo un crecimiento espectacular, gracias al uso de Big Data, Machine Learning, Internet of Things, etc...  Temas que nos apasionan en este Portal.  Nuestros compañeros de Stratebi, especialistas en este ámbito y que ya han colaborado con algún club de fútbol de Primera División, os dan las 50 claves para estar al día en Fútbol Analytics También...


Explicacion sencilla de arquitecturas Business Intelligence



En este post muy útil, se hace un repaso a las diferentes alternativas en que la información puede ser consumida por los usuarios y las diferentes formas de almacenamiento de la misma.  Habría que decir, que todas ellas son formas de analizar la información y tomar decisiones, esto es, Business Intelligence; aunque en rigor, sólo las más óptimas en cuanto a uso de Data Marts DW y optimización del acceso por los usuarios, se consideran de...



List of Open Source Business Intelligence tools




Here you can find an updated list of main business intelligence open source tools. If you know any other, don´t hesitate to write us

- Talend, including ETL, Data quality and MDM. Versions OS y Enterprise

- Pentaho, including Kettle, Mondrian, JFreeReport and Weka. Versions OS y Enterprise

- BIRT, for reporting

- Seal Report, for reporting

- LinceBI, including Kettle, Mondrian, STDashboard, STCard and STPivot

- Jasper Reports, including iReport. Versions OS y Enterprise

- Jedox Base, Palo core and Jedox Base. Versions OS y Enterprise

- Saiku, for OLAP Analysis, including Mondrian. Versions OS y Enterprise

- SpagoBI, including Talend, Mondrian, JPivot and Palo

- Knime, including Knime connectors

- Kibana, for elasticsearch data

4 sept. 2018

Videotutorial: Usando R para Machine Learning con PowerBI


Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial:



Temario del Videotutorial:

1º Posibilidades de R dentro de Power BI 
2º Instalar R y RStudio 
3º Matriz de Correlación para el sector Retail 
4º Árbol Decisión Titanic 
5º Clustering K-Means Estados Unidos 
6º Clustering DBSCAN Estados Unidos para detectar Outliers 
7º Forecasting Exponencial Smoothing Births Nacimientos 
8º Descomposición de Series Temporales Nacimientos 
9º Power BI R Visual con ggplot2

Para Saber más de PowerBI:


Big Data para PowerBI



Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy.  Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características...

Working together PowerBI with the best open source solutions



Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...


Comparativa de Costes Tableau vs PowerBI



  Os dejamos un documento listo para descargar, con una comparativa muy completa de costes entre Tableau y PowerBI (hay que decir que el informe ha sido encargado por Tableau, por lo que puede tener cierto sesgo).  Por ejemplo, en cuanto al esfuerzo de este tipo de proyectos, si tenemos en cuenta que ambas son herramientas de Data Discovery (usuario final), no se tiene suficientemente en cuenta la parte más importante, el modelado,...