Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

21 oct. 2019

Las mejores APIs para Machine Learning




Face and Image Recognition
  1. Animetrics Face Recognition: 
  2. Betaface:  
  3. Eyedea Recognition: 
  4. Face++
  5. FaceMark
  6. FaceRect
  7. Google Cloud Vision API
  8. IBM Watson Visual Recognition
  9. Kairos:
  10. Microsoft Cognitive Service - Computer Vision
  11. Rekognition
  12. Skybiometry Face Detection and Recognition


Prediction and Other Machine Learning
  1. Amazon Machine Learning
  2. BigML
  3. Ersatz
  4. Google Cloud Prediction
  5. Google Cloud Speech API
  6. Guesswork.co
  7. Hu:toma: 
  8. IBM Watson Conversation 
  9. IBM Watson Speech 
  10. IBM Watson Data Insights
  11. IBM Watson Retrieve and Rank:  
  12. Imagga
  13. indico
  14. Microsoft Azure Cognitive Service API:   
  15. Microsoft Azure Anomaly Detection API
  16. Microsoft Cognitive Service - QnA Maker
  17. Microsoft Cognitive Service - Speaker Recognition
  18. MLJAR 
  19. NuPIC :
  20. PredicSis
  21. PredictionIO:
  22. RxNLP - Cluster Sentences and Short Texts
  23. Recombee
  24. Sightcorp F.A.C.E.

Visto en KDNuggets

Aprender procesos ETL con Pentaho Data Integration para Big Data









Una de las grandes ventajas de Pentaho Data Integration, es la forma en que facilita y ayuda a orquestar trabajos en entornos Big Data. 

Nuestros compañeros de stratebi, especialistas en formación eminentemente práctica y proyectos Big Data Analytics nos muestran algunos ejemplos de algunos de los temas de sus formaciones




También podéis ver algunas de sus aplicaciones online con las arquitecturas que lo soportan

Estos son parte de los ejercicios propuestos en este capítulo y que serás capaz de realizar son:

Ejercicio 1: Escribir archivos en HDFS en el clúster
Ejercicio 2: Leer archivos desde HDFS
Ejercicio 3: Leer datos desde Hive con PDI



Ejercicio 4: Movimiento de archivos con Jobs de PDI
Ejercicio 5: Transformación de Hive de creación de bases de datos
Ejercicio 6: Pasar archivos de una base de datos Oracle a una base de datos de Hive ORC


















17 oct. 2019

Los 9 problemas a los que se enfrentan las empresas que trabajan con datos


Muy interesante esta presentación que indica de forma muy clara cuales son los problemas a los que se enfrentan las empresas cuando realizan proyectos e iniciativas de datos que, de forma general, podemos plantear como de Transformación Digital


Big Data Olap con Superset (AirBnB)



Os venimos contando desde hace ya un tiempo, el potencial del mundo Big Data y OLAP Business Intelligence, con diferentes tecnologías. Hoy, os contamos la arquitectura usando Superset, creado por AirBnB

Nuestros compañeros de Stratebi han creado un entorno de prueba para que lo veas, además, en funcionamiento

Información publicada recientemente sobre el tema:

x50 faster 'near real time' Big Data OLAP Analytics Architecture
Comparacion de sistemas Open Source OLAP para Big Data
Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
BI meet Big Data, a Happy Story
7 Ejemplos y Aplicaciones practicas de Big Data
Analysis Big Data OLAP sobre Hadoop con Apache Kylin
Real Time Analytics, concepts and tools
Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Arquitectura:



En el caso de estudio que presentamos, hacemos uso de las herramientas Apache Kylin y Apache Superset para dar soporte al análisis mediante Cuadros de Mando de un almacén de datos (Data Warehouse, DW) que contiene datos con características Big Data (Volumen, Velocidad y Variedad).
Se trata de un gran Volumen de datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
Dado que este Volumen de datos es demasiado grande para analizarlo con un rendimiento aceptable con los sistemas OLAP (R-OLAP y M-OLAP) tradicionales, hemos decidido probar la tecnología Apache Kylin, la cual promete tiempos de respuesta de unos pocos segundos para Volúmenes que pueden superar los 10 billones de filas en la tabla de hechos o medidas.
Además, para hacer posible la exploración de los datos del cubo de Kylin mediante lenguaje SQL y la creación de cuadros de mando que podamos compartir con los usuarios finales de los datos, hemos hecho uso de la herramienta Superset.
Apache Superset es una herramienta de visualización desarrollada por AirBnb de reciente creación. Facilita la creación de cuadros de mando de forma intuitiva y destaca por ofrecer una gran variedad de representaciones gráficas tanto para la exploración como para la visualización de los datos.
La herramienta Superset incluye de serie conectores para Sqlite y Druid pero dispone de una serie de paquetes para realizar conexiones con otras fuentes de datos. El uso del estándar SQLAlchemy permite realizar consultas en diferentes orígenes de datos, siempre que se disponga del conector correspondiente. Mediante el uso del conector con Kylin (kylinpy), es posible enviar consultas a Kylin utilizando SQL.
Superset incluye un entorno de consultas (SQL Lab) que permite desarrollar consultas SQL sobre una fuente de datos para dar soporte a una representación gráfica. Por otra parte, Superset permite crear cuadros de mandos a partir de las gráficas generadas (que parten de las consultas SQL realizadas). Tras crear el cuadro de mandos, es necesario gestionar los permisos para conceder acceso al mismo a los usuarios autorizados. En este caso se ha configurado Superset para permitir el acceso público a este cuadro de mandos.


Desarrollada por eBay y posteriormente liberada como proyecto Apache open source, Kylin es una herramienta de código libre que da soporte al procesamiento analítico en línea (OLAP) de grandes volúmenes de datos con las características del Big Data (Volumen, Velocidad y Variedad).
Sin embargo, hasta la llegada de Kylin, la tecnología OLAPestaba limitada a las bases de datos relacionales o, en el mejor de los casos, con optimizaciones para el almacenamiento multidimensional, tecnologías con importantes limitaciones para enfrentarse al Big Data.
Apache Kylin, construida sobre la base de distintas tecnologías del entorno Hadoop, proporciona una interfaz SQL que permite la realización de consultas para el análisis multidimensional de un conjunto de datos, logrando unos tiempos de consulta muy bajos (segundos) para hechos de estudio que pueden llegar hasta los 10 billones de filas o más.
Las tecnologías del entorno Hadoop fundamentales para Kylin son Apache Hive y Apache HBase. El almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella y se mantiene en Apache Hive. A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline, crea un cubo multidimensional (MOLAP) en HBase. Se trata de una estructura optimizada para su consulta a través de la interfaz SQL proporcionada por Kylin.
De esta forma cuando Kylin recibe una consulta SQL, debe decidir si puede responderla con el cubo MOLAP en HBase (en milisegundos o segundos), o sí por el contrario, no se ha incluido en el cubo MOLAP, y se ha ejecutar una consulta frente al esquema estrella en Apache Hive (minutos), lo cual es poco frecuente.
Por último, gracias al uso de SQL y la disponibilidad de drivers J/ODBC podemos conectar con herramientas de Business Intelligence como Tableau, Apache Zeppelin o incluso motores de consultas MDX como Pentaho Mondrian, permitiendo el análisis multidimensional en sus formas habituales: vistas o tablas multidimensionales, cuadros de mando o informes.



Superset es una herramienta de visualización de código abierto desarrollada por AirBnb y liberada como proyecto Apache. Se trata de un proyecto de reciente creación que se encuentra en proceso de desarrollo. 
Esta herramienta destaca por disponer de un amplio abanico de representaciones para la exploración y visualización de datos, posibilitando la creación de cuadros de mando así como por su sencillez de uso y alta disponibilidad, siendo diseñado para funcionar bien tanto en ordenadores personales como en entornos distribuidos.
Por otra parte, Superset utiliza SQLAlchemy para facilitar la integración con diferentes gestores de bases de datos relacionales (como MySQL, PostgreSQL, Oracle, etc.) así como otros gestores de datos no relacionales orientados al Big Data (como Kylin, Druid o Vertica). Para realizar la conexión de Superset con alguna de estas fuentes de datos, se necesita instalar un paquete que actúa como middleware y configurar la conexión con SQLAlchemy.
Otras funcionalidades por destacar de Superset son la seguridad y autenticación que permite el uso de fuentes como LDAP, OAuth o OpenID. Se pueden utilizar diferentes usuarios y roles con permisos específicos de acceso, creación o modificación de fuentes de datos, gráficas, cuadros de mando etc.

Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI.

New Data Connectors in LinceBI



LinceBI, an open source based Big Data Analytics solution, with a free license model with professional support, recently increase the number of data connectors

Now, you have a complete set of data connectors in order to make easier data injection. 

Recently, we give you some details about LinceBi functionalities

Even more, it includes a predefined industry oriented models, dashboads, KPIS, reports and Analysis... so deploy a 'ready to use' Analytics solution is very easy

16 oct. 2019

Introducción a Metabase





Metabase es una herramienta de software libre que permite crear cuadros de mando a partir de múltiples fuentes de datos. La construcción de cuadro de mandos es bastante intuitiva ya que permite elaborar consultas mediante un asistente que utiliza lenguaje natural.

Para mostrar mejor las posibilidades de Metabase, hemos creado un caso de uso, para la creación de un Dashboard. El cual podéis acceder desde aquí



Metabase proporciona un amplio catálogo de gráficas: progresos, tablas enriquecidas, líneas, áreas, barras, filas, dispersión, pastel, mapas, tarjetas y embudos. 



Es importante, antes de comenzar con la explotación de datos, definir un concepto importante de Metabase llamado colección, que hace referencia a la agrupación de métricas, elementos visuales y cuadros de mandos que se definen en Metabase.

Como funciona Internet of Things



Las 7 C del Internet of Things (IoT)



Vaya, se trataba de buscar otra letra para concretar puntos importantes de una tecnología de moda. Ahora tenemos las 7 Cs del Internet of Things, y lo dice Forbes: 1 — Consumption: The first stage of the IoT is always consumption. We could also use the word ‘ingestion’ here i.e. we need to build devices that are capable of producing operational data so that we can consume it into our IT structures. 2– Connection: The existence of smart connections...


List of Open Source solutions for Smart Cities - Internet of Things projects



Increasingly projects are carried on so-called 'Smart Cities', supported by Big Data, Internet of Things... and the good news is that most of them are made with Open Source technologies. We can share, from TodoBI.com our insights about these technologies Making a city “smart” involves a set of areas we will outline below: Without IOT (Internet Of Things), there will be no Smart City.  Since automatic collected data is the most efficient...


Cuadros de Mando y Business Intelligence para Ciudades Inteligentes



Cada vez son más las ciudades que están implementando soluciones de Ciudades Inteligentes, Smart Cities... en donde se abarcan una gran cantidad de aspectos, en cuando a tecnologías, dispositivos, analítica de datos, etc... Lo principal en todos ellos es que son soluciones que deben integrar información e indicadores diversos de todo tipo de fuentes de datos: bases de datos relacionales tradicionales, redes sociales, aplicaciones móviles, sensores......


35 Open Source Tools para Internet of Things (IoT)


Cada vez hay más relación entre el Business Intelligence, el Big Data, el Open Source e Internet of Things. Sobre todo de la mano de los proyectos y desarrollos SmartCity, en los que cada vez se emplean más estas tecnologías, como nos cuentan nuestros compañeros de Stratebi. La buena noticia es que hay una gran variedad de teconologías open source que nos lo permiten. Echadle un vistazo: 1. Arduino 2. Eclipse IoT Project 3. Kinoma 4. M2MLabs Mainspring 5. Node-RED Hardware 6. Arduino Yún 7. BeagleBoard 8. Flutter 9....

Comparacion entre Talend y Pentaho



Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio. Hoy traemos otra comparación interesante:
  • Talend: Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integration tool
  • Talend offers limited connectivity to concurrent databases, and other forms of data but has a dependency factor of Java drivers to connect to the data sources whereas Pentaho offers a wide range of connectivity to extensive databases, and other forms of data
  • Talend has its support which exists majorly in the US whereas Pentaho its support which not only exists in the US, and also targets the UK, Asia Pacific markets

Although both Talend and Pentaho tools carry similar characteristics, here one needs to understand the GUI which Pentaho Kettle holds a slight advantage.
Below we see the salient characteristics and prominent offerings of the Pentaho Kettle to Talend:
  • Pentaho kettle is twice faster when compared to Talend
  • Pentaho kettle’s GUI is easier to run when compared to Talend’s GUI Adapts well to the system
  • Can easily deal with different data clusters
  • Can be used as a slave server on many machines while transformation processing
  • Cost of ownership

Talend is more useful when there is an existing system where a Java program is already running/being implemented.
Listed below are the advantages of Talend code generation approach
  • Easy deployment (for standalone Java application)
  • Saves time
  • Cost-effective


Visto en Educba