Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

22 mar. 2018

10 trucos para integrar el Business intelligence dentro de los procesos de negocio.

Procesos de Negocio

El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

16 mar. 2018

Comparativa de tecnologias de streaming en tiempo real

Tabla de evaluación

En la tabla siguiente se muestra un resumen de la comparativa:





Hoja de referencia rápida

Más abajo se expone una hoja de referencia rápida que puede servir de ayuda a los desarrolladores, como muestra de cada framework, y a los arquitectos, para conocer las características principales de cada herramienta.





Visto en Blog GFT

14 mar. 2018

Tutorial: How to Integrate your Jedox Planning Sheet into Microsoft Power BI Reports

Muy interesante la integración de dos de nuestras herramientas favoritas: PowerBI y Jedox

10 mar. 2018

Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics




Se acaba de presentar Machine Intelligence: el plugin para Pentaho Data Integration que facilita enormemente la ejecución de algoritmos sobre tecnologías Machine Learning, orquestados desde un completo entorno gráfico ETL

Gracias a este plugin puedes convertir algoritmos de machine learning en 'steps' de PDI desde R, Python, Spark y Weka




Gracias a este plugin consigues de forma sencilla:


  1. Hacer Machine Learning mucho más sencillo de construir, usar y ejecutar, sin necesidad de codificar
  2. Se combina en una sola herramienta las capacidades de integración y 'data preparation' de una herramienta ETL con todas las capacidades de Machine Learning para 'orquestar' los procesos de forma visual y sencilla
  3. Es muy fácilmente extensible, pudiendo añadir nuevos pasos en PDI al componente de Machine Learning





Instalación:

El plugin de Machine Intelligence se puede instalar directamente desde el Marketplace de Pentaho


Nuevos algoritmos añadidos:




  • Decision Tree Classifier – Weka, Python, Spark & R
  • Decision Tree Regressor – Weka, Python, Spark & R
  • Gradient Boosted Trees – Weka, Python, Spark & R
  • Linear Regression – Weka, Python, Spark & R
  • Logistic Regression – Weka, Python, Spark & R
  • Naive Bayes – Weka, Python, Spark & R
  • Naive Bayes Multinomial – Weka, Python & Spark
  • Random Forest Classifier – Weka, Python, Spark & R
  • Random Forest Regressor – Weka, Python & Spark
  • Support Vector Classifier – Weka, Python, Spark & R
  • Support Vector Regressor – Weka, Python, & R
  • Naive Bayes Incremental – Weka

Ejemplos:

A continuación, tenéis dos ejemplos, de detección de fraude en comercios y para monitorización de modelos







Documentación:

PMI_Installation_Linux.pdfInstallation guide for the Linux OS platform.
PMI_Installation_Windows.pdfInstallation guide for the Windows OS platform.
PMI_Installation_Mac_OSX.pdfInstallation guide for Mac OS X platform.
PMI_Developer_Docs.pdfA developer's guide to extending and contributing to the PMI framework.
PMI_MLChampionChallengeSamples.zip

Saber más:

Introducing Plug-in Machine Intelligence
4-Steps to Machine Learning Model Management



7 mar. 2018

Todas las novedades del Pentaho User Meeeting (PUM18) en Frankfurt


Un año más, gran agenda y grandes ponentes en el Pentaho User Meeeting (PUM18) en Frankfurt:

  • Migrating from Business Objects to Pentaho (CERN, Gabriele Thiede)
  • Pentaho 8 (Pedro Alves)
  • Best Practices for Data Integration Architectures (Matt Casters)
  • Operating Pentaho at Scale (Jens Bleuel)
  • Running Pentaho in Kubernetes (Nis Christian Carstensen, Netfonds)


  • Data handling with Pentaho (Marco Menzel, Hansainvest)
  • IoT and Predictive Analytics (Jonathan Doering, Hitachi Vantara)
  • Adding Pentaho Dashboards to Angular 5 applications (Francesco Corti, Alfresco)
  • Predictive Analytics with PDI and R (Dr. David James, it-novum)
  • Integrating and analyzing SAP data with SAP/Pentaho Connector (Stefan Müller, it-novum)
  • Analyzing IT service management data with openLighthouse (Dirk Rönsch, it-novum)


En este live blog puedes seguir la explicación de todas ellas

5 mar. 2018

x50 faster 'near real time' Big Data OLAP Analytics Architecture



We´ve posted several times about 'near real time analysis' and olap hadoop improved performance, using Apache Kylin, Pentaho, LinceBI tools and other Big Data components

Let us now explain about a real 'user case' where analytics specialized company, Stratebi, has been working (spanish):


  • Amazon Elastic MapReduce(EMR): Distribución de Hadoop para el despliegue de un clúster de procesamiento y almacenamiento distribuido.
  • Procesos ETL (minutes):
•Apache Sqoop: carga de datos relacionales (tablas) desde Aurora.
•Apache Hive (con LLAP): consultas de agregación y otras transformaciones (ETL).
Pentaho Data Integration (PDI) coordinar procesos ETL con diseño visual (abstracción).

  • Procesos ETL (Real Time): Kafka permite conectar a binlog de Aurora para cargar en Hive o Kylin.
  • Consultas SQL Ad-Hoc Interactivas (segundos): Apache Hive con tecnología LLAP y conexión con las STTools
  • Análisis OLAP (milisegundos): Apache Kylin genera cubos M-OLAP que pueden explotados con la herramientas STTools.

Aquí tenéis una buena presentación que muestra el funcionamiento de OLAP en Hadoop y unos cuantos ejemplos:




More info:

Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
BI meet Big Data, a Happy Story
7 Ejemplos y Aplicaciones practicas de Big Data
Analysis Big Data OLAP sobre Hadoop con Apache Kylin
Real Time Analytics, concepts and tools

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)

3 mar. 2018

Curso gratuito de Machine Learning por Google



Gran curso el que ofrece Google sobre Machine Learning, aprendizaje automático. Os lo recomendamos (Curso)





Mas sobre Machine Learning:


- Las 53 claves para conocer Machine Learning


1 mar. 2018

Verdades y Mitos sobre el Business Intelligence

Interesante:



Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?



Tenemos un plan de formación y carrera para profesionales con una base inicial y muchas ganas de aprender. Escríbenos a rrhh@stratebi.com (Marzo 2018)

Podrás participar en proyectos y en desarrollos con las tecnologías más modernas, como Dashboards en tiempo real.
Hemos creado también la solución LinceBI, que está revolucionando el Business Intelligence basado en open source

El trabajo puede ser presencial en Madrid o remoto, en cualquier parte del globo, :-)



Ejemplo de Wall Dashboard real time que desarrollamos


·        Requisitos:
o   Descripción: Una persona con interés en Business Intelligence y Big Data, no es necesaria mucha experiencia, pero con ganas de aprender y formar equipo. Por ejemplo, i), una persona que acabe de terminar una Ingeniería Informática y/o su trabajo de fin de carrera sea sobre Big Data/Business Intelligence, ii), una persona que esté haciendo I+D en Big Data/Business Intelligence  o iii), que haya hecho un máster en Big Data/Business Intelligence o tenga algunos años de experiencia y quiera avanzar en su carrera 
o   Salario: Según valía
o   Habilidades recomendadas:
·         Conocimientos teóricos básicos de Big Data.
o   Qué es el Big Data.
o   Debe tener claro el paradigma Map Reduce.
·  Conocimientos teóricos básicos de las siguientes tecnologías de arquitectura Hadoop.
o   HDFS
o   Spark
·         Conocimientos teóricos sobre Machine Learning.
·     Programación en i) Python y ii) Scala o Java para Machine Learning, con mínima experiencia demostrable 
·         Conocimiento de Bases de Datos
o   Soltura con lenguaje SQL.
o   Modelado relacional.
o   Experiencia mínima demostrable en al menos uno de los siguientes SGBD:
§  MySQL
§  PostgreSQL
§  Microsoft SQLServer
§  Oracle
§  Opcionales (alguno de estos conocimientos serían muy interesantes):
·         (+) Conocimientos teóricos básicos de arquitectura Hadoop.
o   Hive
o   HBase
o   Kafka
o   Flume
o   Distribuciones Cloudera o Hortonworks:
§  Características
§  Instalación.
·         Conocimientos teóricos Business Intelligence
o   Teoría de Data Warehouses.
§  Modelado en estrella.
·         Experiencia con alguna herramienta de ETL.
o   Ideal con Pentaho Data Integration o Talend
o   Cualquier otra.
·         Experiencia en diseño y carga de un Data Warehouse.