Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

16 abr. 2019

Por que el ETL es crucial

 

Por favor, leed este articulo. Es una joya para todos los que trabajan en Data Warehouse, Business Intelligence, Big Data


En TodoBI nos gusta decir que en los proyectos BI, DW son como un iceberg (la parte oculta es la mas grande e importante) y se corresponde con el ETL


Un extracto del artículo:


"ETL was born when numerous applications started to be used in the enterprise, roughly at the same time that ERP started being adopted at scale in the late 1980s and early 1990s"


Companies needed to combine the data from all of these applications into one repository (the data warehouse) through a process of Extraction, Transformation, and Loading. That’s the origin of ETL.


So, since these early days, ETL has essentially gotten out of control. It is not uncommon for a modest sized business to have a million lines of ETL code. 


ETL jobs can be written in a programming language like Java, in Oracle’s PL/SQL or Teradata’s SQL, using platforms like Informatica, Talend, Pentaho, RedPoint, Ab Initio or dozens of others.



With respect to mastery of ETL, there are two kinds of companies:


  • The ETL Masters, who have a well developed, documented, coherent approach to the ETL jobs they have
  • The ETL Prisoners who are scared of the huge piles of ETL code that is crucial to running the business but which everyone is terrified to change.
Mas info: ETL con soluciones Open Source

Las 53 Claves para conocer Machine Learning


Si hace unos días os presentábamos las 69 claves para conocer Big Data, hoy os traemos las 53 Claves para conocer Machine Learning

Que lo disfrutéis, si quereis conocer más o practicar, tenemos cursos


Tambien os recomendamos: Una breve historia del Machine Learning



12 abr. 2019

Nuevos Desarrollos y Futbol Analytics





Presentación del Evento

Todo comenzó a las 09:00 con una presentación en la que uno de los principales promotores del evento José Luis Sánchez Vera excusaba su ausencia mediante un video por compromisos con el equipo femenino. PD: Enhorabuena José Luis por el evento y por la victoria frente al Levante por 0-4.






Víctor Mañas – Arsenal (Integración de la analítica de datos en los procesos de análisis del juego de un equipo de futbol profesional)
Inicio Víctor su intervención indicando el enfoque de análisis de equipo propio y rival para el que dentro de su club disponen de una empresa propia que les proporciona los datos.




En la siguiente diapositiva nos mostraba dentro del cuerpo técnico cuales eran sus tareas principales a lo largo de la semana entre las que destacan el análisis del equipo rival (Realizando cortes de entre 4-6 partidos completos y revisando 8-10 encuentros en facetas de balón parado).



Interesante destacar el proceso de adquisición de datos que llevan a cabo, almacenamiento y visualización con Power BI y Tableau (analítica de datos descriptiva) y realizando predicciones con R (analítica de datos predictiva).  A nivel personal resulta gratificante ver como los clubs punteros realizan este proceso de adquisición, almacenamiento y análisis del dato al que yo me llevo dedicando desde 2009 en el ámbito más puramente empresarial.



Una vez que los datos nos dan información de los patrones de comportamiento del equipo rival, llega la hora de entrenar la manera de contrarrestar los puntos fuertes del rival. Fue muy interesante la parte de la charla en la que menciona las Vigilancias defensivas.




Concluyó Victor su intervención indicando que el análisis de datos debe de facilitar y ayudar en los procesos de toma de decisiones.


Xabi Ruiz Ocenda – Atlético de Madrid (Desarrollo metodológico del plan de partido, Microciclo competitivo desde el punto de vista táctico)
Comenzó su intervención Xabi indicando cuales son los 3 cimientos del modelo de juego del Atlético de Madrid en los todos identificamos un 4-4-2 siendo un equipo con un fuerte concepto defensivo y al que resulta muy difícil generarle ocasiones de gol, teniendo en la victoria su principal prioridad.



A partir de esta introducción comenzó una de las mejores partes del Congreso en la que Ocenda nos impartió una clase magistral analizando las 4 fases y momentos del juego y bajando hasta grandes niveles de detalle en los puntos que se analizan en una semana de trabajo tipo para un analista.




Terminó Xabi su ponencia mostrando videos de entrenamientos para contrarrestar los puntos fuertes de los oponentes y marcando los retos a afrontar en su futuro, aunque ya te lo indiqué en persona, volver a repetir por aquí lo bueno y educativo de tu intervención Xabi.





Mesa Redonda Analistas La Liga

En esta mesa redonda moderada por el ovetense Marcos López (Best of You, Cope, Movistar) y en la que participaron el Rubén Reyes (analista del Rayo Vallecano), Borja de Matías (Analista del Alavés), Tino Cabrera (Analista del Betis) y Susana Ferreras (Científica de datos del Arsenal).
La mesa tuvo un formato muy interactivo en el que todos los asistentes podíamos formular preguntas a los analistas de la mesa, enriqueciendo así el debate y las posibilidades formativas de la mesa.





Carles Planchart – Manchester City (Evolución y adaptación del Análisis en los diferentes equipos)
Para cerrar el evento estaba dedicada la ponencia de Carles un fiel compañero de Pep Guardiola.
Carles realizo una reseña a su evolución desde la temporada 2002-2003 en el FC Palafrugell con videos en formato VHS hasta la gran cantidad de recursos audiovisuales que la Premier League Ofrece.
Planchart indicó que dentro de su club confían más en los datos generados por recursos propios del club con información personalizada, confidencial y más fiable que la proporcionada de forma masiva por los proveedores de datos deportivos (Opta, STATS, InStat, Wyscout, ...)




Me pareció bastante interesante y diferencial la parte de entrenamiento para jugadores lesionados con gafas de realidad aumentada. Una forma novedosa de transmitir por ejemplo conceptos de salida de balón a Eliaquim Mangala o Vincent Kompany sin necesidad de saltar al terreno de juego.




Continuó su intervención mostrando un video en el que Pogba realizaba conducciones durante la época de Mourinho en el Manchester United y quiso matizar que su filosofía en el City era totalmente distinta apostando por un avance del balón apoyándose en las triangulaciones y utilizando el concepto del tercer hombre.
Para terminar, es digno de reseña la transformación de la Premier League en los últimos años con el desembarco en las islas de entrenadores y jugadores no anglosajones, generando significativos cambios en el estilo de juego de esta competición.




Con la llegada de los entrenadores y jugadores no británicos los pases cortos y el tiempo de posesión ha aumentado considerablemente.

Un evento genial. El Futbol Analytics ha llegado!!

Autor: David Fombella docente del Máster en Big Data Deportivo del Big Data International Campus, realiza en este post un resumen del Congreso de Análisis de Rendimiento y Nuevos Desarrollos en el Fútbol celebrado el sábado 23 de Marzo de 2019 en el auditorio del estadio Wanda Metropolitano.

11 abr. 2019

10 trucos para integrar el Business intelligence dentro de los procesos de negocio




El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

10 abr. 2019

Conoce la nueva versión de Odoo




Las soluciones de negocio de Odoo son cada vez más conocidas en España. Sea en las pequeñas o grandes empresas, de los más diversos sectores, utilizándose en distintas aplicaciones como CRM, Fabricación o Proyectos. 

Todos los que buscan las mejores apps para gestionar su empresas utilizan o piensan en implementar Odoo.


Para presentar las nuevas funcionalidades de la versión 12 de Odoo, estuvieron en España  los gerentes de cuentas de Odoo SA para el mercado español en las ciudades de Bilbao, Sevilla y Valencia.

Desde el punto de vista de la analítica de los datos de Odoo, nuestros amigos de Stratebi han creado Odoo Analytics:

Odoo Analytics, es la solucion que combina lo mejor de las soluciones Open Source para CRM/ERP y Business Intelligence, usando Odoo y LinceBI

Odoo es una suite de aplicaciones de gestión tanto para el mundo de la empresa como administración pública y otro tipo de organizaciones, que incluye una gama de herramientas de fácil uso para optimizar y rentabilizar los procesos.




Su objetivo es englobar en un único software todas las herramientas que necesita una organización para la operativa en todos los principales departamentos. En este sentido, Odoo nos ofrece funcionalidades que podrían encajar tanto en un software ERP como en un software CRM.



Odoo es una aplicación con una amplia trayectoria. Antes se conocía como OpenERP y ya era considerado una de las principales aplicaciones para la gestión empresarial

LinceBI es la mejor solución Analytics basada en Open Source, partiendo de desarrollos en Pentaho e incluyendo funcionalidades de Machine Learning y Big Data

Incluye conectores con las principales fuentes de datos, así como soluciones verticales por industrias, con los principales KPIs, Dashboards e informes de cada área, estando en uso en gran cantidad de grandes organizaciones

Su escalabilidad, permite a LinceBI ser la solución ideal para el uso de los más modernos algoritmos de Machine Learning y las tecnologías Big Data OLAP con acceso y visualización de grandes volúmenes de datos

9 abr. 2019

Extreme OLAP tutorial con Apache Kylin - Kyligence




Quieres aprender todo sobre Apache Kylin y Kyligence? No te pierdas estos videotutoriales. Saber más sobre Kylin (en español)
Enable Interactive Big Data Analytics of Power BI
See how fast and easy it is to analyze 10 million rows of data in Microsoft Power BI using Kyligence vs. Hive for Big Data.
Icon
Explore Dataset in Large Scale with Qlik
Learn how Kyligence, the leading intelligent Big Data OLAP platform, helps Qlik users explore and query datasets quickly at any scale.
Icon
Why Xactly chose Kyligence as a centralized data analytic platform?
See how Kyligence helped Xactly simplify data management and accelerate business value generation with its centralized Big Data analytics platform.
Icon
Accelerate BI on Big Data with Kyligence
Discover how Kyligence makes sub-second query response times on massive datasets for thousands of concurrent users a breeze.
Icon
Extreme OLAP with Apache Kylin
See how the latest version of Apache Kylin is making OLAP on Big Data faster and easier than ever before with these real use cases.
Icon
Building enterprise OLAP on Hadoop in Finance
Get an overview of Apache Kylin and Kyligence’s Big Data analytics platform that covers key enterprise features including concurrency and compatibility.
Icon
Apache Kylin Use Cases in China and Japan
Learn how Apache Kylin is being adopted in China and Japan with real use cases and best practices you can apply to your own Big Data efforts.
Icon
Kyligence Insight for Superset
Learn how to get started with Kyligence Insight for Superset and start accelerating your Big Data analytics and time to insight today.

14 usos que tienen las aplicaciones Business Intelligence Analytics


Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc... pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadisticas y de Machine Learning

He aquí unos ejemplos:



  1. Business experiments: Business experiments, experimental design and AB testing are all techniques for testing the validity of something – be that a strategic hypothesis, new product packaging or a marketing approach. It is basically about trying something in one part of the organization and then comparing it with another where the changes were not made (used as a control group). It’s useful if you have two or more options to decide between.
  1. Visual analytics: Data can be analyzed in different ways and the simplest way is to create a visual or graph and look at it to spot patterns. This is an integrated approach that combines data analysis with data visualization and human interaction. It is especially useful when you are trying to make sense of a huge volume of data.
  2. Correlation analysis: This is a statistical technique that allows you to determine whether there is a relationship between two separate variables and how strong that relationship may be. It is most useful when you ‘know’ or suspect that there is a relationship between two variables and you would like to test your assumption.
  1. Regression analysis: Regression analysis is a statistical tool for investigating the relationship between variables; for example, is there a causal relationship between price and product demand? Use it if you believe that one variable is affecting another and you want to establish whether your hypothesis is true.
  1. Scenario analysis: Scenario analysis, also known as horizon analysis or total return analysis, is an analytic process that allows you to analyze a variety of possible future events or scenarios by considering alternative possible outcomes. Use it when you are unsure which decision to take or which course of action to pursue.
  1. Forecasting/time series analysis: Time series data is data that is collected at uniformly spaced intervals. Time series analysis explores this data to extract meaningful statistics or data characteristics. Use it when you want to assess changes over time or predict future events based on what has happened in the past.
  1. Data mining: This is an analytic process designed to explore data, usually very large business-related data sets – also known as ‘big data’ – looking for commercially relevant insights, patterns or relationships between variables that can improve performance. It is therefore useful when you have large data sets that you need to extract insights from.
  1. Text analytics: Also known as text mining, text analytics is a process of extracting value from large quantities of unstructured text data. You can use it in a number of ways, including information retrieval, pattern recognition, tagging and annotation, information extraction, sentiment assessment and predictive analytics.
  1. Sentiment analysis: Sentiment analysis, also known as opinion mining, seeks to extract subjective opinion or sentiment from text, video or audio data. The basic aim is to determine the attitude of an individual or group regarding a particular topic or overall context. Use it when you want to understand stakeholder opinion.
  1. Image analytics: Image analytics is the process of extracting information, meaning and insights from images such as photographs, medical images or graphics. As a process it relies heavily on pattern recognition, digital geometry and signal processing. Image analytics can be used in a number of ways, such as facial recognition for security purposes.
  1. Video analytics: Video analytics is the process of extracting information, meaning and insights from video footage. It includes everything that image analytics can do plus it can also measure and track behavior. You could use it if you wanted to know more about who is visiting your store or premises and what they are doing when they get there.
  1. Voice analytics: Voice analytics, also known as speech analytics, is the process of extracting information from audio recordings of conversations. This form of analytics can analyze the topics or actual words and phrases being used, as well as the emotional content of the conversation. You could use voice analytics in a call center to help identify recurring customer complaints or technical issues.
  1. Monte Carlo Simulation: The Monte Carlo Simulation is a mathematical problem-solving and risk-assessment technique that approximates the probability of certain outcomes, and the risk of certain outcomes, using computerized simulations of random variables. It is useful if you want to better understand the implications and ramifications of a particular course of action or decision.

  1. Linear programming: Also known as linear optimization, this is a method of identifying the best outcome based on a set of constraints using a linear mathematical model. It allows you to solve problems involving minimizing and maximizing conditions, such as how to maximize profit while minimizing costs. It’s useful if you have a number of constraints such as time, raw materials, etc. and you wanted to know the best combination or where to direct your resources for maximum profit.

Visto en Forbes

5 abr. 2019

Todo lo que necesitas saber para trabajar con Vertica Database


No te pierdas los videos sobre Vertica, la mejor base de datos columnar para Analytics
















Saber más:


How to create an open source Big Data Stack



Big Data Stack Sub second interactive queries, machine learning, real time processing and data visualization. Nowadays there is a lot technology that enables Big Data Processing. However, choosing the right tools for each scenario and having the know-how to use these tools properly, are very common problems in Big Data projects management. For this reason, we have proposed the Big Data Stack, a choice of tools for Big Data processing based...


Free whitepaper 'Big Data Analytics benchmark' for faster Business Intelligence performance



The use of Business Intelligence (BI) systems usually gets a very fast and interactive response when using dashboards, reports and detailed analytical queries. BI applications that meet this interactive processing requirement are known as OLAP (On-Line Analytical Processing) applications.  However, when we work with data sources with Big Data features (Volume, Variety and Velocity), our metrics tables (e.g. sales volume, units...) and those...


Workshop Big Data Analytics en Madrid y Barcelona



2018 ha sido un buen año, en el que hemos vuelto a organizar nuestros workshops sobre tecnologías Open Source aplicadas al Big Data, Analytics, OLAP y Business Intelligence, en diferentes ciudades en España, así como también en algunas ciudades en Latam (Lima, Asunción, Santiago de Chile...) Hace unas semanas, cerrábamos de la mejor de las maneras, con el Workshop Big Data OLAP realizado en Madrid, en donde se cubrió todo el aforo (algunos amigos...


Los Workshop Big Data Analytics continuan



Tras la buena acogida de nuestro primer Workshop Big Data Analytics en Barcelona, ya estamos planeando nuevas ediciones: Madrid, Sevilla y Alicante, además de Bolonia, en donde también lo presentaremos en el Pentaho Community Meetup, PCM18 Aquí tienes toda la información del Workshop Big Data Analytics  ...


Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning



Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que: i), no requieren programación ni instalación,  ii), son más eficientes que otras opciones como la integración con Python/Pandas,  iii) se aplican sobre tablas o vistas,  iv) implementan los algoritmos...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Charla Introduccion Bases de Datos Analiticas (Vertica-MonetDB)


Si hace unos días, os dejábamos disponibles la charla de los Open Spaces sobre Real Time Big Data con Apache Storm y el de Apache Cassandra-NoSQL, hoy tenéis el video y la presentación del más que interesante de Bases de Datos Analíticas (orientadas a columnas). Estas bases de datos nos proporcionan un gran rendimiento en tiempos de consulta para grandes volúmes de datos en entornos analíticos, como son los cubos olap Si os es útil y os gusta, no dejéis de darnos feedback para continuar con nuevos materiales También disponible en slideshare: ...


Real Time Analytics, concepts and tools



We could consider three types of Real Time when we manage data and depends on each stage: 1. Real Time Processing: Is the possibility of ingest data at the time the event is produced in real live. This includes only processing step, i.e copying data from source to destiny and guarantees data to be ready for analytics You can try some online demos here Technologies: -Apache Flink -Apache Flume -Apache Kafka -Apache Spark -Apache...