Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

30 ene. 2015

La ciudad de Chicago libera ETL Toolkit Open Source para Open Data

Que gran iniciativa la de la ciudad de Chicago que ha usado Kettle (Pentaho Data Integration) y ha liberado codigo para Open Data que está a disposición de todos

This toolkit provides several utilities and framework to help governments deploy automated ETLs using the open-source Pentaho data integration (Kettle) software.
Namely, this toolkit will allow:

  • Loading data from a database and upload it to a Socrata data portal
  • Integrates with an SMTP server to provide e-mail alerts on the outcome of ETL scripts to administrators
  • Handles deployment issues when using multiple operating systems during development
  • Utilities to allow administrators to quickly analyze the log files of ETLs for quick diagnostics
Para saber más sobre Open Data, Smart Cities y Open Source:

Great to see Jedox Planning and Forecast in action, new 5.1 features

In Jedox, by combining future-oriented forecasts and plans with systematic analysis of historical data you get 360-degree view of your organization. 


For Jedox 5.1,  you can easily lock or unlock individual cells or entire planning areas on any planning template. 
The new 'Lock Jedox Cell' means you can hold data constant while planning from the topdown and bottom-up. Data maintains its fixed value while splashing aggregated plan values to other cells. accurate, and more flexible. 

Puedes ver aquí nuestra presentación en español:

28 ene. 2015

Las mejores visualizaciones de Diciembre

Popular Science | '15 charts, graphs and maps that will shape the future of information.'
Bloomberg | '2014 Is Likely to Be the Earth's Hottest Year Ever. Why It Doesn't Matter' - love the plot half way down
Washington Post | Inevitably, being December, there were several 'Year in graphics' collections. Here's one from the Washington Post...
New York Times |'s the New York Times'
Quartz | ... and from Quartz
Zeit Online | ... this one from Zeit Online
Reuters | up is the Reuters graphics collection
WSJ | ...The WSJ's year of interactive graphics
CartoDB | Rivers in the US coloured by the direction in which they flow
NZZ | In contrast to the previous links, this is an interactive visualisation chronicling and analysing a year of published content
Senseable | 'Art Traffic at the Louvre: A study of visitors’ behaviour using Bluetooth data'
Marion-Luttenberger | Interesting portfolio of creative, physical/ambient infographic work
Washington Post | 'Most Americans’ best days are behind them'
The Bump | Nice way to show the relative size of a baby week-by-week
Wired | 'A Web App That Visualizes Wikipedia as a Starry Galaxy of Articles'
BBC | 'Jihadism: Tracking a month of deadly attacks'
Bloomberg | 'Pain at the Pump: Gasoline Prices by Country
Buckets | Terrific interactive NBA player dashboards
New York Times | 'A Record Year for Auto Recalls'
Creative Review | 'The soundscape of New York' - physical visualisations
Eye See Data | A really terrific detailed bump chart showing the history of Fifa World Rankings
Bloomberg | More interactive storytelling excellence from the Bloomberg Visual team, this one profiling 'Climate Change in Perspective'
Muyueh | A deep exploration into how 'Different languages have different ways to describe color'
Boston Globe | 'This is how Congress connects on Twitter'
Tabletop Whale | Animated infographic showing 'How to build a human'
ProPublica | 'Inside the Firewall: Tracking the News That China Blocks'
On Broadway | 'The interactive installation ON BROADWAY represents life in the 21st-century city through a compilation of images and data collected along the 13 miles of Broadway that span Manhattan.'
Washington Post | 'The brutal methods outlined in the Senate report'
ncase | Enjoyable 'segregation simulator' - "This is a story of how harmless choices can make a harmful world".
Wired | From MapLabs: 'Our Favorite Maps of the Year Cover Everything From Bayous to Bullet Trains'
The Acme Catalog | 'BIG BATS is a search through historical data (1903-2013) for performances by players who seemed like they were literally playing with a larger bat than everyone else.'
FiveThirtyEight | Love this analytical enquiry: 'The Final ‘Hobbit’ Film Is An Unprecedentedly Gratuitous Stretch Of Source Material'
TheUpshot | 'The Vanishing Male Worker: How America Fell Behind'
Truth and Beauty | Love these remixes of Hans Rosling's famous graphics, redesigned for print
City Geographies | 'Understanding Household Energy Use in England & Wales'
What Color Is It? | 6 digit time converted in to a hex coloured background that constantly changes as time does. Dead simple. Dead good.
New York Times | 'What We’re Searching For'
WSJ | 'Who's News: Rank business leaders on the Journal's influence grid.'
Tableau Public | The remixer becomes the remixed... A stunning reworking of Moritz Stefaner's 'Notabilia' by Mark Jackson
NZ Herald | 'Visualising 268,000 tonnes of floating plastic in the world's ocean'

Recopilacion de Visualising Data

Nueva version de GoogleVis

The googleVis package provides an interface between R and the Google Charts API. It allows users to create web pages with interactive charts based on R data frames. Charts are displayed locally via the R HTTP help server. A modern browser with Internet connection is required and for some charts a Flash player. The data remains local and is not uploaded to Google.

You find examples of all googleVis function on CRAN. Perhaps the best known example of the Google Chart API is the motion chart, popularised by Hans Rosling in his 2006 TED talk

Tutorial GoogleVis 

22 ene. 2015

España 2015, uso Digital y Social Media

Que penetración y uso tiene el Social Media y el área Digital en España? Os mostramos un buen puñado de estadísticas actualizadas. 

Desde TodoBI y Stratebi hemos usado el BI Open Source para crear soluciones de Social Intelligence, lo que permite analizar todas estas montañas de información con tecnologías Big Data

Visto en we are social

21 ene. 2015

Big Data 2014: A year in review

Good review of the most important facts during 2014 about Big Data. If you work or are interested in Big Data, this recap is a must.

Hadoop, Spark, Cassandra, MongoDB, Hortonworks, Pentaho, Vertica, Cloudera, Apache Flink, CouchDB and more...

Segundo Meetup Pentaho en Madrid, 26 de Enero

Para todos los apasionados de Pentaho, Saiku, Ctools, Big Data y Open Source en general llega para el próximo lunes 26 de Enero en Madrid el 2º Meetup de Pentaho, que coordina Rafael Valenzuela

No te lo pierdas!! apuntate... que ya te estamos avisando


1.- Emilio Arias: New Pentaho CE improvements for Open Data applications
2.- David fombella: PDI metadata injection and advanced etl techniques
3.- Matt Casters Creador de kettle : Sorpresa, Sorpresa...
4.- Rafael Valenzuela *: Saiku addons

Edificio de Telefonica (Tuenti)

Tuenti Calle Gran Vía, 28 28013 Madrid,

Informe sobre Digital, Social y Mobile en 2015

Buen estudio por paises, el recientemente presentado por we are social, con datos más que interesantes y estadisticas globales

20 ene. 2015

Errores comunes en la visualizacion de datos

Buena presentacion sobre visualización de Pablo Garaizar

19 ene. 2015

Tarjetas Black de Bankia, Analytics

Tatopagao es un buen ejemplo de aplicar datos abiertos, business intelligence y open source, como herramienta para los periodistas de datos y ciudadanos en general en busca de transparencia. 

Una web que permite realizar análisis, informes y cuadros de mando, empleando soluciones de data discovery, basada en la solucion Pentaho Open Source.

Estos son algunos de los ejemplos que se pueden crear:

15 ene. 2015

Machine Intelligence Landscape

14 ene. 2015

eBook gratuito: Data Driven, Creating a Data Culture de O'Reilly

Succeeding with data isn’t just a matter of putting Hadoop in your machine room, or hiring some physicists with crazy math skills. It requires you to develop a data culture that involves people throughout the organization. In this O’Reilly report, DJ Patil and Hilary Mason outline the steps you need to take if your company is to be truly data-driven—including the questions you should ask and the methods you should adopt.
You’ll not only learn examples of how Google, LinkedIn, and Facebook use their data, but also how Walmart, UPS, and other organizations took advantage of this resource long before the advent of Big Data. No matter how you approach it, building a data culture is the key to success in the 21st century.


You’ll explore:
  • Data scientist skills—and why every company needs a Spock
  • How the benefits of giving company-wide access to data outweigh the costs
  • Why data-driven organizations use the scientific method to explore and solve data problems
  • Key questions to help you develop a research-specific process for tackling important issues
  • What to consider when assembling your data team
  • Developing processes to keep your data team (and company) engaged
  • Choosing technologies that are powerful, support teamwork, and easy to use and learn

13 ene. 2015

Mas de 60 herramientas utiles para los especialistas en Marketing

En estos últimos años, se ha producido una recolución en cuanto a empresas tecnológicas dedicadas al Marketing. Os dejamos una buena selección 60 herramientas muy útiles:

Website Analytics 
Google Analytics

Social Media Analytics 


Web Analytics


Funnel Analytics

Squeeze CMM 

SEO Analytics

SEM Rush

Marketing Automation

Right On Interactive 



Email Marketing Tools

Campaign Monitor 

Sales Enablement 
Jive Software 

Social Media Management & Listening

Social Media


Blogging & CMS


Distribution Tools


Content Promotion Tools

Webinar Tools


Digital Asset Management

Sources for Content Creation

Content Curation Tools

Content Optimization Tools


Content Enrichment Tools

Content Collaboration Tools

Content Authoring Tools

Other – This tool allows users to create lists, share them, add them to other pieces of content (such as blogs) and enable crowd-sourcing for continuous list building.

Visto en Curata

9 ene. 2015

Por que elegir un BPM Open Source

Lo cuentan muy bien desde Bonitasoft, nuestra solución BPM Open Source preferida

Greenplum sera Open Source

Según apunta Rob Klopp, Pivotal podría liberar como Open Source su motor Greenplum, lo cual es una buena noticia, aunque lo más relevante es que esto puede poner de relieve el impacto que está suponiendo el Big Data, en cuanto a optimización de costes, flexibilidad, etc... a los entornos tipo Teradata, Exadata, SAP Hana, Netezza, etc...

Se trata de un post muy interesante que os recomendamos, pues es un buen ejemplo de como han cambiado las reglas del juego en el campo del Data Warehouse, algo inimaginable hace unos años

8 ene. 2015

Kylin, OLAP for Big Data, step by step

Kylin es un motor distribuido Analítico, Open Source, desarrollado por eBay Inc. Que constituye una de las tecnologías más vanguardistas del espectro tecnológico Big Data.

Kylin se caracteriza por ser un motor extremadamente rápido OLAP de escala. Está diseñado para reducir la latencia de consulta en Hadoop en más de 10 para miles de millones de filas de datos usando arquitectura MOLAP.

Hemos estado trabajando con los compañeros de Stratebi con Kylin y lo hemos conectado con Tableau, via ODBC. El siguiente objetivo será conectarlo con Pentaho, en cuanto esté el driver jdbc. Os contamos:

- Kylin lo que busca es ser un motor el cual coge datos que están en Rolap (Hadoop) y te los sube a un Molap (Hbase) haciendo consultas SQL con Hive a Hadoop. Así, es transparente al usuario. Simplemente hay que tener un esquema físico y unas tablas Rolap en Hive+Hadoop y él se encarga de hacer las transformaciones y todo el volcado y llenado de modelos Molap .

-  En el entorno de Kylin bien, en principio te viene 2 cubos de prueba pero sin acabar. Vienen dos scripts de llenado en hadoop de datos. Son 4 o 5 tablas. Este cubo hay que completarlo, pues así ves el proceso de creación transofrmación de ROLAP a MOLAP.

-  Al ir avanzando vas entendiendo que lo unico que haces es mapear las tablas físicas a un cubo, muy al estilo del Schema Workbench con Pentaho. El tema es que cuando pulsas "generar" lo que se hace es crear una estructura Molap en Hbase. Se crean tablas específicas y procesos ETLs (queries SQLs que cogen datos y agregan al Hbase).  

1) información del cubo

2) Mapeo dimensiones

3) mapeo kpis

4) Establecemos filtros

5) Gestor de actualización

6) Propiedades avanzadas

7) último paso final de review

8) aceptamos y ahora es cuando se lanzan todos los procesos por debajo. Hasta ahora ha sido una especie de schema workbench

Se puede visualizar el esquema fisico en formato arbol

Se lanzan unos jobs de construcción de Rolap->Molap 

Ese job te da una serie de indicaciones de lo que está haciendo y su % de completitud, fijate en la zona derecha que hay como un timeline

Ese timeline lo que detalla son los diferentes trabajos que está ejecutando. Procesos de creación de tablas auxiliares en Hive, construcción de sqls y volcado al Molap en Hbase

Este es el estado final de todo: