Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

31 ene. 2016

Free Book, The Field Guide to Data Science

The Field Guide (download in previous link) to Data Science spells out what data science is, why it matters to organizations, as well as how to create data science teams. 

Along the way, our team of experts provides field-tested approaches, personal tips and tricks, and real-life case studies. 

Senior leaders will walk away with a deeper understanding of the concepts at the heart of data science, practitioners will add to their toolboxes, and beginners will find insights to help them start on their data science journey

Greenplum, Open Source Database for Data Warehouse

Greenplum, que hay tenido diferentes estrategias desde su creación, se convierte ahora en una de las mejores alternativas Open Source para entornos Data Warehouse, basada en PostgreSQL

Greenplum Database is an advanced, fully featured, open source data warehouse. It provides powerful and rapid analytics on petabyte scale data volumes. Uniquely geared toward big data analytics, Greenplum Database is powered by the world’s most advanced cost-based query optimizer delivering high analytical query performance on large data volumes.

Greenplum Database project is released under the Apache 2 license.

Greenplum on GitHub
Ver los Tutoriales

28 ene. 2016

BI Reporting and Analytics on Apache Cassandra

Un paso más en el uso del Big Data para Análisis y Business Intelligence

26 ene. 2016

Good web app for selecting between 400 Visualization Tools and Books

If you like, work and fun with data and visualization you should check this: DataViz Tools

25 ene. 2016

Las 7 C del Internet of Things (IoT)

Vaya, se trataba de buscar otra letra para concretar puntos importantes de una tecnología de moda. Ahora tenemos las 7 Cs del Internet of Things, y lo dice Forbes:

1 — Consumption: The first stage of the IoT is always consumption. We could also use the word ‘ingestion’ here i.e. we need to build devices that are capable of producing operational data so that we can consume it into our IT structures.

2– Connection: The existence of smart connections (from sensors and other types of connection points) are essential avenues for IoT construction. Only when we have connectivity to the IoT can we start to build intelligence around the data that it produces.

3 — Conversion: This is the crucial stage that sees us take raw sensor data and convert it into contextualized meaning. Applying human reasoning to raw data is simply not possible, we need to expand the 1s and Os that the machines produce and start to know what information matters where, when and why — this after all is what context is all about.

4 — Centralization: The Internet of Things is everywhere, which is kind of why it got its name in the first place. Given the existence of so many different, disparate, disconnected and disaggregated data streams, the need to centralize that data and bring into one central location is essential if we are to perform big data analytics.

5 — Cognition: This is the part where we make sure that we understand what the data itself means. This is not the same as plain old data conversion, this is a more analytical process where we make sure we can apply context to the data in hand.

6 — Configuration: In this stage, to use Elrifai’s concept directly, we start to channel ‘feedback’ from the cyber world into the physical world i.e. This is where we start to send the data that we have crunched BACK INTO the Internet of Things so that the machines can work better and work smarter.

7 — Coordination: This is where we take the insight we have gained from IoT intelligence and start the process of better business logistics and scheduling i.e. we know what machines are about to fail, what transport networks are about to suffer outages and delays etc. and we can then use that insight to coordinate the logistics arm of the business function.

An eighth C?
If there were an eight C on this list it would be Creativity — this is because big data analytics with the Internet of Things is all about experimentation.

FOSS4G 2016, Call for Submissions now open!

This year, OSGeo and FOSSGIS e.V. as organizer invite you to Bonn, Germany between August 20th and 28th to share and acquire knowledge, acquaintances, friends and positive energy through all the activities we are planning for you: code sprints, workshops, B2B meetings, pub race, icebreaker, gala event and, of course, our core conference.

FOSS4G represents the global gathering of the Open Source Geospatial community with a deep focus on free and open source geospatial solutions under the auspices of the Open Source Geospatial Foundation - OSGeo. FOSS4G brings together developers, users, policy- and decision-makers, business representatives from a broad spectrum of organizations and professional geo-related fields.

  • Case Studies: Relate your experiences
  • Benchmarks: Comparisons between packages
  • Business Cases: building the economic case
  • Visualization: effective presentation of information.
  • Disaster Response: software, case studies, outcomes
  • Development: new development in projects
  • Hacks and Mashes: novel solutions to all our problems
  • Collaboration: data collection, data sharing, and open standards,
  • New data: handling new data models and formats (e.g. 3D, temporal and “big data”)

22 ene. 2016

Facebook Sentiment Analysis Dashboard with Pentaho

Check this Dashboard using Pentaho BI Suite, including Dashboard, Sentiment Analysis using Data Mining and OLAP Cube with Pivot views.

You can use it online in this Demo and you can download this whitepaper explaining how to apply Sentiment Analysis

Some days ago we told you about Real Time Twitter Dashboard too

History of Big Data

Very few people are aware that big data has a little-known history that goes back to the early c18000 BCE!

As we are at the start of 2016, lets look back and see the long history of Big Data and some of the important milestones. 

Visto en TavtaSoft

Whitepaper: Delivering Operational Analytics Using Spark and NoSQL Data Stores

The landscape of Scalable Operational and Analytical Systems is changing and disrupting the norm of using relational databases for all workloads. 

With the growing need to process and analyze Big Data at Scale, the demand for alternative strategies has grown and has given rise to the emergence of NoSQL databases for scalable processing


Opengrid, la gran iniciativa Open Source que ha liberado la ciudad de Chicago

OpenGrid es una gran iniciativa en el campo del Open Data y Analytics de la Ciudad de Chicago


Need to put analytics into the hands of your team? OpenGrid can be deployed to enable real-time situational awareness and let your organization access historical events through a simple map-based interface. 

It is an excellent, low-cost business intelligence tool for governments, non-profits, and corporations. Pair OpenGrid with the open-source, NoSQL MongoDB database behind your firewall for an even more powerful, secure program.

Open Data:

OpenGrid can be configured to run off of a variety of sources, including, which can intake data from Socrata and CKAN open data portals. 
Governments using those portals can leverage and their data portal to create an easy way for residents to perform a simple navigation of their city and neighborhoods.

15 ene. 2016

Twitter Real Time Dashboard with Pentaho

You can see a real time dashboard with pentaho and other open source technologies with Twitter information. You can play with it in this online Demo.

We can store those tweets and analyze with BI tools

This dashboard has been created using cool stuff like:

- Tomcat 7
- Spring Framework 
- Spring Web Socket 
- Multi Thread 
- Twitter4J 
- JQuery 
- Bootstrap

You can check too, a Facebook Sentiment Analysis Dashboard

14 ene. 2016

Video Presentacion Open Smart Data (BI, Big Data y Marketing) Open Source

Hace unos meses se celebro el evento Open Smart Data. Hoy os dejamos una de las presentaciones más interesantes que auna Open Source, Big Data, Marketing y Pentaho

Miguel Mesa, de Stratebi, muestra cómo utilizar herramientas Open Source como las que se utilizan en entornos de Big Data para realizar análisis de datos de redes sociales, especialmente para obtener los mejores resultados de campañas de marketing digital. 

Presenta algunos casos de éxito, como proyectos de análisis realizados para campañas de marketing, y diferentes aplicaciones como la mejora de profilings con datos de Twitter o de Facebook, o la utilización de herramientas de datamining como R, rapidminer, Weka o Python para soluciones más en la linea de Smart Data, para proyectos de sentiment analysis, análisis de comentarios, predicción de aceptación de ofertas, o cálculo del mejor momento de lanzamiento de acciones de marketing digital.

RETAIL FORUM 2016 el 9 de Febrero de 2016 en Madrid

El Mundo Retail está haciendo grandes esfuerzos por ofrecer nuevas estrategias, productos y servicios en un mercado de máxima competencia con grandes perspectivas de crecimiento para el 2016.

RETAIL FORUM 2016 es el evento de referencia para todos los profesionales del Sector sin excepción: CEO, CIO, Director de Marketing, Director Retail, Director de Desarrollo de Negocio, Director de Ecommerce, Digital Manager, Director de Multicanalidad, Director de Medios de Pago, Director de Operaciones, Data Manager, Controller, Director de Logística están invitados a compartir, aprender y sorprenderse con las experiencias de los principales players del Ecosistema Retail.

·      Con las últimas novedades en Inteligencia Artificial, Big Data, Pagos Contactless / POS, Tiendas Virtuales, Realidad Aumentada/Impresión 3D, Tecnología Back End, iBeacons, Tecnología de control del flujo de personas, tiendas digitales, etc.

·       Más de 70 directivos de los retailers más representativos del sector trabajarán estrechamente con los asistentes en 21 dinámicas interactivas que se celebrarán el marco de Retail Forum 2016 y que estarán encuadradas en:

o   1 Premium Session:
Estrategias de Diferenciación y Posicionamiento para un Cliente Global ¡Novedad!

o   7 Focus Session de libre acceso para Retailers:
Big Data y Fidelización de Clientes
Transformación Digital
Novedades y Tendencias en Métodos de Pago
Ecommerce y Mcommerce
Ticketing: el negocio de la venta de entradas y ocio en España
Integral Supply Chain

o   RRHH en Retail

·     ¡Novedad! Tienda del Futuro: Showroom privado de acceso exclusivo por invitación

9 ene. 2016

Information is Beautiful Awards

No te pierdas una gran recopilación de visualizaciones gracias a los premios anuales que organizan en Kantar Information is Beautiful

Aquí tienes una gran recopilación y ejemplos de los candidatos y premiados

OSINT - La información es poder

Gran entrada la publicada por Asier Martinez del INCIBE sobre la inteligencia recopilada a partir de fuentes de acceso público (OSINT). En el nos hace una gran recapitulación de las mismas y os ponemos a modo de ejemplo:


Hay multitud de herramientas y servicios útiles a la hora de implementar un sistema OSINT. A continuación se mencionan algunos de ellos:

  • Buscadores habituales: Google, Bing, Yahoo, Ask. Permiten consultar toda la información que indexan. Así mismo, permiten especificar parámetros concretos (Hacking con buscadores: por ejemplo «Google Hacking» o «Bing Hacking») de manera que se pueden realizar búsquedas con mucha mayor precisión que la que utilizan los usuarios habitualmente. Dependiendo del buscador empleado se utilizan distintos parámetros, si bien algunos de ellos son comunes. Algunos ejemplos de búsquedas parametrizadas son las siguientes:
    • Ficheros con extensión pdf de un sitio web concreto: + ext:pdf ­
    • Algunos sitios hackeados: intitle:"hacked by SultanHaikal"
    Mediante éstos parámetros se puede obtener, entre otras cosas, información sensible como nombres de usuarios y contraseñas procedentes de volcados de bases de datos, localización de servidores vulnerables, acceso a dispositivos hardware online como webcams, cámaras de vigilancia o impresoras, o datos personales como DNI, cuentas bancarias, etc.
  • Buscadores especializados:
    • Shodan: Permite entre otras cosas localizar ordenadores, webcams, impresoras, etc basándose en el software, la dirección IP, la ubicación geográfica, etc. Mediante este servicio es posible localizar información de interés y, en ocasiones, curiosa e incluso inquietante, como por ejemplo: acceder al sistema de control de una pista de patinaje sobre hielo en Dinamarca y descongelarla  (se abre en nueva ventana), poner en modo de prueba todo el sistema de control de tráfico de una ciudad  (se abre en nueva ventana) o acceder al sistema de control de una planta hidroeléctrica en Francia  (se abre en nueva ventana). ­
    • NameCHK: es una herramienta que permite comprobar si un nombre de usuario está disponible en más de 150 servicios online. De este modo, se puede saber los servicios que utiliza un usuario en concreto, ya que habitualmente la gente mantiene dicho nombre para todos los servicios que utiliza. Además, disponen de una API que permite automatizar las consultas. ­
    • Knowem: es una herramienta de similares características que MameCHK pero comprueba el nombre en más de 550 servicios, incluyendo dominios disponibles. ­
    • Tineye: es un servicio que, partiendo de una imagen, indica en qué sitios web aparece. Es similar a la búsqueda por imagen que incorpora Google Imágenes. ­
    • Buscadores de información de personas: permiten realizar búsquedas a través de diferentes parámetros como nombres, direcciones de correo o teléfonos. A partir de datos concretos localizan a usuarios en servicios como redes sociales, e incluyen posibles datos relacionados con ellos como números de teléfono o fotos. Algunos de los portales que incorporan este servicio son: Spokeo, Pipl, 123people o Wink.

  • Herramientas de recolección de metadatos:
    • Metagoofil: permite la extracción de metadatos de documentos públicos (pdf, doc, xls, ppt, docx, pptx, xlsx). A partir de la información extraída se pueden obtener direcciones de correo electrónico del personal de una empresa, el software utilizado para la creación de los documentos y por tanto poder buscar vulnerabilidades para dicho software, nombres de empleados, etc.
    • Libextractor: es una aplicación similar a Metagoofil que soporta muchos más formatos, si bien la información obtenida no es de tanta utilidad.

  • Servicios para obtener información a partir de un dominio:
    • Domaintools: es uno de los servicios referentes en este ámbito ya que incorpora un gran número de funcionalidades. Cabe destacar que permite crear alertas a usuarios que registran dominios, monitorizar dominios e IPs, crear alertas para dominios nuevos que contengan ciertas palabras, e incluso un servicio de investigación de gran cantidad de amenazas como «spear phishing», denegación de servicio, spam, fraude o malware.
    • Robtex: muestra, entre otras cosas, la fiabilidad del dominio, su posición en el ranking Alexa  (se abre en nueva ventana), el listado de subdominios, los servidores de correo o el ISP que utiliza. ­
    • MyIPNeighbors: permite obtener el listado de dominios que comparten servidor con el dominio indicado.

  • APIs de diferentes servicios como Facebook, Twitter, Google+ o Youtube: Mediante los métodos que implementan se pueden consultar de una manera automatizada los datos publicados.
  • Otras herramientas de interés:
    • GooScan: permite automatizar búsquedas en Google pudiendo identificar de una manera sencilla subdominios de un dominio concreto, fugas de información o posibles vulnerabilidades.
    • SiteDigger: al igual que GooScan permite automatizar búsquedas. Busca en la caché de Google para identificar vulnerabilidades, errores, problemas de configuración, etc. ­
    • OsintStalker (FBStalker y GeoStalker): utilizan diferentes redes sociales como Facebook, LinkedIn, Flickr, Instagram y Twitter para recolectar gran cantidad de información sobre una persona. Permiten localizar lugares y sitios web visitados con regularidad, amigos online, etc y mostrar los datos en Google Maps. ­
    • permite obtener datos de Twitter, Flickr e Instagram. A partir de la selección de una cuenta extrae fechas e información GPS, y crea una base de datos en formato csv o kmz para visualizarlos. ­
    • Theharvester: esta herramienta obtiene emails, subdominios, host, nombres de empleados, puertos abiertos, etc a través de diferentes servicios como Google, Bing, LinkedIn y Shodan.

  • Merecen una mención especial Palantir y Maltego al implementar un gran número de funcionalidades y ser unos de los grandes referentes en la materia de la inteligencia de las fuentes abiertas.
    • Palantir: es una empresa que tiene como cliente a diferentes servicios del Gobierno de Estados Unidos (CIA, NSA y FBI) y que se centra en el desarrollo de software contra el terrorismo y el fraude, mediante la gestión y explotación de grandes volúmenes de información. ­
    • Maltego: permite visualizar de manera gráfica las relaciones entre personas, empresas, páginas web, documentos, etc. a partir de información pública.

Dashboards and Visual Analytics with Jedox

Un video que muestra muy bien las posibilidades de Jedox, la solución CPM BI que esta creciendo en el ambito de la planificación, presupuestación, forecasts... etc... con un innovador frontend web, estilo excel

PostgreSQL 9.5 viene con nuevas e interesantes funcionalidades Big Data y para BI/DW

Se acaba de lanzar la nueva versión de PostgreSQL 9.5 e incluye novedades en Big Data, BI, OLAP de la que se está convirtiendo en la mejor Base de Datos para entornos analiticos

MicroOLAP Database Designer meets PostgreSQL 9.5

Big Data Features (what´s new detail)

PostgreSQL 9.5 includes multiple new features for bigger databases, and for integrating with other Big Data systems. These features ensure that PostgreSQL continues to have a strong role in the rapidly growing open source Big Data marketplace. Among them are:

BRIN Indexing: This new type of index supports creating tiny, but effective indexes for very large, "naturally ordered" tables. For example, tables containing logging data with billions of rows could be indexed and searched in 5% of the time required by standard BTree indexes.

Faster Sorts: PostgreSQL now sorts text and NUMERIC data faster, using an algorithm called "abbreviated keys". This makes some queries which need to sort large amounts of data 2X to 12X faster, and can speed up index creation by 20X.

CUBE, ROLLUP and GROUPING SETS: These new standard SQL clauses let users produce reports with multiple levels of summarization in one query instead of requiring several. CUBE will also enable tightly integrating PostgreSQL with more Online Analytic Processing (OLAP) reporting tools such as Tableau.

Foreign Data Wrappers (FDWs): These already allow using PostgreSQL as a query engine for other Big Data systems such as Hadoop and Cassandra. Version 9.5 adds IMPORT FOREIGN SCHEMA and JOIN pushdown making query connections to external databases both easier to set up and more efficient.

TABLESAMPLE: This SQL clause allows grabbing a quick statistical sample of huge tables, without the need for expensive sorting.

"The new BRIN index in PostgreSQL 9.5 is a powerful new feature which enables PostgreSQL to manage and index volumes of data that were impractical or impossible in the past. It allows scalability of data and performance beyond what was considered previously attainable with traditional relational databases and makes PostgreSQL a perfect solution for Big Data analytics," said Boyan Botev, Lead Database Administrator, Premier, Inc.