Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

17 ene. 2019

Usando Python con PowerBI



Muy interesante la nueva funcionalidad que permite el uso de Python en PowerBI, que se añade a la ya conocida capacidad con R, que os comentábamos no hace mucho

En este artículo de Tommi Ranta explica paso a paso como preparar un entorno Python, habilitar Python en Power BI, importar datos y aplicar clustering a los datos y crear visualización personalizadas en Power BI utilizando Python. 

Todo el material necesario para replicar este ejemplo está disponible en GitHub

Eso sí, para ello tienes que tener algunos conocimientos previos de PowerBI y de Python



15 ene. 2019

Cursos sobre Open Source, Machine Learning, Big Data y Business Intelligence


Si estáis buscando cursos en Open Source, Machine Learning, Big Data y Business Intelligence, os dejamos los cursos que convocan nuestros amigos de Stratebi, calendario de cursos, que incluyen una gran variedad de ellos, que vienen realizando los últimos años, tanto 'in company', como presenciales y online a cualquier asistente



En ambos casos, tanto en sus modalidades online, como presencial. Más de 2.500 alumnos se han formado con estos cursos



Fórmate en las tecnologías del Futuro!!



14 ene. 2019

Free whitepaper 'Big Data Analytics benchmark' for faster Business Intelligence performance


The use of Business Intelligence (BI) systems usually gets a very fast and interactive response when using dashboards, reports and detailed analytical queries. BI applications that meet this interactive processing requirement are known as OLAP (On-Line Analytical Processing) applications. 

However, when we work with data sources with Big Data features (Volume, Variety and Velocity), our metrics tables (e.g. sales volume, units...) and those tables that describe the context (e.g. date, customer, product) could store billions of rows, making the processing requirements very high, even for the most advanced Big Data technologies. 

**Download free 27 pages whitepaper ''Big Data Analytics benchmark' 
**Download free 27 pages whitepaper ''Big Data Analytics benchmark' 




In order to support OLAP applications with Big Data, multiple technologies that promise excellent results have emerged in recent years. Some of the best known are Apache Kylin, Vertica, Druid, Google Big Query or Amazon Red Shift





In this whitepaper we describe the Big Data OLAP technologies that are part of the benchmark: Apache Kylin and Vertica










Besides comparing these technologies against each other, we have also compared them with the relational database PostgreSQL

This open source technology, despite not being a Big Data database, usually offers very good results for traditional OLAP systems. Therefore, we considered worthwhile to include PostgreSQL in order to measure the differences of it against Kylin and Vertica in a Big Data OLAP scenario

LinceBI, open source based analytics solution, use this technologies for scalable and faster performance on Business Intelligence 




More Info:


OLAP for Big Data. It´s possible?



Hadoop is a great platform for storing a lot of data, but running OLAP is usually done on smaller datasets in legacy and traditional proprietary platforms.   OLAP workloads are beginning to migrate to the one data lake that is running Hadoop and Spark. Fortunately, there are a number of Apache projects that are starting to make OLAP possible on Hadoop.  Apache Kylin For an introduction to this interesting Hadoop project, check...



10 ene. 2019

Cuales son las novedades en Vertica 9.2?


The latest version of Vertica was released earlier this month and with it comes a host of new features. In Vertica 9.2, we introduced several new features including:
  • Eon Mode Updates
  • Management Console changes
  • Performance improvements
  • Upgrade and installation changes
  • Voltage SecureData updates

Info de Vertica y servicios en español (la mejor Base de Datos analítica)

Eon Mode Updates

The Eon Mode updates only affect users on AWS. You can now create branches of your Eon Mode database. A branch is a snapshot of your database that you revive like you would a regular Eon Mode database. Changes you make to a branch do not affect the master database. Currently, branches are data-immutable, meaning that you cannot perform an action on a branch that changes the underlying storage containers. The master database and branches share the same storage containers. Branches are useful for:
  • Creating a stand-in for your database while it is down for maintenance or upgrades.
  • Running analytics without impacting your database’s performance for other users. You can create several branches to execute costly queries in parallel and still maintain your database’s usual workload.
  • Perform tests of new queries in a sandbox environment before deploying them to your live database.
See Branching an Eon Mode Database for more information.

Management Console Changes

These Management Console updates only affect users on AWS. When you create or revive a Vertica cluster on AWS using Management Console, you can now select from a list of Vertica database versions with a Linux operating system. After your Vertica database is upgraded, you cannot downgrade your database later.
When you add one or more EC2 instances to scale up your Vertica cluster on AWS, you can now enter tag values for each instance. By default, Management Console pre-fills with tag values for the first existing instance. Tagging instances is optional.


Performance Improvements
In past releases, the optimizer used a fast plan to refresh a table with a single live aggregate projection (LAP). As of this 9.2, the optimizer applies the refresh operation on each table LAP as a separate transaction and applies the fast plan to each LAP. Doing so significantly reduces the total time required to refresh tables with multiple LAPs.
Vertica 9.2 also significantly reduces how much memory the database catalog consumes. It does this by consolidating the amount of metadata it maintains to track ROS storage containers.

Upgrade and Installation Changes

Vertica has removed support for pre-join and range segmentation projections. If a table’s only super-projection is one of these projection types, the projection is also regarded as unsafe. Before upgrading to a release higher than Vertica 9.0.x, you are strongly urged to check your database for unsupported projections.
Be sure to download and run the pre-upgrade script. You can download the script and obtain detailed information on its usage at this location: https://www.vertica.com/pre-upgrade-script/

Voltage SecureData Updates

The way you configure the Voltage SecureData changes in Vertica 9.2. In 9.2, the options that should be set globally for all users have been moved to a new function named VoltageSecureConfigureGlobal. To use the SecureData integration, you must set the SecureData Appliance’s policy URL using this function.
We hope you get started with these exciting new features! And keep a look out for our next What’s New blog that will come with the next release. These are the highlights, for information on additional new features, see Vertica 9.2.x New Features and Changes.

In This Guide

9 ene. 2019

Presentando Data Analytics Studio de Hortonworks



Data Analytics Studio (DAS) permite que los equipos informáticos se adapten a los requisitos del negocio al proporcionar herramientas de diagnóstico y recomendaciones inteligentes para que los analistas de negocio sean autosuficientes y productivos. 



DAS ayuda a los usuarios a realizar operaciones en tablas Hive y proporciona recomendaciones para optimizar el rendimiento de sus consultas. Con DAS, los analistas de negocio pueden buscar, redactar y ejecutar consultas, gestionar bases de datos para crear y editar tablas, ver informes y recomendaciones para optimizar el rendimiento de las consultas.




Reduzca rápidamente las consultas problemáticas en un clúster grande mediante informes y búsquedas predefinidos. 
Los analistas pueden buscar consultas ejecutadas en tablas de Hive en una base de datos y refinar aún más la búsqueda basándose en parámetros como el estado de la consulta, la cola a la que pertenece la consulta, el usuario de la consulta, las tablas leídas y escritas para la consulta y los modos de ejecución. 



Con DAS, los equipos informáticos y los analistas de negocio tienen una mayor visibilidad de:

     Informes de registro de consultas preintegrados
  • Consultas más costosas
  • Consultas a largo plazo
  • Archivos y tablas más utilizados
  • Uso de espacio por tabla, etc.
    Filtro y búsqueda de registros de consultas
  • Tablas que no utilizan estadísticas
  • Consultas no optimizadas en función del coste (CBO)


8 ene. 2019

Google Big Query, Cargas Incrementales y Debugging con Talend



Os damos acceso a un interesante paper de nuestros compañeros de Stratebi, Partners de Talend (la potente solución ETL open source, con versión también Enterprise), que aborda los temas de la integración con Google Big Query, como realizar cargas incrementales y debugging

Descargar paper









Mas info:

Caso Practico: trabajando con APIs y Talend



En este ejercicio practico, vamos a enriquecer el flujo de datos con API de datos estadísticos. Descargar Documento completo 1      Introducción El propósito de este documento es demostrar como con un pequeño ejemplo se puede establecer un flujo de datos continuo entre la API Idescat y la herramienta Talend. El Idescat expone parte de sus datos a través de una colección de API de tipo REST. Además, la...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Data Lakes: Definiciones y Plataformas. Descarga gratuita del White Paper



Un gran estudio de más de 40 páginas por parte de Philip Russom, que puedes descargar gratuitamente desde aquí Os dejo a continuación, un resumen de los contenidos y algunos de los principales hallazgos del estudio. Muy interesante. Para saber más de Data Lakes: Diferencias entre Data Lake y Data Warehouse junio 07, 2017  Bases de Datos, data warehouse, teoria  No comments Let’s briefly take...


Comparacion entre Talend y Pentaho



Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio. Hoy traemos otra comparación interesante: Talend: Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integration tool Talend offers limited connectivity to concurrent databases, and other forms of data but has a dependency factor of Java drivers to connect to the data sources...


Comparativa Kettle (Pentaho Data Integration) y Talend



Hace unos días os hablábamos de que el ETL es crucial y hoy os mostramos una comparativa de las dos mejores herramientas Open Source de ETL (Kettle de Pentaho y Talend), que tampoco empieza a ser arriesgado a decir que se están convirtiendo en las mejores, sobre todo si valoramos el coste y la posibilidad de integración y modificación respecto a Informatica Powercenter, Oracle, Microsoft o IBM Tanto Kettle como Talend son grandes herramientas, muy...


Machine Learning Demo Tutorial



En este demo tutorial (que puedes probar directamente en el enlace anterior), se han utilizado los datos de la cadena de heladerías para predecir las ventas en función de ciertas variables como el calendario laboral, la temperatura o el número de horas de apertura. 



Para su implementación se ha seleccionado el algoritmo de regresión GBT (árboles potenciados por gradiente) y se ha utilizado la tecnología Apache Spark que permite la ejecución en un clúster Big Data Hadoop. 




Para la visualización se ha utilizado Apache Zeppelin, creando un Notebook que combina el código Spark con otras tecnologías de visualización. A continuación se muestra un dashboard formado por componentes embebidos del Notebook, el cual puede verse en detalle, junto con el código, en el siguiente enlace.


Para saber más:

Como hacer Deep Learning con Pentaho



Hace ya unas semanas os hablábamos de como Pentaho Data Integration podía orquestar los procesos de Machine Learning (lo que llamábamos Machine Intelligence) Hoy damos un paso más, y os contamos como hacer 'deep learning con Pentaho' En breve, Pentaho va a presentar una evolución de Pentaho Machine Intelligence.  Este otoño, se lanzará la versión 1.4 de PMI como una actualización del PMI existente, que es un complemento experimental para...


Os invitamos a 10 pases (Workshop Big Data Analytics en Barcelona, miercoles 10 de Octubre)



El próximo miércoles 10 de Octubre (Barcelona) realizamos en TodoBI, con la colaboración de nuestros compañeros de Stratebi, un interesante y práctico Workshop para aprender sobre las más modernas y potentes tecnologías Big Data Analytics (la mayor parte open source) que están siendo usados por grandes organizaciones Aquí tienes toda la información del Workshop Big Data Analytics para inscribirse Sí incluis el código: MYTUU al registraros,...


Como Pentaho ayuda a los cientificos de datos



Hace ya algunas semanas os veníamos comentando sobre las mejoras que estaba realizando Pentaho para facilitar la creación y ejecución de Machine Learning.  También os hablábamos de como habían introducido el concepto de Machine Intelligence Hoy, vamos un paso más allá y tras la celebración del reciente evento HitachiNext, en donde se dieron una pinceladas muy interesantes en lo que respecta a como Pentaho facilita y ayuda al uso de...


Los mejores posts de TodoBI durante el verano



Este verano os hemos traído material muy interesante, con muchos documentos y tutoriales. Aquí tenéis un resumen: Videotutorial: Usando R para Machine Learning con PowerBI septiembre 04, 2018  machine learning, powerBi, R  No comments Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial: Temario del Videotutorial: 1º Posibilidades de R dentro...


Videotutorial: Usando R para Machine Learning con PowerBI



Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial: Temario del Videotutorial: 1º Posibilidades de R dentro de Power BI  2º Instalar R y RStudio  3º Matriz de Correlación para el sector Retail  4º Árbol Decisión Titanic  5º Clustering K-Means Estados Unidos  6º Clustering DBSCAN Estados Unidos para detectar Outliers  7º Forecasting Exponencial Smoothing...


Ejercicio practico de Machine Learning con Jupyter Notebooks, Anaconda y Python 3



Que mejor forma que aprender de Machine Learning, con algunas de las tecnologías mas potentes y completas, que mediante la realización de un buen ejercicio práctico. Podéis seguir el tutorial práctico en el video y también utilizar la presentación. Esperamos que os sea útil!! ...

4 ene. 2019

Nuevas funcionalidades de filtros avanzados para STReport


Si, hace apenas un par de meses os contábamos bastantes novedades en STReport, la mejor solución de reporting adhoc basada en open source, hoy os mostramos nuevas mejoras que le dotan de una gran potencia al nivel de las herramientas profesionales más utilizadas y que forma parte por ejemplo de la solución Big Data Analytics LinceBI

Os las mostramos en el siguiente video y más abajo, os las detallamos.




STReport dispone de un modo adicional para el manejo del filtrado (Advanced Filter). Cuando el modo Advanced Filter está habilitado la apariencia de la barra de herramientas cambia perdiendo la fila de Filtros.

Pero a cambio, la opción de filtrado obtiene funcionalidades adicionales. Principalmente, el filtrado avanzado tiene la habilidad de anidar filtros. En breve subiremos las nuevas funcionalidades a la Demo online para que lo podáis probar

El nuevo menú de filtros se descompone en tres secciones:
  •         Explorador del Modelo.
  •         Seleccionador tipo de filtro.
  •         Configurador del filtro seleccionado.



A continuación, se procede a explicar cada una de las secciones y el funcionamiento general del modo avanzado.

Explorador del Modelo: Obtiene las categorías y elementos del modelo seleccionado previamente.

Seleccionador tipo de filtro: el modo avanzado de filtrado permite seleccionar distintos tipos de filtros en los que se incluyen OR, OR NOT, AND y AND NOT

 

El funcionamiento habitual empieza con la selección del tipo de filtro y pulsando el botón añadir ( ).

Una vez declarado el tipo de filtro se puede arrastrar los elementos del modelo al filtro.
El botón eliminar( ) permite quitar objetos ya sean filtros declarados o elementos del modelo.

Para cambiar el tipo de filtro se debe recurrir al botón actualizar( ), el funcionamiento normal es elegir nuevo tipo de filtro seleccionar el filtro declarado previamente y pulsar actualizar.

Configurador del filtro seleccionado: la última sección realmente es el modo normal de filtrado existente 
Como información adicional, el modo avanzado muestra las condiciones establecidas para cada uno de los elementos incluidos en el filtro.


Finalmente, seleccionar Aplicar Filtros y se obtendrá el resultado pertinente al filtro declarado.