Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

LinceBI, la mejor solución Big Data Analytics basada en Open Source

LinceBI incluye Reports, OLAP, Dashboards, Scorecards, Machine Learning y Big Data. Pruébala!!

31 ene. 2019

STReport (Web Reporting Open Source based tool) Video Tutorials


You can see on this series of VideoTutorials, main features of STReport (best open source web reporting tool based, with no licenses and professional support included) and how it works

STReport is part of LinceBI Open Analytics solution

1. STReport (creating simple report using rows, groups, filters)

2. STReport (Models, exploring categories and glossary)

5. STReport (Formula Editor)


More info about STReport and how to use it:


Nuevas funcionalidades de filtros avanzados para STReport



Si, hace apenas un par de meses os contábamos bastantes novedades en STReport, la mejor solución de reporting adhoc basada en open source, hoy os mostramos nuevas mejoras que le dotan de una gran potencia al nivel de las herramientas profesionales más utilizadas y que forma parte por ejemplo de la solución Big Data Analytics LinceBI Os las mostramos en el siguiente video y más abajo, os las detallamos. STReport dispone de un modo adicional...


New features for STReport (open source based reporting tool)



The new version of STReport comes with interesting new features: STReport, which is part of the LinceBI suite and which integrates with Pentaho and many other solutions, you can see it in operation in the Online Demo.  New features: - Improvements in the visualization of statistics: New graphs have been introduced with Echarts. We remind you that to access this section is from the Pentaho Menu, View; STReport Statistics. - Search...


Novedades en la nueva version de STReport (open source based adhoc reporting)



La nueva versión de STReport viene con interesantes novedades. STReport, que forma parte de la suite LinceBI y que se integra con Pentaho y otras muchas soluciones, puedes verla en funcionamiento en la Demo Online Novedades: - Mejoras en la visualización de estadísticas: Se han introducido nuevas gráficas con Echarts. Os recordamos que para acceder a esta sección es desde el Menú de Pentaho, View-> STReport Statistics - Buscador...

Introducing STMonitoring for Pentaho



One of the things more useful when you are running a Pentaho production environment with a lot of users accessing the BI server, using reports, dashbords, olap analysis... is monitor the whole user performance.                             That´s why we´ve created STMonitoring (included free in all of the projects we help to develop and in some solutions, like LinceBI)....


Web Reporting open source based tool updated features



Some new features of one of 'our favourites tools' in analytics that you can use it for Adhoc web reporting for end users with no licenses and professional support You can use it 'standalone', with some BI solutions like Pentaho (check online Demo), suiteCRM, Odoo... or as a part of predefined solutions like LinceBI You can see STReport main new functionalities on this video including: - Graph support - Indentify cardinality of elements - Parameter...


Web Reporting open source based tool



Some new features of one of 'our favourites tools' in analytics that you can use it for Adhoc web reporting for end users.  You can use it 'standalone', with some BI solutions like Pentaho (check online Demo), suiteCRM, Odoo... or as a part of predefined solutions like LinceBI You can see STReport main new functionalities on this video including: - Graph support - Indentify cardinality of elements - Parameter filter for end users access -...


Create Dashboards in minutes with Open Source



Just a sneak preview of new functionalities we are including in Pentaho in order end user can create their own powerful dashboards in minutes. We call it STDashboard, by our colleagues of Stratebi. These new functionalities include: new templates, panel resize, drag and drop, remove and create panels, Pentaho 7 upgrade... As always and as other Pentaho plugins we´ve created (STPivot, STCard and STReport), they are free and included in all of...

29 ene. 2019

Los 25 errores que cometen las empresas al usar Analytics (Bussines Intelligence, Machine Learning y Big Data)


Muy interesante el articulo de Pedro Uría, sobre recomendaciones para la empresas al usar Analytics, en la misma linea de lo ya comentado por aquí en meses/años anteriores:



ESTRATEGIA:

1. Soñando que la analítica es una varita mágica plug & play que traerá un retorno de la inversión a muy corto plazo. Los modelos básicos de Excel bien ejecutados pueden haber traído ganancias rápidas en la década de 2000, pero los análisis avanzados requieren algo de tiempo. 

La analítica nunca es plug & play porque la conexión de datos en modelos es extremadamente larga, porque los aprendizajes no son transferibles entre empresas o mercados y porque requieren un alto OPEX en personas y un alto CAPEX en sistemas.

2. Resolver problemas que no merecen ser resueltos, lo que resulta en una pérdida de tiempo y recursos. El análisis no se trata de soluciones que buscan problemas, sino de problemas que buscan soluciones. 

Preguntas como "¿Qué podemos hacer con la cadena de bloqueo? "Cómo puedo resolver mi problema de marketing" es una pregunta que tiene sentido. El peor error del Jefe de Análisis de Datos es no tener una visión extremadamente clara de los principales retos y oportunidades a los que se enfrenta cada área funcional.



3. Confiar únicamente en proveedores o consultores para el análisis, especialmente en la creación de modelos. La autopsia de cómo las empresas fallan en el desarrollo de capacidades con consultores es la siguiente: el cliente contrata a un consultor para que entregue un proyecto y, al mismo tiempo, desarrolle capacidades internas. 

El cliente tiene expectativas demasiado poco realistas sobre el impacto del proyecto y los consultores nunca dicen "No" y sobrevenden el proyecto. El impacto no se materializa y un día el cliente le dice al consultor: "Si no obtienes algún impacto en el próximo mes, detendré tu contrato". Ese día, el desarrollo de capacidades muere oficialmente, si es que hubiera existido. RIP. Unos cuantos millones de dólares en el cubo de la basura. De todos modos, la analítica es el cerebro de la empresa. Trabajar con proveedores y consultores puede funcionar, pero hay que pensar bien la gobernanza.

4. No elaborar una lista completa de prioridades. Dado que sólo se puede contar con cinco dedos en una mano, por lo tanto, la gerencia debe escoger un máximo de cinco métricas en lugar de hacer que todo parezca importante.

5. Decir sí a peticiones aleatorias o accesorias, como proyectos de visualizaciones y reportes glamourosos que a menudo resultan en el síndrome de análisis-parálisis.



6. Asumiendo que no pagar por datos externos o subir a la nube es la solución para la privacidad y seguridad de los datos. Si bien existen algunas restricciones regulatorias en algunos sectores y países, y a veces incluso límites éticos, la monetización externa y la nube realizada correctamente no implican necesariamente riesgos de seguridad.


GENTE:

7. Organizar el análisis bajo áreas que no impulsan el negocio a diario, como la TI o la estrategia. La analítica sólo es poderosa si se combina organizativamente con las operaciones diarias. Debe ser organizado por negocio, no IT o Estrategia

8. Permitir que múltiples equipos de análisis florezcan con silos organizacionales entre ellos. Analytics necesita mantener una visión integrada del negocio.

9. Atraer el talento sólo a través de la compensación base. En cambio, es necesario construir un sentido de propósito, crear una poderosa marca de empleador y desarrollar el talento interno.

10. Contratar a un grupo de doctores que se esfuerzan por desarrollar modelos altamente complejos en lugar de soluciones rudimentarias direccionalmente correctas, por lo que no logran demostrar una visión procesable. Por lo tanto, contrate a estudiantes rápidos altamente entrenables (incluso si tienen un doctorado) .

11. Contratación de un Director Técnico de Análisis de Datos no técnico o viceversa. Necesita ser lo suficientemente técnico como para entrenar a su equipo y lo suficientemente orientado al negocio como para entender los problemas del negocio.

12. No traer expertos en dominios y consultores de negocio internos a los equipos de análisis para cerrar la brecha entre los líderes de negocio y los equipos de análisis para asegurar un viaje de punta a punta de idea a impacto.

13. Descuidar la creación de una cultura basada en datos a través del coaching activo en toda la organización, desde los agentes de ventas hasta el CEO, especialmente los agentes de ventas y el CEO.

14. No ser lo suficientemente objetivo y permanecer sesgado hacia el statu quo o el pensamiento de liderazgo. Los equipos de análisis profundamente integrados en las funciones de negocio o BUs son más propensos a tener estos problemas que los centralizados. Es por eso que algunas organizaciones crean equipos de control de calidad.




EJECUCIÓN:

15. No integrar la analítica en los modelos operativos y en los flujos de trabajo diarios. El uso de la analítica como parte de sus actividades diarias ayuda a los usuarios a tomar decisiones mejor informadas, a incorporar la retroalimentación de los consumidores en las soluciones y a iterar rápidamente nuevos productos; en cambio, muchos siguen confiando en los instintos.

16. No se trata de juntar por juntar a los científicos de datos con los equipos de negocios. De lo contrario, no se hablarán entre ellos.

17. Gestión de proyectos analíticos en cascada. Los parámetros de un modelo no se pueden conocer de antemano. Se determinan a través de un proceso iterativo que se parece más a un arte que a una ciencia. Por lo tanto, los proyectos analíticos deben ser iterativos siguiendo, por ejemplo, el Agile Framework.

18. No ser capaz de escalar los pilotos de análisis. Las compañías a menudo terminan matando los pilotos tan pronto como necesitan reasignar fondos para otras iniciativas a corto plazo.

19. Descuidar la gobernanza de los datos como un elemento fundamental. El gobierno de datos se refiere a la organización, los procesos y los sistemas que una organización necesita para gestionar sus datos de forma adecuada y coherente como un activo, desde la gestión de la calidad de los datos hasta el control de acceso o la definición de la arquitectura de los datos de forma estandarizada.





TECNOLOGÍA:

20. Intentar crear modelos de ciencia de datos sin refinar su infraestructura de ingeniería de datos: repositorios limpios, motores eficientes y procesos optimizados de transferencia de carga de extracción. La ingeniería de datos sin casos de uso reales para modelar también está mal. Tanto la modelización como la ingeniería deben ir en paralelo o de forma iterativa.

21. No utilizar ninguna de las siguientes tecnologías básicas: Hadoop, Spark, R, Python, una herramienta de visualización avanzada de su elección, y un sistema de informes granular de autoservicio abierto para toda la organización.

22. Disponer de silos tecnológicos entre los repositorios de datos, lo que dificulta la integración de diferentes tipos de datos en un modelo. El poder de la analítica aumenta exponencialmente con la diversidad de los datos.

23. No automatizar la analítica a través de la I.A., que puede ser un asistente extremadamente inteligente para los científicos de datos. Las automatizaciones de I.A. ayudan a los científicos a limpiar los datos, a comprobar su exactitud, a desplegar modelos, a detectar características de predicción relevantes y la obsolescencia de los modelos, o incluso a generar cientos o miles de variaciones de modelos. 
Con todo, la estrategia analítica del negocio tiene que ser un subconjunto de toda la estrategia de I.A. ya que los conjuntos de datos necesitan alimentar los sistemas de I.A.


FINANZAS:

24. No asignar suficiente presupuesto para las plataformas de análisis, pero aún así mantener las expectativas del sueño de Shangri-La. Y lo contrario es también un error, al asignar más que suficiente dinero que no tiene correlación directa con los resultados de las empresas.

25. No medir el ROI de las iniciativas de análisis. Sabemos que el ROI es a medio plazo, pero eso no significa que no lo mida.



Visto en Datasciencentral

25 ene. 2019

Microsoft compra CitusData



Comunicado de Microsoft con la compra de CitusData y su compromiso con el open source, apostando claramente por PostgreSQL:


"Yes, Citus really is Postgres. Not a fork, and not out of date. Citus is an extension to Postgres and stays in sync with the latest releases. So you can leverage your expertise in PostgreSQL and the Postgres ecosystem. And so you can take advantage of all the innovations in Postgres—including features like JSONB, PostGIS, HyperLogLog, and full text search"

Microsoft se compromete a construir una plataforma abierta que sea flexible y que ofrezca a los clientes la posibilidad de elegir la tecnología que mejor se adapte a sus necesidades específicas. 

Microsoft Azure Data Services son un gran ejemplo de un lugar donde hemos invertido continuamente en ofrecer opciones y flexibilidad con nuestros servicios de bases de datos relacionales de código abierto basados en la comunidad y completamente administrados, que abarcan MySQL, PostgreSQL y MariaDB. 

Esto se basa en nuestras otras inversiones de código abierto en SQL Server en Linux, una base de datos NoSQL multi-modelo con Azure Cosmos DB, y soporte para análisis de código abierto con los ecosistemas Spark y Hadoop. Con la adquisición de GitHub, seguimos ampliando nuestro compromiso de capacitar a los desarrolladores para que logren más en cada etapa del ciclo de vida del desarrollo.

Basándome en estas inversiones, estoy encantado de anunciar que hemos adquirido Citus Data, un líder en la comunidad PostgreSQL. Citus es una innovadora extensión de código abierto a PostgreSQL que transforma PostgreSQL en una base de datos distribuida, aumentando drásticamente el rendimiento y la escala para los desarrolladores de aplicaciones. 




Dado que Citus es una extensión de PostgreSQL de código abierto, ofrece a las empresas las ventajas de rendimiento de una base de datos horizontalmente escalable, a la vez que se mantiene al día con todas las últimas innovaciones de PostgreSQL. Citus está disponible como una base de datos totalmente administrada como un servicio, como software empresarial y como una descarga gratuita de código abierto.

Desde el lanzamiento del servicio de base de datos de Microsoft totalmente administrado y basado en la comunidad para PostgreSQL en marzo de 2018, su adopción ha aumentado. A principios de este mes, PostgreSQL fue nombrado el DBMS del año por los motores de DB, por segundo año consecutivo. La adquisición de Citus Data se basa en el compromiso de código abierto de Azure y nos permite proporcionar la escalabilidad y el rendimiento masivo que nuestros clientes demandan a medida que sus cargas de trabajo crecen.

Si quieres saber más sobre Bases de Datos Analíticas como CitusData, pregunta a los especialistas de Stratebi

24 ene. 2019

Python for Big Data

Este diagrama realizado con Xmind es muy útil y clarificador


Como y Donde aplicar Inteligencia Artificial



En esta infografía podéis ver los principales ámbitos de aplicación de la Inteligencia Artificial


Glosario de Inteligencia Artificial (AI)



Red neuronal artificial (RNA) Un algoritmo que intenta imitar al cerebro humano, con capas de "neuronas" conectadas que se envían información entre sí. Algoritmos de caja negra Cuando el proceso de toma de decisiones o la salida de un algoritmo no puede ser fácilmente explicado por el ordenador o el investigador detrás de él. Computer vision El campo de la I.A. se ocupa de enseñar a las máquinas a interpretar el mundo visual, es decir, a ver. Aprendizaje...


21 ene. 2019

Best Videotutorials about Big Data


Here you can find some of the best specialists of Big Data talking about the most important technologies



20 ene. 2019

Esta 'chuleta' para saber como usar y visualizar Analytics y Machine Learning es muy útil


En función de que datos o información quieras mostrar, te será muy útil

17 ene. 2019

Usando Python con PowerBI



Muy interesante la nueva funcionalidad que permite el uso de Python en PowerBI, que se añade a la ya conocida capacidad con R, que os comentábamos no hace mucho

En este artículo de Tommi Ranta explica paso a paso como preparar un entorno Python, habilitar Python en Power BI, importar datos y aplicar clustering a los datos y crear visualización personalizadas en Power BI utilizando Python. 

Todo el material necesario para replicar este ejemplo está disponible en GitHub

Eso sí, para ello tienes que tener algunos conocimientos previos de PowerBI y de Python



14 ene. 2019

Free whitepaper 'Big Data Analytics benchmark' for faster Business Intelligence performance


The use of Business Intelligence (BI) systems usually gets a very fast and interactive response when using dashboards, reports and detailed analytical queries. BI applications that meet this interactive processing requirement are known as OLAP (On-Line Analytical Processing) applications. 

However, when we work with data sources with Big Data features (Volume, Variety and Velocity), our metrics tables (e.g. sales volume, units...) and those tables that describe the context (e.g. date, customer, product) could store billions of rows, making the processing requirements very high, even for the most advanced Big Data technologies. 

**Download free 27 pages whitepaper ''Big Data Analytics benchmark' 
**Download free 27 pages whitepaper ''Big Data Analytics benchmark' 




In order to support OLAP applications with Big Data, multiple technologies that promise excellent results have emerged in recent years. Some of the best known are Apache Kylin, Vertica, Druid, Google Big Query or Amazon Red Shift





In this whitepaper we describe the Big Data OLAP technologies that are part of the benchmark: Apache Kylin and Vertica



Besides comparing these technologies against each other, we have also compared them with the relational database PostgreSQL

This open source technology, despite not being a Big Data database, usually offers very good results for traditional OLAP systems. Therefore, we considered worthwhile to include PostgreSQL in order to measure the differences of it against Kylin and Vertica in a Big Data OLAP scenario

LinceBI, open source based analytics solution, use this technologies for scalable and faster performance on Business Intelligence 




More Info:


OLAP for Big Data. It´s possible?



Hadoop is a great platform for storing a lot of data, but running OLAP is usually done on smaller datasets in legacy and traditional proprietary platforms.   OLAP workloads are beginning to migrate to the one data lake that is running Hadoop and Spark. Fortunately, there are a number of Apache projects that are starting to make OLAP possible on Hadoop.  Apache Kylin For an introduction to this interesting Hadoop project, check...



10 ene. 2019

Cuales son las novedades en Vertica 9.2?


The latest version of Vertica was released earlier this month and with it comes a host of new features. In Vertica 9.2, we introduced several new features including:
  • Eon Mode Updates
  • Management Console changes
  • Performance improvements
  • Upgrade and installation changes
  • Voltage SecureData updates

Info de Vertica y servicios en español (la mejor Base de Datos analítica)

Eon Mode Updates

The Eon Mode updates only affect users on AWS. You can now create branches of your Eon Mode database. A branch is a snapshot of your database that you revive like you would a regular Eon Mode database. Changes you make to a branch do not affect the master database. Currently, branches are data-immutable, meaning that you cannot perform an action on a branch that changes the underlying storage containers. The master database and branches share the same storage containers. Branches are useful for:
  • Creating a stand-in for your database while it is down for maintenance or upgrades.
  • Running analytics without impacting your database’s performance for other users. You can create several branches to execute costly queries in parallel and still maintain your database’s usual workload.
  • Perform tests of new queries in a sandbox environment before deploying them to your live database.
See Branching an Eon Mode Database for more information.

Management Console Changes

These Management Console updates only affect users on AWS. When you create or revive a Vertica cluster on AWS using Management Console, you can now select from a list of Vertica database versions with a Linux operating system. After your Vertica database is upgraded, you cannot downgrade your database later.
When you add one or more EC2 instances to scale up your Vertica cluster on AWS, you can now enter tag values for each instance. By default, Management Console pre-fills with tag values for the first existing instance. Tagging instances is optional.


Performance Improvements
In past releases, the optimizer used a fast plan to refresh a table with a single live aggregate projection (LAP). As of this 9.2, the optimizer applies the refresh operation on each table LAP as a separate transaction and applies the fast plan to each LAP. Doing so significantly reduces the total time required to refresh tables with multiple LAPs.
Vertica 9.2 also significantly reduces how much memory the database catalog consumes. It does this by consolidating the amount of metadata it maintains to track ROS storage containers.

Upgrade and Installation Changes

Vertica has removed support for pre-join and range segmentation projections. If a table’s only super-projection is one of these projection types, the projection is also regarded as unsafe. Before upgrading to a release higher than Vertica 9.0.x, you are strongly urged to check your database for unsupported projections.
Be sure to download and run the pre-upgrade script. You can download the script and obtain detailed information on its usage at this location: https://www.vertica.com/pre-upgrade-script/

Voltage SecureData Updates

The way you configure the Voltage SecureData changes in Vertica 9.2. In 9.2, the options that should be set globally for all users have been moved to a new function named VoltageSecureConfigureGlobal. To use the SecureData integration, you must set the SecureData Appliance’s policy URL using this function.
We hope you get started with these exciting new features! And keep a look out for our next What’s New blog that will come with the next release. These are the highlights, for information on additional new features, see Vertica 9.2.x New Features and Changes.

In This Guide

9 ene. 2019

Presentando Data Analytics Studio de Hortonworks



Data Analytics Studio (DAS) permite que los equipos informáticos se adapten a los requisitos del negocio al proporcionar herramientas de diagnóstico y recomendaciones inteligentes para que los analistas de negocio sean autosuficientes y productivos. 



DAS ayuda a los usuarios a realizar operaciones en tablas Hive y proporciona recomendaciones para optimizar el rendimiento de sus consultas. Con DAS, los analistas de negocio pueden buscar, redactar y ejecutar consultas, gestionar bases de datos para crear y editar tablas, ver informes y recomendaciones para optimizar el rendimiento de las consultas.




Reduzca rápidamente las consultas problemáticas en un clúster grande mediante informes y búsquedas predefinidos. 
Los analistas pueden buscar consultas ejecutadas en tablas de Hive en una base de datos y refinar aún más la búsqueda basándose en parámetros como el estado de la consulta, la cola a la que pertenece la consulta, el usuario de la consulta, las tablas leídas y escritas para la consulta y los modos de ejecución. 



Con DAS, los equipos informáticos y los analistas de negocio tienen una mayor visibilidad de:

     Informes de registro de consultas preintegrados
  • Consultas más costosas
  • Consultas a largo plazo
  • Archivos y tablas más utilizados
  • Uso de espacio por tabla, etc.
    Filtro y búsqueda de registros de consultas
  • Tablas que no utilizan estadísticas
  • Consultas no optimizadas en función del coste (CBO)