Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

6 dic. 2018

Todas las presentaciones y videos del Pentaho Community Meeting (PCM18) en Bolonia


Hace unos días, os detallábamos todo lo que había pasado en el evento anual de Pentaho. Hoy os traemos todas las presentaciones (tanto las grabaciones de las ponencias como las propias presentaciones). Un gran material!!!




















Toda la info desde la web de Hitachi Vantara

Se busca Analytics Front End Developer (Dashboard Samurai)


Nuestros compañeros de Stratebi (expertos en Data Analytics y creadores de LinceBI) están buscando un/a Dashboard Samurai (Analytics Frontend Developer)

Tu camiseta te está esperando. Escribe!!

Conocimientos Mínimos:
- HTML5
- CSS
- Javascript
- Bootstrap
- JQuery
- JSON
- APIs RestFul
- SQL
- Git

Conocimientos Recomendados:
- Chart.js
- D3.js
- Angular.js
- Leaflet.js
- Require.js
- Vue.js


Retribución:
- Según experiencia y conocimientos
- Se valorará el interés en conocer y aprender nuevos frameworks y tecnologías
- Habituado/a a trabajar con tecnologías open source
- Conocimientos de diseño gráfico
- Se valorará interés en aprender Big Data y Machine Learning

Ubicación:
- Se valorará presencial en Madrid y Barcelona 
- También la posibilidad de trabajo remoto 

New Pentaho Roadmap and Pentaho 8.2 available for download


Pentaho 8.2 its available!!! Download it, check all new features

Here you have fresh news about future Pentaho roadmap: Pentaho, 8.2, Pentaho 9 thanks to our friend Nelson Sousa, @UbiquisBI





Hace 8 ho

1 dic. 2018

Resumen del Pentaho Community Meeting (PCM18) en Bolonia


Durante los pasados días 23, 24 y 25 de Noviembre se ha celebrado la 11ª edición del Pentaho Community Meeting en Bolonia (Italia). Estuvimos allí y tenemos muchas cosas que contaros.

Se trató de la edición que contó con un mayor número de inscritos, cerca de 300 fans de Pentaho y nos hicimos con nuestra camiseta de la 11ª edición, para sumar a la colección

El evento se realizó además en un palacio, un punto todavía más espectacular en una ciudad muy recomendable. En este evento de 3 días no faltaron los Hackathons, cervezas, visitas turísticas, más cervezas.... que pueden acabar así:




Agenda:

En este enlace tenéis la Agenda de las más de 20 ponencias realizadas, divididas en sesiones generales (al comienzo) y Business and Technical tracks



Para tener un detalle de todo lo que se contó en el PCM18, nuestros amigos de IT-Novum, nos lo han detallado muy bien en su blog. Gran trabajo!!

Ver todo el hilo del PCM18 en twitter



Nuestros compañeros de Stratebi fueron la única empresa española representada (han estado en todos los PCM desde el comienzo), incluso con una ponencia sobre Big Data OLAP 




Muchos de los ponentes han ido compartiendo sus presentaciones, aquí os dejamos algunas de ellas:

Presentación de Matt Casters (creador de Kettle)




Presentación de Raimonds Simanovskis



Pedro Alves presentando el roadmap de Pentaho con muchas novedades muy interesantes (por cierto, la versión 8.2 está a punto de salir)













Presentación de Bart Maertens



22 nov. 2018

Curso de PowerBI, no te lo pierdas!!



Power BI es un conjunto de aplicaciones de análisis de negocios que permite analizar datos y compartir información. ¡Es la solución perfecta destinada a la inteligencia empresarial! (3 y 4 de Diciembre)

Conoce sus características técnicas



Con Power BI podrás crear potentes informes utilizando diferentes fuentes de datos: SAP HANA, MySQL, Teradata, IBM DB2, Dynamics Navision, CRM, SQL. Archivos de Excel, .CSV, JASON o descargar datos procedentes de servicios en línea como Facebook, Google Analytics, CRM de Salesforce, Marketo, MailChimp...

Curso Online de Power BI (temario y registro)


Fecha: Del 3 de dic. al 4 de dic. de 2018
Horario: 15:00 h - 21:00 h ( CEST - Madrid)
Lugar: Plataforma web con profesor 100% del tiempo



Big Data para PowerBI



Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy.  Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características...


Working together PowerBI with the best open source solutions



Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...


12 nov. 2018

Las 25 mejores visualizaciones de 2018


Muy interesantes, echad un vistazo (Ver visualizaciones):

Visto en towards data science

9 nov. 2018

Curso de Machine Learning en Madrid (15 y 16 de Noviembre)

Si estás por Madrid los próximos jueves y viernes (15 y 16 de Noviembre), no te pierdas este curso, eminentemente práctico que organizan nuestros compañeros de Stratebi. Web del Curso (temario, metodología e inscripción)















 Público objetivo

  • Profesionales TIC: Consultores BI, Científicos de Datos...
  • Profesionales de Negocio: Que quieran reorientar su carrera profesional o tener los conocimientos necesarios para aplicar en sus empresas
  • Profesionales de Ciencias Aplicadas o Económicas: Matemáticos, Estadísticos, Físicos, Económicas, Empresariales, Técnicos, Informáticos...

 Observaciones

  • Metodología: El curso intercala partes teóricas en las que se imparten conceptos fundamentales para comprender los ejercicios prácticos que se imparten.
  • Requerimientos: Conceptos básicos de: Álgebra Linea y Cálculo. Los asistentes deberán venir con su propio equipo portátil
  • Entrega de Certificado: Todos los asistentes recibirán Certificado de Realización


 Temario

1. Introducción al Machine Learning

  • Técnicas
    • Clasificación
    • Regresión
    • Clustering
  • Preprocesamiento y Reducción dimensional
  • Selección de atributos
  • Evaluación del rendimiento
    • Matrices de confusión
    • Principales KPIs R2, MAE, MSE

2. Regresión (Predicción de valores continuos)

  • Principales algoritmos 
    • Ordinal Least Squares
    • Ridge Regression
    • Laso Regression
    • Elastic Net
  • Ejemplos

3. Clasificación (Identificación de la categoría a la que pertenece un objeto)

  • Principales algoritmos 
    • Logistic Regression
    • Support Vector Machines
    • KNearest Neighbors
    • Decision Trees
    • Random Forest
    • Multi-layer Perceptron
  • Ejemplos

4. Clustering (Agrupación de objetos similares en conjuntos)

  • Principales Algoritmos
    • KMeans
    • Spectral Clustering
    • DBSCAN
  • Ejemplos
Formación Machine Learning con Scikit-Learn librería Data Science (Anaconda con Python 3

29 oct. 2018

Que tipo de gráfico te gusta más?


New features for STReport (open source based reporting tool)


The new version of STReport comes with interesting new features:

STReport, which is part of the LinceBI suite and which integrates with Pentaho and many other solutions, you can see it in operation in the Online Demo


New features:


- Improvements in the visualization of statistics: New graphs have been introduced with Echarts. We remind you that to access this section is from the Pentaho Menu, View; STReport Statistics.





- Search for fields in categories: Allows you to filter the fields of the categories.



Info. About: New taskbar icon informs about tool version and compilation date



New possibilities of visualization and data export: Both in edit mode and in run mode, it has been added the possibility of exporting data to Excel without the template format. 
In other words, only data without logo, sections of the report are exported... In addition, the possibility of displaying the data in table form also in run mode has been introduced (in edit mode it was already possible to do so)



Minor bugs/improvements resolution: New multi-language labels added, revised formula definition, problems rendering STReport in an iframe, problems resizing browser window, date field filters...

27 oct. 2018

Glosario de Inteligencia Artificial (AI)


Red neuronal artificial (RNA)
Un algoritmo que intenta imitar al cerebro humano, con capas de "neuronas" conectadas que se envían información entre sí.

Algoritmos de caja negra
Cuando el proceso de toma de decisiones o la salida de un algoritmo no puede ser fácilmente explicado por el ordenador o el investigador detrás de él.

Computer vision
El campo de la I.A. se ocupa de enseñar a las máquinas a interpretar el mundo visual, es decir, a ver.

Aprendizaje profundo (Deep Learning)
RNAs que tienen múltiples capas de neuronas conectadas. Esto hace que el proceso sea más profundo en comparación con las redes anteriores, más superficiales.




Embodied I.A. 
Una forma elegante de decir "robots con capacidad de inteligencia artificial".

Few-shot learning
La mayoría de las veces, los sistemas de visión artificial necesitan ver cientos o miles (o incluso millones) de ejemplos para descubrir cómo hacer algo. El aprendizaje de una sola vez y de pocas veces trata de crear un sistema que puede ser enseñado a hacer algo con mucho menos entrenamiento. Es similar a cómo los niños pequeños pueden aprender un nuevo concepto o una nueva tarea.

Redes generativas adversarias
También llamadas GANs, son dos redes neuronales que se entrenan con el mismo conjunto de datos de fotos, videos o sonidos. 
Luego, uno crea un contenido similar mientras que el otro intenta determinar si el nuevo ejemplo es parte del conjunto de datos original, forzando al primero a mejorar sus esfuerzos. Este enfoque puede crear medios realistas, incluyendo obras de arte.



Aprendizaje automático (Machine Learning)
Sistemas que aprenden de los conjuntos de datos para realizar y mejorar una tarea específica. Es el área actual de I.A. que está experimentando el mayor auge de la investigación.

Procesamiento del lenguaje natural
La disciplina dentro de la I.A. que trata con el lenguaje escrito y hablado.

Aprendizaje de refuerzo
Un proceso en el que las máquinas aprenden a realizar una nueva tarea como lo hacen los humanos - a través de un sistema de recompensas y castigos - comenzando como un novato y mejorando con la práctica y la retroalimentación.

Aprendizaje supervisado
Una técnica que enseña un algoritmo de aprendizaje de máquina para resolver una tarea específica utilizando datos que han sido cuidadosamente etiquetados por un humano. Los ejemplos cotidianos incluyen la mayoría de las predicciones meteorológicas y la detección de spam.

Aprendizaje de transferencia
Este método intenta tomar los datos de entrenamiento utilizados para una cosa y reutilizarlos para un nuevo conjunto de tareas, sin tener que volver a entrenar el sistema desde cero.

Aprendizaje sin supervisión
Un enfoque que proporciona datos de I.A. sin etiquetar y tiene que darle sentido sin ninguna instrucción. En esencia, es cuando las máquinas "se enseñan a sí mismas".

I.A. explicable (X.A.I.)
A.I. que puede decir o mostrar a sus operadores humanos cómo llegó a sus conclusiones.

I.A. débil.
Nuestro nivel actual de I.A., que puede hacer sólo una cosa a la vez, como jugar al ajedrez o reconocer razas de gatos. Lo contrario sería una I.A. fuerte, también conocida como inteligencia general artificial (I.G.A.), que tendría la capacidad de hacer cualquier cosa que la mayoría de los humanos puedan hacer.


Para saber (mucho) más:


Machine Learning Demo Tutorial



En este demo tutorial (que puedes probar directamente en el enlace anterior), se han utilizado los datos de la cadena de heladerías para predecir las ventas en función de ciertas variables como el calendario laboral, la temperatura o el número de horas de apertura.  Para su implementación se ha seleccionado el algoritmo de regresión GBT (árboles potenciados por gradiente) y se ha utilizado la tecnología Apache Spark que permite...


Como hacer Deep Learning con Pentaho



Hace ya unas semanas os hablábamos de como Pentaho Data Integration podía orquestar los procesos de Machine Learning (lo que llamábamos Machine Intelligence) Hoy damos un paso más, y os contamos como hacer 'deep learning con Pentaho' En breve, Pentaho va a presentar una evolución de Pentaho Machine Intelligence.  Este otoño, se lanzará la versión 1.4 de PMI como una actualización del PMI existente, que es un complemento experimental para...


Ranking de las mejores 50 peliculas y series sobre Analytics e Inteligencia Artificial



Hemos hecho una recopilación, para todos los apasionados del Analytics, Machine Learning y Big Data. Un ranking de las películas y series que, de uno y otro modo, tocan temas que nos gustan en esta web y esperamos que también os gusten a vosotros Es una lista amplia, incluye películas sobre computacion, biografías de personajes ilustres, de inteligencia artificial, infantiles, de humor, series, documentales, de animación y, en general, que...

Como Pentaho ayuda a los cientificos de datos



Hace ya algunas semanas os veníamos comentando sobre las mejoras que estaba realizando Pentaho para facilitar la creación y ejecución de Machine Learning.  También os hablábamos de como habían introducido el concepto de Machine Intelligence Hoy, vamos un paso más allá y tras la celebración del reciente evento HitachiNext, en donde se dieron una pinceladas muy interesantes en lo que respecta a como Pentaho facilita y ayuda al uso de...

Videotutorial: Usando R para Machine Learning con PowerBI



Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial: Temario del Videotutorial: 1º Posibilidades de R dentro de Power BI  2º Instalar R y RStudio  3º Matriz de Correlación para el sector Retail  4º Árbol Decisión Titanic  5º Clustering K-Means Estados Unidos  6º Clustering DBSCAN Estados Unidos para detectar Outliers  7º Forecasting Exponencial Smoothing...


Ejercicio practico de Machine Learning con Jupyter Notebooks, Anaconda y Python 3



Que mejor forma que aprender de Machine Learning, con algunas de las tecnologías mas potentes y completas, que mediante la realización de un buen ejercicio práctico. Podéis seguir el tutorial práctico en el video y también utilizar la presentación. Esperamos que os sea útil!! ...


Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning



Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que: i), no requieren programación ni instalación,  ii), son más eficientes que otras opciones como la integración con Python/Pandas,  iii) se aplican sobre tablas o vistas,  iv) implementan los algoritmos...


Formacion Data Engineer: Machine Learning con Spark



Uno de los capítulos más interesante del curso 'Curso de Data Engineers', de nuestros compañeros de Stratebi es el 11. Machine Learning con Spark Este curso incluye ejercicios prácticos sobre nuestro Cluster. Os dejamos unas pinceladas del contenido de este capítulo: ...

Las mejores APIs para Machine Learning



Face and Image Recognition Animetrics Face Recognition:  Betaface:   Eyedea Recognition:  Face++:  FaceMark:  FaceRect:  Google Cloud Vision API:  IBM Watson Visual Recognition:  Kairos: Microsoft Cognitive Service - Computer Vision:  Rekognition:  Skybiometry Face Detection and Recognition:  Text Analysis, NLP, Sentiment Analysis Bitext  Diffbot Analyze:  Free Natural...


Curso en Madrid de Machine Learning



13, 14 de Junio, Madrid Hace poco os contábamos en detalle sobre Machine Learning, ahora os proponemos la posibilidad de formaros en este interesante y eminentemente práctico Curso presencial en Madrid, para aprender sobre lo que allí os contábamos Echa un vistazo a algunos ejemplos de de aplicación en Big Data Son plazas limitadas, por lo que no lo dejéis escapar Inscripcion ...


Que algoritmo de Machine Learning elegir para cada problema?



Dado que existen muchos algoritmos, como hemos venido contando ultimamente, (si quieres asistir a un Curso, mira al final del post) os vamos a dar unas pistas para ayudaros:  1. Cuando usar Machine Learning Lo primero que tenemos que tener en cuenta es que, aunque hablar y usar Machine Learning es una tendencia y es 'cool', debemos ser conscientes de que sea de utilidad. Hemos visto que los Data Scientist están de moda pero muchos abandonan...

Por que muchos Data Scientist estan dejando sus trabajos?



Muy revelador lo que nos cuentan en este articulo del Towards Data Science, y que coincide con muchas situaciones y casos reales que conocemos y que se están produciendo. La frustración con el día a día del trabajo de los Data Scientist, respecto a las expectativas es importante (muchos conocéis que es llamado 'el trabajo más atractivo del siglo XXI'). La realidad es que muchos abandonan sus puestos de trabajo en grandes compañías, cuando parecían...



Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics



Se acaba de presentar Machine Intelligence: el plugin para Pentaho Data Integration que facilita enormemente la ejecución de algoritmos sobre tecnologías Machine Learning, orquestados desde un completo entorno gráfico ETL Gracias a este plugin puedes convertir algoritmos de machine learning en 'steps' de PDI desde R, Python, Spark y Weka Gracias a este plugin consigues de forma sencilla: Hacer Machine Learning mucho más sencillo de...



Los 30 mejores proyectos de Machine Learning Open Source



Como sabéis, el Machine Learning es uno de los temas que más nos interesan en el Portal y, máxime, cuando gran parte de las tecnologías son Open Source. En esta entrada, os indicamos los 30 proyectos más interesantes en en este año. Os dejamos también el material que publicamos con las claves del Machine Learning y una introducción Ver también, VideoTutorial No 1 FastText: Library for fast text representation and classification....

Visto en NYTimes