Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Curso de PowerBI. Totalmente práctico, aprende los principales trucos con los mejores especialistas

Imprescindible para el mercado laboral actual. Con Certificado de realización!!

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

27 jun. 2018

Haciendo funcionar un Cluster Hadoop



Os mostramos un ejemplo de como hacer funcionar un Cluster Hadoop con ejemplos y aplicaciones prácticas:




Se trata de un clúster Hadoop con la distribución de Hadoop de Hortonworks HDP 2.6.5, la cual es 100% open source e incluye las últimas versiones de Apache Hive, Spark, Kafka, Superset, Zeppelin y Druid. Además hemos instalado la herramienta para OLAP con Big Data Apache Kylin con la que hemos implementado algunas de nuestras demos de Big Data Analytics disponibles en Big Data Demos



El clúster está compuesto de 3 máquinas de 32 Gb de Ram y 8 cores, es decir, un total de 96 Gb de Ram y 24 cores disponibles para ser usados por los usuarios de las formaciones que imparten nuestros amigos de StrateBI 

LinceBI, the best Analytics/BigData open source based solution!!

As powerful as an enterprise version, with the advantages of being Open Source based. Discover LinceBI, the most complete Bussines Intelligence platform including all the functionalities you need


Dashboards
  • User friendly, templates and wizard
  • Technical skills is not mandatory
  • Link to external content
  • Browse and navigate on cascade dependency graphs
Analytic Reporting
  • PC, Tablet, Smartphone compatibility
  • Syncs your analysis with other users
  • Download information on your device
  • Make better decisions anywhere and anytime
Bursting
  • Different output formats (CSV, Excel, PDF, HTML)
  • Task scheduling to automatic execution
  • Mailing
Balance Scorecard
  • Assign customized weights to your kpis
  • Edit your data on fly or upload an excel template
  • Follow your key performance indicators
  • Visual kpis, traffic lights colours
  • Assign color coding to your threshold
  • Define your own key performance indicators
Accessibility
  • Make calculated fields on the fly
  • Explore your data on chart
  • Drill down and roll up capabilities
  • What if analysis and mailing

Adhoc Reporting
  • Build your reports easily, drag and drop
  • Models and languaje created to Business Users
  • Corporative templates to your company
  • Advanced filters
Alerts
  • Configure your threshold
  • Mapping alerts and business rules
  • Planning actions when an event happen
Check FAQs section for any question


Analytics en el Futbol


Cada vez son más los equipos de fútbol, agentes, entrenadores, periodistas, inversores y aficionados que echan mano del Business Intelligence y el Big Data, para sacar el mejor partido a los datos. Ahora, tenemos innumerables fuentes de datos con la que predecir y tomar decisiones.

Os contamos un poco más, pues afortunadamente, estamos pudiendo poner en la práctica, trabajando con equipos, todo lo mencionado:

- Por un lado, si recordáis, poníamos en segundo lugar de nuestro Ranking de películas sobre Analytics a 'Moneyball', que trata precisamente de esto mismo, pero aplicado al baseball

- Estamos colaborando como profesores en el Master de 'Experto en Análisis DEPORTIVO de Datos y BIG DATA' que organiza la Universidad de Valladolid, pionero en este ámbito

- Trabajamos con un buen amigo, Paco González, responsable del Master y cuyo enfoque podéis ver en esta entrevista en el Diario AS




- En TableroFutbolero podéis ver un buen ejemplo de aplicación de Analytics al Futbol, en este caso, hecho con software libre, si quieres ver un ejemplo con Tableau o con PowerBI, aquí puedes verlos también

Estos son algunas de las fuentes de datos que puedes manejar:

- Datos de Medios de comunicacion
- Redes Sociales
- Transfermarkt
- Datos de los servicios médicos de los equipos
- Datos de entrenamientos con o sin cámaras

Datos de empresas y proveedores de datos


1.- Opta Sports --> datos cuantitativos y cualitativos  con Widgets. Oficial de la liga y muy utilizados sus Widgets en Prensa
2.- Instat --> datos cuantitativos y cualitativos
3.- Stats Prozone --> Software para el análisis en vivo y post análisis de partido . Video, datos físicos (excepto en España),
4.- Tracab --> Empresa audiovisual que graba con cámaras y proporciona los ficheros de tracking
5.- Beemray --> Empresa que mide el impacto de la publicidad de las marcas en eventos deportivos
7.- Nacsport --> Software para análisis de videos deportivos, registro manual de los eventos de un partido.
8.- Wyscout --> Plataforma online con datos de scouting
9.- Er1c sports --> herramienta de scouting
10.- Metrica Sports --> Software de análisis audiovisual 
11.- Mediacoach --> Proveedor de datos físicos (velocidades, aceleraciones, distancia recorrida)





15 jun. 2018

Internet of Things (Timeline)


No dejéis de echar un vistazo a esta infografía. Muy útil!!

10 jun. 2018

11 Consejos sobre Bad Data: el enemigo silencioso en Business Intelligece y Big Data




Para todos los que llevamos un tiempo en esto del Business Intelligence, Big Data, Machine Learning, Analytics... vemos que se dedica mucho tiempo a hablar de las nuevas tecnologías, casos de uso, aplicaciones, etc... pero muy poco del verdadero problema y condicionante para lograr una exitosa implementación de estas tecnologías y proyectos: el Bad Data

Nuestro colaborador Emilio Arias, de Stratebi nos da unas pautas:

Como lo reconoces?

1) Son datos imprecisos, erróneos e incompletos que provocan problemas para lleva a cabo la estrategia de la empresa

2) Implica una mala toma de decisiones y una mala ejecución de las mismas

3) El coste del 'Bad Data', según estudios de IBM, les puede suponer a las empresas, hasta un 30% de los ingresos

4) En tu compañía no usas herramientas ETL (Integración, Transformación y Carga) o las usas mal, para mejorar los procesos de adquisición, depurado y limpieza de datos. Las hay open source (Pentaho Data Integration y Talend). El coste no será problema

5) Tu información está desestructurada, sin maestros (MDM te suena a chino) e información heterogénea no integrada

6) Querrías incluir datos de redes sociales, APIs, logs, IoT, etc... pero no sabes como distinguir el 'Bad Data' del 'Smart Data'

7) Querrías aplicar 'Machine Learning', pero sabes que con datos erróneos, cualquier algoritmo, por muy ajustado que fuera, te daría resultados sin confianza

8) Cada área, departamento o especialista de tu empresa tiene su propia metodología para aplicar criterios en cuanto a identificar el 'Bad Data'. Data Governance es un sueño idealizado para tí


9) 'Si metes basura, obtendrás basura'. Este aforismo ha funcionado muy bien en Analytics durante años. El problema ahora es que no consigues diferenciar la basura del resto. Se hace urgente poner en marcha una 'Planta de tratamiento de Residuos Analíticos' en tu organización. Funciona igual, separar basura de información útil

10) Querrías convertir el 'Bad Data' en 'Smart Data', pero ni siquiera sabes si esto es factible, cómo para saber lo que te costaría (tiempo y dinero)

11) Conoces los '7 magníficos' que puedes reconocer en el  'Bad Data'?

- Te faltan datos. No hay información, donde debería haberla
- Los datos son incorrectos ('no cuadra', seguro que os suena)
- Los datos no están bien ubicados. A veces, tenemos los datos correctos en origen, pero no los ubicamos correctamente
- Errores de entrada de datos: caracteres erróneos, abreviaturas, traducciones, etc...
- Datos duplicados. No siempre tiene que ser un error, a veces es algo tan trivial como una empresa que cambia de CIF y no actualizas
- Datos no revisados o aprobados. Mucha información requiere de la revisión y aprobación por parte de los responables
- Exceso de Datos. Sí, aunque no lo consideréis, si tenéis exceso de datos, se convierten en 'Bad Data'. Querer analizar cambios de estado de un asiento contable realizados en un día concreto... no suele proporcionar 'decisiones estratégicas'

Solución? En este Portal hablamos mucho de aplicar correctamente ETL, Data Quality, AgileBI, etc... pero lo más importante es 'perseverar' en dichas iniciativas 

El Bad Data nunca se va a acabar (que lo sepáis), es como cierta contaminación que siempre aparece, pero hay formas de reducirla, anticiparse y... casi, eliminarla


The Timeline of Statistics (Machine Learning)






Para todos los amantes de la estadistica, Machine Learning y Data Mining. 

Pincha y descargatelo!!




8 jun. 2018

STData (versioning), for Pentaho Data Integration

What is STData?

STData is simple, fast and focused on collaborative development, to maintain, manage and safeguard the vision of each of the multiple ETL projects that can be done with it, enabling the versioning


What is it for?

Based on the successful open source project, Pentaho Data Integration, STData stands out for being ideal for the coordination of development teams and the execution of processes, in large and small teams, where the dependency between integration systems must be minimal.

 

What problems does it solve?

The management and coordination of data integration processes development between the members of a team, departments and even between organizations.

How does it work?

Using the database manager of your choice, STData creates and safeguards each change made to the migration processes in a centralized repository, thus providing a single view of the state of development, gaining control and tranquility throughout the evolution of the processes to be deployed.
This repository can reside in either a local environment or in the cloud.

Contact for more info: info@stratebi.com