Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 8 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

Aprende gratis Analytics OLAP sobre Pentaho

La solución open source para business intelligence y Big Data sobre Pentaho, no te lo pierdas!!

10 jun. 2018

11 Consejos sobre Bad Data: el enemigo silencioso en Business Intelligece y Big Data




Para todos los que llevamos un tiempo en esto del Business Intelligence, Big Data, Machine Learning, Analytics... vemos que se dedica mucho tiempo a hablar de las nuevas tecnologías, casos de uso, aplicaciones, etc... pero muy poco del verdadero problema y condicionante para lograr una exitosa implementación de estas tecnologías y proyectos: el Bad Data

Nuestro colaborador Emilio Arias, de Stratebi nos da unas pautas:

Como lo reconoces?

1) Son datos imprecisos, erróneos e incompletos que provocan problemas para lleva a cabo la estrategia de la empresa

2) Implica una mala toma de decisiones y una mala ejecución de las mismas

3) El coste del 'Bad Data', según estudios de IBM, les puede suponer a las empresas, hasta un 30% de los ingresos

4) En tu compañía no usas herramientas ETL (Integración, Transformación y Carga) o las usas mal, para mejorar los procesos de adquisición, depurado y limpieza de datos. Las hay open source (Pentaho Data Integration y Talend). El coste no será problema

5) Tu información está desestructurada, sin maestros (MDM te suena a chino) e información heterogénea no integrada

6) Querrías incluir datos de redes sociales, APIs, logs, IoT, etc... pero no sabes como distinguir el 'Bad Data' del 'Smart Data'

7) Querrías aplicar 'Machine Learning', pero sabes que con datos erróneos, cualquier algoritmo, por muy ajustado que fuera, te daría resultados sin confianza

8) Cada área, departamento o especialista de tu empresa tiene su propia metodología para aplicar criterios en cuanto a identificar el 'Bad Data'. Data Governance es un sueño idealizado para tí


9) 'Si metes basura, obtendrás basura'. Este aforismo ha funcionado muy bien en Analytics durante años. El problema ahora es que no consigues diferenciar la basura del resto. Se hace urgente poner en marcha una 'Planta de tratamiento de Residuos Analíticos' en tu organización. Funciona igual, separar basura de información útil

10) Querrías convertir el 'Bad Data' en 'Smart Data', pero ni siquiera sabes si esto es factible, cómo para saber lo que te costaría (tiempo y dinero)

11) Conoces los '7 magníficos' que puedes reconocer en el  'Bad Data'?

- Te faltan datos. No hay información, donde debería haberla
- Los datos son incorrectos ('no cuadra', seguro que os suena)
- Los datos no están bien ubicados. A veces, tenemos los datos correctos en origen, pero no los ubicamos correctamente
- Errores de entrada de datos: caracteres erróneos, abreviaturas, traducciones, etc...
- Datos duplicados. No siempre tiene que ser un error, a veces es algo tan trivial como una empresa que cambia de CIF y no actualizas
- Datos no revisados o aprobados. Mucha información requiere de la revisión y aprobación por parte de los responables
- Exceso de Datos. Sí, aunque no lo consideréis, si tenéis exceso de datos, se convierten en 'Bad Data'. Querer analizar cambios de estado de un asiento contable realizados en un día concreto... no suele proporcionar 'decisiones estratégicas'

Solución? En este Portal hablamos mucho de aplicar correctamente ETL, Data Quality, AgileBI, etc... pero lo más importante es 'perseverar' en dichas iniciativas 

El Bad Data nunca se va a acabar (que lo sepáis), es como cierta contaminación que siempre aparece, pero hay formas de reducirla, anticiparse y... casi, eliminarla


0 comentarios: