TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Que es Metatron Open Source Dashboards

1.  Introducción

Metatron Discovery es una plataforma end-to-end de análisis de datos desarrollada por la empresa de Corea del Sur SK Telecom. Su propósito es el de una herramienta BI tradicional, es decir, cargar, explorar y analizar grandes volúmenes de datos y representarlos visualmente en cuadros de mando.

** Si quieres ver más tutoriales, aquí los tienes recopilados

Es parcialmente open-source ya que la dispone de una versión comunitaria y otra Enterprise. La plataforma está basada en el motor de Apache Druid.  La versión comunitaria se puede obtener de tres maneras: Instalación local, cargar una imagen de VirtualBox o mediante Docker. La versión Enterprise se puede probar durante 30 días con todas sus funcionalidades una vez enviado el formulario que propone Metatron-Discovery.

2.  Instalación

Para poder probar laplataforma Metatron se ofrecen tres opciones:

·         Instalación local en nuestra máquina.

·         Cargar una imagen de VirtualBox.

·         Mediante Docker.

Para acceder a los pasos de la instalación local de la plataforma se puede consultar la documentación oficial en este enlaceo ver el video tutorialque han preparado en su canal de YouTube.

Una de las limitaciones que tiene la plataforma es que no está disponible para Windows, por lo que hay que realizar la instalación en Linux (Redhat o CentOS) o en MacOS.

En este caso, se abordará cómo procesar la instalación de Metatron desde un local con CentOS, donde previamente se debe tener JDK instalado y en el caso contrario habrá que instalarlo con los siguientes comandos:

yum -y update

yum install java-1.8.0-openjdk

Con el comando java -version se comprueba que la instalación del JDK se ha realizado correctamente.

Los pasos para la instalación deMetatron son los siguientes:

1.       Crear una carpeta metatron-druid y darle permisos de lectura, escritura y ejecución.

2.       El siguiente paso será descargar Druid, descomprimir el fichero en la raíz de la carpeta metatron-druid y ejecutar el script start-single.sh.

./start-single.sh

3.       Para verificar que todo ha ido correctamente, se accede a la siguiente url: http://localhost:8081

4.       Tras esto, se debe crear una carpeta metatron-discovery y darle permisos de lectura, escritura y ejecución.

5.       Posteriormente, hay que descargar Metatron dentro de la carpeta creada. Una vez descomprimido el archivo dentro de la carpeta, se accede al directorio bin y se ejecuta la plataforma con el script ./metatron.sh pasándole los argumentos –-init start:

./metatron.sh –-init start

6.       El acceso a la plataforma se realiza desde la URL: http://localhost:8180  con usuario y contraseña, admin / admin.

Si todo ha ido correctamente, debe aparecer la siguiente pantalla:

3.  Entorno metatron-discovery

Una vez dentro del entorno de Metatron Discovery se observa la siguiente interfaz.

1.       Menú lateral con tres opciones:

a.       Workplace: Espacio donde se encuentran todas las áreas de trabajo con los Dashboards que se han creado.

b.       Management: Es la opción a través de la cual se cargan, transforman y analizan los datos.

c.        Administration: Permite dar permisos a los diferentes usuarios para poder tener acceso como observadores o colaboradores en el desarrollo de los Dashboards.

2.       Editar perfil de usuario.

3.       Workbookes el módulo donde se puede visualizar los datos mediante los Dashboards. Un Workbook puede tener varios Dashboards independientes.

4.       Worckbenches el sitio donde a partir de una conexión de base de datos proporciona preparación y análisis basado en SQL.

5.       Área de trabajo con los Dashboards creados.

3.  Data Management

El manejo de datos que utiliza Metatron Discovery se realiza a través de los módulos Workbook, Notebook y Workbench.

Un Notebook es una herramienta que ofrece Metatron para crear y compartir documentos que incluyen código en vivo, ecuaciones, visualizaciones y textos descriptivos. Se utiliza principalmente para la limpieza y manipulación de datos, simulaciones numéricas, modelado estadístico y machine learning.

Los source data o fuente de datos que ofrece Metatron Discovery son:

·         Ficheros: Los tipos de ficheros que se pueden subir son: xls, xlsx y CSV.

·         Staging DB:  Es un almacenaje intermedio que se utiliza en el procesamiento de ETL para almacén de datos en bruto desde las fuentes origen.

·         Conexiones externas a bases de datos: Las posibles conexiones son: MySQL, PostgreSQL, Hive, Presto, Druid, Oracle y SQL Server.

Los Dataset son en el lugar donde se añaden las diferentes fuentes de datos que queremos unificar y procesar. Por su parte, los Dataflow permiten procesar la transformación entre las diversas fuentes de datos.

5.  WORKSPACE

Un Workspace o área de trabajo es el lugar donde se van a crear y visualizar los cuadros de mando creados. En un Workspace se pueden crear varios cuadros de mandos y también pueden estar compartidos entre varios usuarios o ser de uso privado.

La interfaz del Workspace se puede observar en el capítulo 3.

Un Workbook es un módulo de visualización de datos impulsado por el motor Metatron Druid. Los posibles elementos gráficos que se pueden utilizar en los cuadro de mando se pueden consultar en el siguiente enlace. En este enlace se incluye una recomendación de cuándo se puede utilizar cada elemento gráfico y un ejemplo.

Al abrir un Workbook se pueden observan dos partes principales, el menú lateral de la izquierda donde se pueden crear y figuran todos los Dashboards, y a la derecha la visualización de estos con la opción de editarlos.

En esta captura se puede observar que la herramienta ofrece la posibilidad de crear cuadros de mando con distintas gráficas, para más información se puede consultar la propia documentación de Metatron en el siguiente enlace.

Para la creación de estas gráficas se ha utilizado la base de datos mencionada más adelante en el punto 6.2. El primer gráfico en un gráfico de dispersión en el que se posicionan los equipos de fútbol teniendo en cuenta sus goles totales y sus partidos jugados, y el segundo es un diagrama de barras donde se muestra la suma total de goles que se han encajado en cada liga.

6.  PRUEBAS DE RENDIMIENTO

El objetivo de estas pruebas es ver como responde esta herramienta ante grandes volúmenes de datos, para ello se va a observar si es capaz de cargar archivos muy pesados y tablas de datos con gran cantidad de filas y columnas.

6.1 Instalación y despliegue

Para realizar una prueba sobre una base de datos se debe disponer de una versión con todas las características, no es el caso de la que viene incluida en la Máquina Virtual (VM) de trial. Por lo que se tiene que instalar la versión open-source que Metatron ofrece en su GitHub. Aclarar que también se dispone de una imagen para utilizar Metatron en Docker que no se ha probado.

Recordar que Metatron no es compatible con Windows por lo que para estas pruebas se va a realizar su instalación en una VM con CentOS, ya que tampoco funciona con el subsistema de Linux (WSL) para Windows 10. La ISO del sistema operativo se puede descargar aquí y para su instalación se puede ayudar de este vídeo.

Una vez desplegada la máquina virtual con CentOS, y como se señala en el capítulo 2, verificar que se tiene instalado JDK 1.8 e instalar Metatron como indica en este vídeo tutorial.

Para poder abrir Metatron desde el local hay que configurar los puertos de la VM. Desde VirtualBox Manager, en Settings > Network, se debe pinchar en Advanced, después en Post Forwardingy se incluye una regla.

Por último, dentro de la VM y en la terminal hay que abrir los puertos del Firewall usando estos comandos:

{YOUR_PORT} se sustituye por el puerto que se ha introducido en la regla de Post Forwarding.

sudo firewall-cmd --permanent --zone=public --add-port={YOUR_PORT}/tcp

Y se reinicia el Firewall.

sudo firewall-cmd --reload

Para esta prueba se ha probado a cargar una serie de ficheros o la conexión con una base de datos MySQL local, pero se han encontrado fallos, por lo que se ha utilizado una base de datos PostgreSQL de un servidor remoto con la que la herramienta no mostraba fallos de conexión.

6.2 Base de datos para las pruebas

Para las pruebas se ha utilizado una base de datos ya testada, concretamente la base de datos en PostgreSQL de Sports Analytics.

Esta base de datos es un Data Warehouse que sigue un modelo en estrella para analizar jugadores y equipos de fútbol. En la siguiente captura se puede observar su estructura.

6.3 Pruebas realizadas sobre una VM con CentOS 8

Paso 1. Carga de datos: En Management > Data Storage > Datasource se añade la conexión y las tablas/datos que se quieren analizar.

Paso 2.Tratamiento de datos. Una vez seleccionada la fuente de datos, la herramienta permite modificar estos datos de forma simple. Se puede cambiar el tipo de datos y sustitución de nulos.

Metatron también incorpora una herramienta simple de procesos ETL en Management > Data Storage que permite modificar tablas de manera individual, de forma completa y sin utilización de código.

Paso 3. Crear un Workbook desde el Workspace, en el que se utilizaran los datos cargados previamente para crear Dashboards.

Durante esta prueba, la herramienta no ha respondido correctamente ante tablas con gran número de columnas, se ha intentado cargar tablas con miles de filas y varias decenas de columnas, pero se han producido errores o no se termina de procesar la carga. En cambio, si se reduce el número de columnas, los datos sí cargan correctamente.

Tras diversas pruebas se ha conseguido cargar correctamente un máximo de 11 columnas con 14816 filas, cuando la base de datos original disponía de 114 columnas.

En esta captura se puede ver un ejemplo de un Dashboard donde figura un gráfico de dispersión con los datos utilizados, en el que se posicionan los equipos de fútbol teniendo en cuenta sus goles totales y sus partidos jugados.

6.4 Pruebas realizadas en el servidor de pruebas de Metatron

Metatron en su propia página web ofrecen un servidor donde los usuarios pueden tener una primera toma de contacto y realizar algunas pruebas con la aplicación. Se puede acceder a él en este enlace.

Como se ha tenido problemas en el apartado anterior y con la máquina virtual no se podían cargar archivos desde el local se ha utilizado este servidor para ver como la herramienta responde ante archivos de un peso importante.

Para ello se han utilizado archivos CSV de distinto tamaño que se han creado transformando, mediante un proceso ETL, una tabla con millones de filas.

La herramienta se ve incapaz de procesar ficheros CSV de un peso importante como se muestra en la siguiente captura.

7.  CONCLUSIONES

Como pros de la plataforma señalar que una vez instalada esta es bastante intuitiva ya que cada elemento se identifica fácilmente.

Uno de los principales inconvenientes de la plataforma es su configuración ya que para Windows no está disponible, la imagen virtual de la plataforma que ofrecen para VirtualBox está incompleta y la única manera de poner en marcha la herramienta es en Linux (Redhat o CentOS) o a través de Docker.

Aunque la herramienta se anuncia con la capacidad de manejar grandes volúmenes de datos durante las pruebas realizadas se han encontrados distintos problemas que contradicen esto, pudiendo trabajar únicamente con datos muy simples.