TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Apache Beam: Introducción

Apache Beam es un modelo unificado de código abierto para definir pipelines de procesamiento de datos por lotes o de streaming. Actualmente, Apache Beam SDK tiene soporte para tres lenguajes de programación: Java, Python y Go. Los pipelines se programan usando uno de los SDKs mencionados anteriormente y luego se ejecutan en uno de los back-ends soportados.

Descargar Paper: Introducción a Apache Beam

Apache Beam es muy útil a la hora de transformar datos independientes con mucho paralelismo, pero también se puede usar para ETLs e integración de datos.

Los Runners traducen el pipeline de procesamiento de datos creado con Beam en una API compatible con el back-end seleccionado. Apache Beam soporta los siguientes back-ends:

· Apache Flink

· Apache Nemo

· Apache Samza

· Apache Spark

· Google Cloud Dataflow

· Hazelcast Jet

En este paper usaremos Python