TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Quรฉ es una Arquitectura Medallรณn?

๐Ÿš€ La ๐—”๐—ฟ๐—พ๐˜‚๐—ถ๐˜๐—ฒ๐—ฐ๐˜๐˜‚๐—ฟ๐—ฎ ๐— ๐—ฒ๐—ฑ๐—ฎ๐—น๐—น๐—ผ๐—ป ๐—ฒ๐˜€ ๐˜‚๐—ป ๐—ฝ๐—ฎ๐˜๐—ฟ๐—ผ๐—ป ๐—บ๐—ผ๐—ฑ๐—ฒ๐—ฟ๐—ป๐—ผ ๐—ฑ๐—ฒ ๐—ผ๐—ฟ๐—ด๐—ฎ๐—ป๐—ถ๐˜‡๐—ฎ๐—ฐ๐—ถ๐—ผ๐—ป ๐—ฑ๐—ฒ ๐—ฑ๐—ฎ๐˜๐—ผ๐˜€ ๐—ฒ๐—ป ๐—ฑ๐—ฎ๐˜๐—ฎ ๐—น๐—ฎ๐—ธ๐—ฒ๐˜€ (y lakehouses) que se basa en dividir los datos en capas sucesivas: Bronze, Silver y Gold. Cada una representa un nivel de refinamiento o procesamiento.

๐Ÿฅ‰ ๐—–๐—ฎ๐—ฝ๐—ฎ ๐—•๐—ฟ๐—ผ๐—ป๐˜‡๐—ฒ โ€” "Guarda todo, ya lo limpiaremos"Quรฉ contiene: Datos crudos, tal y como vienen del origen. CSVs feos, JSONs medio rotos, logs, Kafka, APIs, IoT... todo entra aquรญ.Consejo: Guarda TODO, pero con control de versiones y particionado. Usa formatos columnar como Parquet aunque sean datos sucios. ยกNo seas salvaje!Tecnologรญas tรญpicas: Apache Spark, Delta Lake, S3, ADLS, Kafka para ingestiรณn...

๐Ÿฅˆ ๐—–๐—ฎ๐—ฝ๐—ฎ ๐—ฆ๐—ถ๐—น๐˜ƒ๐—ฒ๐—ฟ โ€” "Limpiamos lo que vale la pena"Quรฉ contiene: Datos filtrados, validados, con tipos correctos y relaciones coherentes. Aquรญ ya puedes hacer joins sin que te explote el clรบster.Consejo: Aplica control de calidad, deduplication, reglas de negocio simples. Usa notebooks para perfilado y PySpark o dbt para transformaciรณn.Pro tip: Aรฑade trazabilidad con Data Lineage desde esta capa. Herramientas como DataHub o OpenMetadata, que te van a ser de gran ayuda

๐Ÿฅ‡ ๐—–๐—ฎ๐—ฝ๐—ฎ ๐—š๐—ผ๐—น๐—ฑ โ€” "Esto ya es material de dashboard"Quรฉ contiene: KPIs, mรฉtricas agregadas, datasets listos para Power BI, Tableau, LinceBI o APIs para apps.Consejo: Aquรญ sรญ, intenta optimizar con todo: รญndices, particiones, Z-Ordering si usas Delta Lake, compresiรณn, cachรฉs. Porque los usuarios finales no quieren esperar 12 minutos por su grรกfico de ventas.Ejemplos: Ventas mensuales por regiรณn, churn rate, top productos.


โš™๏ธ Algunas ๐—ฟ๐—ฒ๐—ฐ๐—ผ๐—บ๐—ฒ๐—ป๐—ฑ๐—ฎ๐—ฐ๐—ถ๐—ผ๐—ป๐—ฒ๐˜€ ๐˜† ๐˜๐—ฟ๐˜‚๐—ฐ๐—ผ๐˜€:

- Usa Delta Lake o Iceberg para control de versiones y time travel entre capas. Es como tener Git para tus tablas.

- Orquesta con Apache Airflow o dbt Cloud: el control de dependencias entre capas evita "cascadas de desastre".

- Evita los infiernos de joins mal definidos: documenta tus claves primarias y forรกneas aunque estรฉs en un data lake.

- Testing de datos en Silver: frameworks como Great Expectations o SodaSQL son tus nuevas linternas anti-bugs.

- Security: controla accesos por capa. Bronze = casi nadie. Gold = analistas y negocio.

๐Ÿ”Ž ๐—ง๐—ฒ ๐—ฝ๐˜‚๐—ฒ๐—ฑ๐—ฒ ๐—ถ๐—ป๐˜๐—ฒ๐—ฟ๐—ฒ๐˜€๐—ฎ๐—ฟ:

- Arquitecturas de Datos (Azure, AWS, Google y Open Source), comparativa muy รบtil!! https://lnkd.in/dP5wk2gp

- Big Book of Data Warehousing and BI: https://lnkd.in/deJKPYMe

- Arquitectura 'Data Lake Open Source': https://lnkd.in/dDf_kyj4

- Diccionario de Arquitecturas de Datos: https://lnkd.in/dhwFuXct

- 15 recursos para aprender gratis Microsoft Fabric: https://lnkd.in/dz9NscJh