馃殌 Me podr茅is llamar 'pesado', pero para crear completas y complejas Arquitecturas de Datos en Producci贸n, incluso en la 'Era AI' y 'Cloud Native', hay que tener muy claros los conceptos fundamentales
Veo a menudo, tanto en 'roles anal铆ticos de entrada', como en 'roles altos de IT', que se pierde el foco en lo que es 'Analizar informaci贸n de valor'
Hay muchos tipos de Arquitecturas de Datos nuevas, por aqu铆 lo cuento, https://lnkd.in/e-fk8cTF, pero 'back to basics' 馃槉
1. Definici贸n de Data Warehouse (DW) y Data Mart: El DW e es un repositorio unificado, f铆sico o l贸gico, que recopila datos de los diversos sistemas de una empresa con fines principalmente anal铆ticos. Un DM es un subconjunto de datos dise帽ado para ayudar a un 谩rea espec铆fica del negocio a tomar mejores decisiones
2. Caracter铆sticas del Data Warehouse: Incluyen estar orientado a temas (organizado por 谩reas de negocio), ser integrado (procedente de diferentes fuentes), ser variable en el tiempo (registra periodos incrementales de datos) y ser no vol谩til (los datos se a帽aden, no se actualizan ni se modifican)
3. Dimensiones: Representan los conceptos desde los que se analizan los hechos y responden a las preguntas 驴QUI脡N, D脫NDE, CU脕NDO?. Contienen los descriptores textuales de los hechos y se encuentran en tablas separadas. Ejemplos comunes incluyen Fecha, Pa铆s y Cliente
4. Hechos: Representan aquello que se quiere medir, respondiendo a la pregunta 驴QU脡?. Almacenan datos num茅ricos e Indicadores Clave de Rendimiento (KPIs) y constituyen la tabla central en un modelo multidimensional. Estas tablas tienden a crecer "a lo alto" (a帽adiendo nuevos sucesos), no a lo ancho
5. Importancia de la Granularidad: Establece con precisi贸n lo que representa una sola fila de la tabla de hechos. Declarar el grano (el nivel de detalle, por ejemplo, A帽o, Mes o D铆a) es el paso fundamental en el dise帽o dimensional, ya que garantiza que todos los hechos y dimensiones sean consistentes
6. Gesti贸n de Claves en Dimensiones: Los DW deben utilizar claves sustitutas (subrogadas o surrogated keys), que son n煤meros asignados en secuencia, en lugar de las claves naturales provenientes del sistema transaccional. Esto se debe a que las claves naturales de origen pueden ser incompatibles, mal administradas o cambiar a lo largo del tiempo, lo que generar铆a m煤ltiples filas de dimensi贸n para la misma clave natural
7. Modelado en Estrella (Star Schema): Este es el modelo de dise帽o dimensional m谩s habitual y sencillo. Se caracteriza por una tabla central de hechos relacionada con m煤ltiples tablas de dimensiones desnormalizadas, lo que significa que la informaci贸n de distintos niveles (como Continente, Pa铆s y Ciudad) reside en la misma dimensi贸n. Es f谩cilmente reconocible por los usuarios de negocio y generalmente reduce el n煤mero de tablas