Unity Catalog: Gobernanza en Databricks

Introducción a Unity Catalog: Gobernanza en Databricks
El Unity Catalog es la herramienta principal de gobernanza dentro de Databricks. Con esta herramienta centralizamos las siguientes funcionalidades:
- Gestión de la calidad del dato
- Linaje y auditoría
- Gestión de los metadatos
- Control de acceso y seguridad
Tradicionalmente, Databricks utilizaba los Hive Metastore para el catalogado. A continuación, se detallan las principales diferencias:
Dentro de Unity Catalog, el Metastore es el contenedor de más alto nivel de los metadatos. El Metastore contiene:
-
Catálogos: Utilizados para estructurar y organizar los datos. Cada dominio tiene un catálogo asignado para gestionar sus datos.
- Esquemas: Permiten organizar lógicamente los datos (por ejemplo, por capas).
- Tablas, vistas y funciones: Los productos de datos finales se definen en este nivel.
- Esquemas: Permiten organizar lógicamente los datos (por ejemplo, por capas).
-
Activos de seguridad: Objetos clave para gestionar accesos y conexiones tanto dentro como fuera de Databricks:
- Conexiones y Credenciales de Servicios/Almacenamiento.
- Ubicaciones externas.
- Shares, Proveedores y Receptores.
Cada Metastore es único por región del proveedor cloud. Sin embargo, es posible conectar múltiples Metastores utilizando la conexión Delta-Sharing. Incluso es posible compartir datos entre diferentes proveedores cloud (Azure, AWS, GCP).
Delta-Sharing funciona como una conexión federada donde los datos se acceden directamente sin necesidad de replicación. Esta arquitectura es especialmente útil para conectar diferentes empresas de un mismo holding o regiones que operan de manera independiente.
Podéis consultar la documentación oficial de Databricks para profundizar en estos conceptos.
