Cover Image for Gyrus Blog

Unity Catalog: Gobernanza en Databricks

Cover Image for Unity Catalog: Gobernanza en Databricks
Enmanuel Martínez
Enmanuel Martínez

Introducción a Unity Catalog: Gobernanza en Databricks

El Unity Catalog es la herramienta principal de gobernanza dentro de Databricks. Con esta herramienta centralizamos las siguientes funcionalidades:

  • Gestión de la calidad del dato
  • Linaje y auditoría
  • Gestión de los metadatos
  • Control de acceso y seguridad

Tradicionalmente, Databricks utilizaba los Hive Metastore para el catalogado. A continuación, se detallan las principales diferencias:

Dentro de Unity Catalog, el Metastore es el contenedor de más alto nivel de los metadatos. El Metastore contiene:

  • Catálogos: Utilizados para estructurar y organizar los datos. Cada dominio tiene un catálogo asignado para gestionar sus datos.

    • Esquemas: Permiten organizar lógicamente los datos (por ejemplo, por capas).
      • Tablas, vistas y funciones: Los productos de datos finales se definen en este nivel.
  • Activos de seguridad: Objetos clave para gestionar accesos y conexiones tanto dentro como fuera de Databricks:

    • Conexiones y Credenciales de Servicios/Almacenamiento.
    • Ubicaciones externas.
    • Shares, Proveedores y Receptores.

Cada Metastore es único por región del proveedor cloud. Sin embargo, es posible conectar múltiples Metastores utilizando la conexión Delta-Sharing. Incluso es posible compartir datos entre diferentes proveedores cloud (Azure, AWS, GCP).

Delta-Sharing funciona como una conexión federada donde los datos se acceden directamente sin necesidad de replicación. Esta arquitectura es especialmente útil para conectar diferentes empresas de un mismo holding o regiones que operan de manera independiente.

Podéis consultar la documentación oficial de Databricks para profundizar en estos conceptos.