El futuro de los catálogos de datos

May 10 2022
Visitemos un sitio web solo para "explorar los metadatos", dijo nadie nunca
El viernes pasado, Data Twitter se llenó con el tweet de Josh Wills sobre metadatos e inteligencia empresarial. En Atlan, comenzamos como un equipo de datos y fallamos tres veces al implementar un catálogo de datos.
Foto de Denys Nevozhai en Unsplash

El viernes pasado, Data Twitter se llenó con el tweet de Josh Wills sobre metadatos e inteligencia empresarial.

En Atlan , comenzamos como un equipo de datos y fallamos tres veces al implementar un catálogo de datos . Como líder de datos que vio fallar estos proyectos, descubrí que la principal razón por la que fallan los catálogos de datos es la experiencia del usuario. Sin embargo, no se trata solo de una hermosa interfaz de usuario. Se trata de comprender verdaderamente cómo trabajan las personas y brindarles la mejor experiencia posible.

Las personas como Josh quieren contexto donde están, cuando lo necesitan.

Por ejemplo, cuando está en una herramienta de BI como Looker, inevitablemente piensa: "¿Confío en este tablero?" o "¿Qué significa esta métrica?" Y lo último que alguien quiere hacer es abrir otra herramienta (también conocida como el catálogo de datos tradicional), buscar el tablero y navegar a través de los metadatos para responder esa pregunta.

Imagine un mundo donde los catálogos de datos no vivan en su propio "tercer sitio web". En cambio, un usuario puede obtener todo el contexto donde lo necesita, ya sea en la herramienta de BI de su elección o en cualquier herramienta en la que ya esté, ya sea Slack, Jira, el editor de consultas o el almacén de datos.

Metadatos activos en Looker. (Imagen del autor.)

Creo que este es el futuro de los catálogos de datos: activar metadatos y devolverlos a los flujos de trabajo diarios de los equipos de datos.

En palabras de Josh , “Es como ETL inverso pero para metadatos”.

¿Por qué los catálogos de datos no funcionan así hoy?

Tradicionalmente, los catálogos de datos se crearon para ser pasivos . Trajeron metadatos de un montón de herramientas diferentes a otra herramienta llamada "catálogo de datos" o "herramienta de gobierno de datos".

El problema con este enfoque: intenta resolver un problema de "demasiados silos" agregando una herramienta más en silos. Eso no resuelve el problema al que se enfrentan usuarios como Josh todos los días. ¡Eventualmente, la adopción del usuario sufre!

Un líder sénior de datos en una gran empresa llamó a estos catálogos de datos " software de almacenamiento caro ", o software que se queda en el estante y nunca se usa.

El problema con los catálogos de datos tradicionales. (Imagen del autor.)

¿Cómo podemos evitar que los catálogos de datos se conviertan en estanterías?

Piense en las herramientas modernas que usamos y amamos hoy: GitHub , Figma , Slack , Notion , Superhuman , etc.

Una cosa común a todas estas herramientas es el concepto de flujo . En palabras de Rahul Vora (Fundador de Superhuman):

“Flow es una sensación mágica.

El tiempo se derrite. Tus dedos bailan sobre el teclado. Estás impulsado por una energía ilimitada y una fuente de creatividad: estás completamente absorto en tu tarea.

El flujo convierte el trabajo en juego”.

El secreto de las experiencias mágicas de datos radica en el flujo. Estas excelentes experiencias de usuario no tienen que ver con los macroflujos. Se trata de microflujos, como no tener que cambiar a un catálogo de datos separado para obtener contexto para los tableros en su herramienta de BI. Hay docenas de microflujos como este que pueden impulsar experiencias mágicas y cambiar por completo la forma en que los usuarios de datos se sienten con respecto a su trabajo.

Ahí radica la promesa de los metadatos activos .

¿Qué son los metadatos activos?

En lugar de simplemente recopilar metadatos del resto de la pila y devolverlos a un catálogo de datos pasivo, los metadatos activos hacen posible un movimiento bidireccional de metadatos , enviando metadatos enriquecidos a todas las herramientas de la pila de datos.

Mi explicación favorita de los "metadatos activos" y cómo se diferencian de los enfoques pasivos tradicionales en realidad se remonta al... diccionario.

“Si describe a alguien como pasivo, quiere decir que no actúa, sino que deja que le sucedan cosas”.

— Diccionario Collins

Estar "activo" se trata de estar siempre comprometido y avanzar, en lugar de sentarse y dejar que las cosas sucedan a su alrededor.

Tómese un momento para pensar en este significado en el contexto de los metadatos, y pinta una imagen de lo que pueden ser los metadatos activos, cuando los metadatos se transforman en "acción" para mejorar nuestra experiencia con los datos.

Lograr el flujo a través de metadatos activos

La única realidad en los equipos de datos es la diversidad: una diversidad de personas, herramientas y tecnología. Diversidad que conduce al caos y a experiencias subóptimas para todos los involucrados.

La clave para lidiar con esta diversidad y lograr el flujo radica en los metadatos. Es el hilo conductor de todas nuestras herramientas lo que brinda el contexto que nos falta desesperadamente cada vez que rebotamos entre herramientas para averiguar qué está pasando con un proyecto de datos.

  • Cuando navega por el linaje de un activo de datos y encuentra un problema, puede crear un ticket de Jira en ese mismo momento.
  • Cuando hace una pregunta sobre un activo de datos en Slack, un bot le brinda contexto sobre ese activo directamente en Slack.
  • Cuando está impulsando la producción en GitHub, un bot ejecuta el linaje y las dependencias y le otorga un estado "verde" de que no va a romper nada, directamente en GitHub.
  • Activando metadatos. (Imagen del autor.)

El "catálogo de datos" es solo un caso de uso único de metadatos, que ayuda a los usuarios a comprender sus activos de datos. Pero eso apenas toca la superficie de lo que pueden hacer los metadatos.

La activación de los metadatos es la clave para docenas de casos de uso, como la observabilidad, la gestión de costos, la remediación, la calidad, la seguridad, la gobernanza programática, las canalizaciones autoajustadas y más.

Cuanto más pienso en esto, más empiezo a creer que los metadatos activos pueden hacer realidad el sueño de los datos inteligentes.

He aquí un ejemplo de cómo podría funcionar:

  1. Con los metadatos activos, puede usar los metadatos de uso anterior de las herramientas de BI para comprender qué paneles se usan más y cuándo las personas los usan.
  2. El linaje de extremo a extremo conecta estos tableros con las tablas que los alimentan en el almacén de datos.
  3. Los metadatos operativos muestran las cargas de trabajo informáticas conectadas, las canalizaciones de datos asociadas y los tiempos de ejecución.
Casos de uso de metadatos activos. (Imagen del autor.)

Más allá de eso, parece que los casos de uso de los metadatos activos son ilimitados. Tiene el potencial de brindar inteligencia y flujo a cada parte de la pila de datos y realmente actuar como la puerta de entrada a la pila de datos de nuestros sueños: un sistema de datos verdaderamente inteligente.

  • Deduce automáticamente los propietarios y expertos de las tablas de datos o los paneles en función de los registros de consultas SQL.
  • Detenga automáticamente las canalizaciones descendentes cuando se detecte un problema de calidad de datos y use registros anteriores para predecir qué salió mal y solucionarlo sin intervención humana.
  • Purgue automáticamente productos de datos obsoletos o de baja calidad
  • y mucho más

¿Quiere obtener más información sobre los catálogos de datos de tercera generación y el auge de los metadatos activos? Consulte nuestro libro electrónico .

¿Quiere conversar sobre las infinitas posibilidades de los metadatos activos? ¡Me encantaría tomar un café! Póngase en contacto con Prukalpa o el equipo de Atlan .

© Copyright 2021 - 2022 | unogogo.com | All Rights Reserved