Arquitectura de data mesh en almacenes de datos basados en la nube


Los datos son el nuevo oro negro de las empresas. En este post, exploramos cómo los cambios en la tecnología, los procesos organizativos y las personas son fundamentales para lograr la visión de una empresa impulsada por los datos que despliega una Arquitectura de data mesh en almacenes basados en la nube como Snowflake y Azure Synapse.

El verdadero valor de los datos procede de la información obtenida a partir de datos que a menudo están aislados y se extienden por formatos de almacenamiento estructurados, semiestructurados y no estructurados en terabytes y petabytes. La minería de datos ayuda a las empresas a recopilar información fiable, tomar decisiones informadas, mejorar la tasa de rotación y aumentar los ingresos.

Todas las empresas podrían beneficiarse de una estrategia de data-first, pero sin una arquitectura de datos eficaz, las empresas no consiguen alcanzar el estatus de data-first.

Por ejemplo, el equipo de ventas y marketing de una empresa necesita datos para optimizar los canales de venta cruzada y de aumento de ventas, mientras que tus equipos de producto quieren intercambiar datos entre dominios con fines analíticos. Toda la organización desearía disponer de una forma mejor de obtener y gestionar los datos para tus necesidades, como el streaming en tiempo real y los análisis casi en tiempo real. Para abordar las necesidades de datos de los distintos equipos, la empresa necesita un cambio de paradigma hacia la rápida adopción de la Arquitectura de data mesh, que debe ser escalable y elástica.

La arquitectura de Data Mesh supone un cambio tanto en la tecnología como en la organización, los procesos y las personas.

Antes de sumergirnos en la Arquitectura de data mesh, entendamos tus 4 principios básicos:

  1. Propiedad y arquitectura de datos descentralizada y orientada al dominio
  2. Los datos como producto
  3. Infraestructura de datos de autoservicio como plataforma
  4. Gobernanza informática federada

Big data es volumen, velocidad, variedad y veracidad. El primer principio de la Data Mesh se basa en la descentralización y la distribución de la responsabilidad entre las pymes y los expertos en la materia, que son los propietarios del marco de big data.  

Este diagrama articula los 4 principios básicos de la Data Mesh y el reparto de responsabilidades a alto nivel.

Azure: Cada equipo es responsable de su propio dominio, y los datos se descentralizan y comparten con otros dominios para el intercambio de datos y los datos como producto.
Copo de nieve: Cada equipo es responsable de su propio dominio, y los datos se descentralizan y comparten con otros dominios para el intercambio de datos y los datos como producto.

Los datos de cada dominio están descentralizados en su propia nube de almacén de datos. Este modelo se aplica a todas las nubes de almacén de datos, como Snowflake, Azure Synapse y AWS Redshift.  

Un almacén de datos en la nube se construye sobre una infraestructura multicloud como AWS, Azure y Google Cloud Platform (GCP), que permite escalar la computación y el almacenamiento de forma independiente. Estos productos de almacén de datos están totalmente gestionados y proporcionan una plataforma única para el almacenamiento de datos, los lagos de datos, el equipo de ciencia de datos y para proporcionar datos compartidos para consumidores externos.

Como se muestra a continuación, el almacenamiento de datos está respaldado por el almacenamiento en la nube de AWS S3, Azure Blob y Google, lo que hace que Snowflake sea altamente escalable y fiable. Snowflake es único en su arquitectura y capacidades de intercambio de datos. Al igual que Synapse, Snowflake es elástico y puede ampliarse o reducirse en función de las necesidades.

De una arquitectura de datos monolítica heredada a un modelado de datos más escalable y elástico, las organizaciones pueden conectar datos enriquecidos y curados descentralizados para tomar decisiones informadas en todos los departamentos. Con la implementación de Data Mesh en Snowflake, Azure Synapse, AWS Redshift, etc., las organizaciones pueden lograr el equilibrio adecuado entre permitir que los propietarios de dominios definan y apliquen fácilmente tus propias políticas detalladas y disponer de procesos de gobernanza gestionados de forma centralizada.

Recursos adicionales: