Arquitectura de data mesh en almacenes de datos basados en la nube


Los datos son el nuevo oro negro de las empresas. En este post, exploramos cómo los cambios en la tecnología, los procesos organizativos y las personas son fundamentales para lograr la visión de una empresa impulsada por los datos que despliega una Arquitectura de data mesh en almacenes basados en la nube como Snowflake y Azure Synapse.

El verdadero valor de los datos procede de la información obtenida a partir de datos que a menudo están aislados y se extienden por formatos de almacenamiento estructurados, semiestructurados y no estructurados en terabytes y petabytes. La minería de datos ayuda a las empresas a recopilar información fiable, tomar decisiones informadas, mejorar la tasa de rotación y aumentar los ingresos.

Todas las empresas podrían beneficiarse de una estrategia de data-first, pero sin una arquitectura de datos eficaz, las empresas no consiguen alcanzar el estatus de data-first.

Por ejemplo, el equipo de ventas y marketing de una empresa necesita datos para optimizar los canales de venta cruzada y de aumento de ventas, mientras que tus equipos de producto quieren intercambiar datos entre dominios con fines analíticos. Toda la organización desearía disponer de una forma mejor de obtener y gestionar los datos para tus necesidades, como el streaming en tiempo real y los análisis casi en tiempo real. Para abordar las necesidades de datos de los distintos equipos, la empresa necesita un cambio de paradigma hacia la rápida adopción de la Arquitectura de data mesh, que debe ser escalable y elástica.

La arquitectura de Data Mesh supone un cambio tanto en la tecnología como en la organización, los procesos y las personas.

Antes de sumergirnos en la Arquitectura de data mesh, entendamos tus 4 principios básicos:

  1. Propiedad y arquitectura de datos descentralizada y orientada al dominio
  2. Los datos como producto
  3. Infraestructura de datos de autoservicio como plataforma
  4. Gobernanza informática federada

Big data es volumen, velocidad, variedad y veracidad. El primer principio de la Data Mesh se basa en la descentralización y la distribución de la responsabilidad entre las pymes y los expertos en la materia, que son los propietarios del marco de big data.  

Este diagrama articula los 4 principios básicos de la Data Mesh y el reparto de responsabilidades a alto nivel.

Azure: Cada equipo es responsable de su propio dominio, y los datos se descentralizan y comparten con otros dominios para el intercambio de datos y los datos como producto.
Copo de nieve: Cada equipo es responsable de su propio dominio, y los datos se descentralizan y comparten con otros dominios para el intercambio de datos y los datos como producto.

Los datos de cada dominio están descentralizados en su propia nube de almacén de datos. Este modelo se aplica a todas las nubes de almacén de datos, como Snowflake, Azure Synapse y AWS Redshift.  

Un almacén de datos en la nube se construye sobre una infraestructura multicloud como AWS, Azure y Google Cloud Platform (GCP), que permite escalar la computación y el almacenamiento de forma independiente. Estos productos de almacén de datos están totalmente gestionados y proporcionan una plataforma única para el almacenamiento de datos, los lagos de datos, el equipo de ciencia de datos y para proporcionar datos compartidos para consumidores externos.

Como se muestra a continuación, el almacenamiento de datos está respaldado por el almacenamiento en la nube de AWS S3, Azure Blob y Google, lo que hace que Snowflake sea altamente escalable y fiable. Snowflake es único en su arquitectura y capacidades de intercambio de datos. Al igual que Synapse, Snowflake es elástico y puede ampliarse o reducirse en función de las necesidades.

De una arquitectura de datos monolítica heredada a un modelado de datos más escalable y elástico, las organizaciones pueden conectar datos enriquecidos y curados descentralizados para tomar decisiones informadas en todos los departamentos. Con la implementación de Data Mesh en Snowflake, Azure Synapse, AWS Redshift, etc., las organizaciones pueden lograr el equilibrio adecuado entre permitir que los propietarios de dominios definan y apliquen fácilmente tus propias políticas detalladas y disponer de procesos de gobernanza gestionados de forma centralizada.

Recursos adicionales:


Cómo elaborar una política de conservación de datos


por Steven Fiore

Ayudamos a las organizaciones a implantar una solución unificada de gobernanza de datos que les ayude a gestionar y gobernar tus datos locales, en varias nubes y SaaS. La solución de gobernanza de datos siempre incluirá una política de retención de datos.

Al planificar una política de retención de datos, debe ser implacable a la hora de formular las preguntas correctas que guiarán a su equipo hacia resultados procesables y medibles. Al abordar las políticas de retención de datos como parte del esfuerzo unificado de gobernanza de datos, puede crear fácilmente un enfoque holístico y actualizado para la retención y eliminación de datos. 

Pasos para crear una política eficaz de conservación de datos

Idealmente, cualquier grupo que cree, utilice o disponga de datos de cualquier forma participará en la planificación de datos. Los trabajadores sobre el terreno que recopilan datos, los empleados de back-office que los procesan, el personal de TI responsable de transmitirlos y destruirlos, los departamentos jurídico, de RRHH, de relaciones públicas, de seguridad (cibernética y física) y cualquiera que tenga un interés en los datos debe participar en la planificación de su conservación y eliminación.

Inventario de datos

El primer paso consiste en saber de qué datos se dispone actualmente. Gracias a décadas de silos organizativos, muchas organizaciones no comprenden todos los datos que han acumulado. Realizar un inventario de datos o un descubrimiento unificado de datos es un primer paso fundamental.  

Revisar la normativa sobre conservación de datos

A continuación, debe comprender los requisitos de la normativa o normativas aplicables en su sector y región geográfica para que su política de planificación y conservación de datos tenga en cuenta los requisitos de cuompliance. Independientemente de los valores de su organización, el cumplimiento es obligatorio y debe entenderse.

Reconozca los riesgos de tus datos

A continuación, las empresas deben identificar en qué casos la conservación de datos puede estar costando a la empresa o introduciendo riesgos. Comprender el riesgo y las ineficiencias de los procesos de datos actuales puede ayudar a identificar qué debe conservarse y durante cuánto tiempo, y cómo deshacerse de los datos cuando caduque la retención.

Si el objetivo es aumentar los ingresos o contribuir a los objetivos sociales, entonces debe comprender qué datos ofrecen esa posibilidad y cuántos datos necesita para que el análisis merezca la pena. El Machine Learning requiere grandes cantidades de datos durante largos periodos de tiempo para aumentar la precisión del aprendizaje, por lo que si los resultados del Machine Learning y la inteligencia artificial son clave para su oportunidad de ingresos, necesitará más datos de los que necesitaría para utilizar la inteligencia empresarial tradicional para los cuadros de mando y la toma de decisiones.

política de conservación de datos

¿Qué tipos de datos deben incluirse en la política de conservación de datos?

Los tipos de datos incluidos en la política de conservación de datos dependerán de los objetivos de la empresa. Las empresas deben tener en cuenta qué datos no necesitan incluir en tus políticas. Conservar y gestionar datos innecesarios cuesta tiempo y dinero a las organizaciones, por lo que identificar los datos que pueden eliminarse es importante y, con demasiada frecuencia, se pasa por alto.

Las empresas deben considerar qué tecnologías de innovación se incluyen en su hoja de ruta digital. Si el Machine Learning, la inteligencia artificial, la automatización robótica de procesos y/o la automatización inteligente de procesos están en su hoja de ruta tecnológica, querrá una estrategia de retención y eliminación de datos que alimente los modelos de aprendizaje cuando esté listo para construirlos. El Machine Learning podría influir en las políticas de retención de datos, Internet de las Cosas puede afectar a qué datos se incluyen, ya que tiende a crear enormes cantidades de datos. La automatización robótica o inteligente de procesos es otro ejemplo en el que la comprensión de qué datos son más esenciales para los procesos altamente repetibles podría dictar qué datos se conservan y durante cuánto tiempo.

Una nota final es considerar las fuentes de datos no tradicionales y si deben incluirse. ¿Es necesario incluir los mensajes de voz o las grabaciones de reuniones? ¿Y las fotografías que puedan almacenarse junto con los documentos? ¿Las grabaciones de las cámaras de seguridad? ¿Registros de IoT o de servidores? ¿Metadatos? ¿Pistas de auditoría? La lista continúa, y cuanto antes se tengan en cuenta estos tipos de datos, más fácil será gestionarlos.

Errores comunes en las estrategias de conservación de datos

La paradoja es que los dos mayores errores que cometen las organizaciones a la hora de elaborar una política de conservación de datos son o bien no dedicar suficiente tiempo a la planificación o dedicar demasiado tiempo a la planificación. Dedicar demasiado tiempo a la planificación puede llevar a la parálisis por análisis y a que se produzca una catástrofe de datos antes de que pueda aplicarse una solución. Una forma de mitigar este riesgo es adoptar un enfoque iterativo para poder aprender de los pequeños problemas antes de que se conviertan en grandes.

Un error típico de las organizaciones a la hora de elaborar una política de conservación de datos es que no comprenden tus objetivos desde el principio. Las organizaciones necesitan empezar por establecer claramente los objetivos de su política de datos, y luego construir una política que apoye esos objetivos. Aquí hablamos de la relación entre los objetivos de la empresa y las políticas de datos.

Otro escollo importante en el que caen las organizaciones cuando elaboran una política de conservación de datos es que no comprenden tus datos, dónde viven y cómo están interrelacionados. Conservar datos innecesariamente es tan malo como deshacerse de los datos que se necesitan, y en las organizaciones muy compartimentadas, las interdependencias de los datos pueden no salir a la luz hasta que de repente falten datos necesarios o hasta que los datos que deberían haberse eliminado aparezcan en un descubrimiento legal. Esto se mitiga en parte incorporando a las personas adecuadas al proceso de planificación, de modo que se pueda comprender el panorama completo de las implicaciones de los datos en la organización.

Soluciones de política de conservación de datos de Kopius

El futuro de la eficacia empresarial está impulsado por el análisis avanzado de datos y la información. Empresas de todos los tamaños están incluyendo estrategias de datos en su hoja de ruta de transformación digital, que debe incluir la gobernanza de datos, la gestión de datos, la planificación y el análisis empresarial y la previsión inteligente. Comprenda tus objetivos y valores empresariales y, a continuación, elabore las políticas de retención de datos adecuadas para usted.

Estamos aquí para ayudarle. Comunicate con nosotros hoy mismo para obtener más información sobre nuestros servicios.

Recursos adicionales:

La política de conservación de datos adecuada para su organización


por Steven Fiore

Toda empresa necesita una estrategia para gestionar tus datos, y esa estrategia debe incluir un plan de retención de datos. Antes de establecer una política de conservación de datos, es importante comprender su finalidad y cómo puede contribuir a los objetivos de la organización. 

Hay cuatro valores que impulsan a la mayoría de las empresas a hacer cualquier cosa:  

  • Ganar dinero y aumentar los ingresos
  • Ahorrar dinero reduciendo costos
  • Porque deben cumplir la normativa
  • Porque quieren utilizar la empresa como plataforma para el bien social

Aunque cada uno de estos valores estará representado en cualquier organización, una investigación suele revelar que uno o dos de ellos eclipsan al resto. Qué valores son los más importantes variará de una organización a otra. 

Las organizaciones deben empezar por establecer claramente los objetivos de su política de datos y, a continuación, crear una política que respalde esos objetivos. Ayudamos a las empresas a desenterrar los motores empresariales para que las políticas de datos puedan contribuir a los valores y objetivos de la empresa en lugar de competir con ellos. 

En este post, exploramos las mejores prácticas para establecer y mantener una política de retención de datos a través de la lente de estos impulsores empresariales.  

¿Cuáles son los objetivos de su política de conservación de datos?

Valor: Ganar dinero

Las empresas que dependen de los ingresos publicitarios, como Google y Facebook, quieren conservar tantos datos como sea necesario para maximizar las oportunidades de ingresos.  

Las empresas que explotan tus datos pueden detectar tendencias que les permitan mejorar tus productos, mejorar la experiencia del cliente (fidelizándolo a la marca) y descubrir oportunidades de ingresos que de otro modo habrían permanecido ocultas. 

En ambos casos, la política de retención de datos debe centrarse en qué datos pueden contribuir a los ingresos y cuántos de ellos son necesarios. Equilibrar los datos agregados frente a los datos más granulares es la clave para retener suficientes datos para lograr tus objetivos sin retener datos innecesarios que añadan costos, complejidad y riesgos para la seguridad o la privacidad.   

Valor: Ahorrar dinero

Muchas empresas se centran en la cuenta de resultados y dan prioridad a la eficiencia para evitar perder tiempo, dinero y energía. 

Las empresas que quieren ahorrar dinero pueden utilizar la conservación de datos para que la organización sea más eficiente. Aunque el almacenamiento de datos es barato, no es gratis, y el acceso puede ser más caro que el almacenamiento. Así que, para una organización que quiere que tus políticas de datos ayuden a ahorrar dinero, la política podría centrarse en retener sólo los datos que son necesarios para evitar el almacenamiento adicional y los gastos generales de gestión. 

Además, conservar más datos de los necesarios puede suponer una responsabilidad legal. Contar con una política de conservación y eliminación de datos puede reducir los gastos legales en caso de un proceso de descubrimiento legal.  

Los datos también tienen un costo de eficiencia: cuantos más datos se tengan, más lento será el proceso de búsqueda y uso de esos datos. Así pues, las políticas de conservación de datos pueden y deben formar parte de una estrategia de gobernanza de datos destinada a hacer que los datos que se conservan sean lo más eficientes posible de gestionar y utilizar. 

Valor: Cumplir la normativa

Muchos sectores tienen tus propias normativas, mientras que otras son transversales. Las empresas que deben tener una política de retención de datos pueden necesitarla para cumplir con las leyes que rigen la retención de datos, como la Ley Sarbanes Oxley, la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) o la IRS 1075. Incluso las empresas con sede en EE.UU. pueden estar sujetas a la legislación internacional, como el Reglamento General Europeo de Protección de Datos (GDPR), y las empresas que tienen clientes en California necesitan entender cómo la Ley de Privacidad del Consumidor de California (CCPA) puede afectar a la retención de datos. Los organismos públicos de Estados Unidos también están sujetos a la Ley de Libertad de Información y algunos estados tienen leyes "Sunshine" que van incluso más allá.  

Las empresas motivadas por compliance necesitarán que su política de conservación de datos refleje los requisitos federales, estatales y locales, y deberán documentar el cumplimiento de dichos requisitos. 

Valor: La empresa como plataforma para el bien social

 Tanto si una organización se estableció como una marca activista como si se ha visto atraída por la responsabilidad social a medida que la demanda de los inversores ha aumentado la responsabilidad social, muchas empresas están encontrando formas de utilizar los datos para comprender su impacto social y medioambiental. A menudo también se informa sobre este impacto a través de informes de Gobernanza Social y Medioambiental (ESG), Proyectos de Divulgación del Carbono y estructuras de información como el GRESB (Global Real Estate tustainability Benchmark). 

En estos casos, las organizaciones que utilizan su negocio como plataforma para el bien social pueden identificar métricas clave, como el consumo de energía o los datos de contratación, que pueden utilizarse para elaborar informes sobre responsabilidad social.  

Para terminar

Si comprende los valores y prioridades de su organización, podrá asegurarse de que tus políticas respaldan esos valores. Todas las empresas tienen datos que recopilar, gestionar y eliminar, por lo que es fundamental disponer de una hoja de ruta sobre cómo abordar los requisitos de datos actuales y futuros. Este marco es un punto de partida para ese esfuerzo, porque no hay nada peor que esforzarse por aplicar una política compleja, sólo para descubrir que aleja a la empresa de tus objetivos.  

Recursos adicionales: