Data Mesh
un changement de paradigme dans l’architecture des données

Spiderman Knit et architecture Data Mesh
« Spiderman Knit » évoque un style de tricot ou une technique utilisée pour concevoir un tissu rappelant les toiles d’araignées ou le costume de Spiderman. Cette technique implique l’utilisation de boucles ou de points entrelacés pour créer une texture ressemblant à la structure complexe associée au super-héros. Le tricot Spiderman consiste à travailler simultanément sur différentes parties du tissu pour créer un motif, plutôt que d’adopter une approche centralisée. Les modèles de tricot Spiderman varient en complexité et en design, offrant ainsi une grande flexibilité et adaptabilité. Cette description met en lumière les caractéristiques interconnectées, décentralisées et adaptables du « Spiderman Knit ».
En analogie, considérons la distribution des données entre des domaines spécifiques, chacun étant responsable de ses propres produits et services de données. Tout comme les fils entrelacés d’un tricot Spiderman forment un motif cohérent, cette architecture repose sur des produits et services de données interconnectés pour répondre aux besoins en données de l’organisation. En adoptant une approche décentralisée de la propriété et de la gestion des données, les équipes spécifiques à un domaine peuvent prendre en charge leurs propres données et créer des produits de données adaptés à leurs besoins. Cette approche décentralisée favorise l’agilité, la scalabilité et l’innovation, tout comme la flexibilité et la créativité nécessaires à la conception d’un motif inspiré de Spiderman. Cette architecture peut s’adapter à diverses sources de données, formats et cas d’utilisation, permettant ainsi aux organisations d’ajuster leur infrastructure de données selon leurs besoins spécifiques.
Il s’agit de l’architecture DATA MESH, basée sur des principes fondamentaux qui favorisent la décentralisation, l’interopérabilité et l’autonomie des domaines de données.

Principes de base
Les bases fondamentales du maillage de données sont posées pour guider son élaboration et son déploiement. Ils sont élaborés pour répondre aux défis des architectures de données centralisées traditionnelles et promouvoir une approche décentralisée et axée sur les domaines dans la gestion des données.
- Propriété des données orientée domaine : La propriété et la gouvernance des données sont décentralisées, avec les équipes spécifiques à un domaine prenant en charge les données qu’elles produisent et utilisent. Chaque équipe de domaine est chargée de définir et de gérer ses propres produits et services de données.
- Infrastructure de données en libre-service : Les équipes de domaine bénéficient d’un accès en libre-service à l’infrastructure et aux outils de données, ce qui leur permet de créer, déployer et exploiter de manière autonome des produits de données. Cette approche réduit les dépendances à l’égard des équipes de données centralisées et favorise l’agilité et l’autonomie.
- Les données en tant que produit : Les données sont considérées comme un produit, produit, consommé et amélioré par les équipes du domaine. Ce changement de perspective encourage les équipes de domaine à se concentrer sur la création de valeur à travers leurs produits et services de données, de la même manière que pour les produits logiciels.
- Architecture et plateforme de maillage de données : L’organisation investit dans la mise en place d’une architecture et d’une plateforme de maillage de données qui fournissent l’infrastructure, les outils et les normes nécessaires pour aider les équipes de domaine à gérer leurs produits de données. Cela comprend des fonctionnalités telles que la découverte de données, la gestion des métadonnées et la gouvernance des données.
- Gouvernance des données fédérée : La gouvernance des données est fédérée, avec les équipes de domaine chargées de définir et de mettre en œuvre des politiques de gouvernance adaptées à leurs besoins spécifiques. Cela permet aux équipes du domaine de conserver leur autonomie tout en assurant le respect des normes et réglementations organisationnelles.
- Réflexion produit et conception centrée sur l’utilisateur : Les équipes de domaine adoptent une approche de réflexion produit et des principes de conception centrés sur l’utilisateur pour développer des produits de données répondant aux besoins de leurs utilisateurs. Cela implique de comprendre les besoins des utilisateurs, d’itérer en fonction des retours d’expérience et de prioriser les fonctionnalités offrant le plus de valeur.
- Approche API-first : Les produits de données exposent des API qui permettent à d’autres équipes du domaine de découvrir, d’accéder et d’intégrer des données de manière standardisée et interopérable. Cela favorise la réutilisabilité, l’interopérabilité et la collaboration entre les domaines.
- Qualité décentralisée et observabilité des données : Les équipes de domaine sont responsables d’assurer la qualité, la fiabilité et l’observabilité de leurs produits de données. Cela implique la mise en place de contrôles de qualité des données, la surveillance des pipelines de données et la fourniture d’une visibilité sur l’utilisation et les performances des données;
- Architecture évolutive et amélioration continue : L’architecture de maillage de données est conçue pour évoluer au fil du temps en réponse à l’évolution des besoins de l’entreprise et aux avancées technologiques. Les équipes de domaine sont encouragées à expérimenter, à itérer et à améliorer continuellement leurs produits et infrastructures de données.
En adhérant à ces principes fondamentaux, les organisations peuvent bénéficier des avantages d’une approche décentralisée et orientée vers les domaines de la gestion des données, comme une agilité, une évolutivité et une innovation accrues, tout en surmontant les défis des architectures de données centralisées tels que les silos de données, la complexité et les limitations de l’évolutivité.

Vers la résilience des entreprises et la convergence des données
En adoptant les principes du Data Mesh, les organisations peuvent renforcer la résilience de leur entreprise en décentralisant la propriété des données, en autorisant des capacités en libre-service, en instaurant une gouvernance fédérée, en adoptant une approche centrée sur les API, en mettant en place une architecture évolutive et en encourageant une culture axée sur la réflexion concernant les produits de données.
Voici comment :
1. Propriété décentralisée des données :
En décentralisant la propriété des données, le Data Mesh permet à chaque équipe de domaine de gérer ses propres produits de données. Cette approche réduit les dépendances envers les équipes et les systèmes centralisés, renforçant ainsi la résilience de l’organisation face aux perturbations. En cas de problème dans un domaine, les autres domaines peuvent continuer à fonctionner de manière autonome, limitant ainsi l’impact sur l’ensemble de l’entreprise.
2. Infrastructure de données en libre-service
Dans le cadre du Data Mesh, l’accès en libre-service à l’infrastructure de données et aux outils est encouragé pour les équipes de domaine. Cette approche permet aux équipes d’ajuster rapidement leurs produits et infrastructures de données en fonction des besoins évolutifs de l’entreprise, sans avoir à dépendre de ressources centralisées. Les capacités de libre-service améliorent l’agilité et permettent une réaction plus rapide aux perturbations, ce qui aide l’entreprise à maintenir ses opérations pendant les périodes difficiles.
3. Gouvernance fédérée :
Avec une approche de gouvernance fédérée, chaque équipe de domaine est chargée de définir et de mettre en œuvre des politiques de gouvernance adaptées à ses besoins spécifiques. Cela garantit la conformité aux réglementations et aux normes organisationnelles tout en répondant aux diverses exigences commerciales. La gouvernance fédérée réduit les goulots d’étranglement et renforce la capacité de l’organisation à s’adapter aux changements ou aux perturbations réglementaires.
4. Approche API-First :
Dans le cadre du Data Mesh, une approche API-First est encouragée pour l’intégration des données, facilitant ainsi l’échange et l’accès aux données entre différents systèmes et équipes. Les API fournissent des interfaces standardisées pour le partage de données, favorisant une intégration et une interopérabilité transparentes entre les produits de données. Cette approche facilite la collaboration et permet à l’entreprise d’ajuster rapidement ses processus et systèmes en réponse aux perturbations ou aux nouvelles exigences.
5. Architecture évolutive :
L’architecture Data Mesh est conçue pour évoluer en fonction des besoins changeants de l’entreprise et des progrès technologiques. Les équipes de domaine sont encouragées à expérimenter, à itérer et à améliorer en permanence leurs produits et leurs infrastructures de données. Cette approche évolutive favorise l’innovation et l’adaptabilité, assurant ainsi que l’organisation reste résiliente face aux défis et aux opportunités évolutifs.
6. Pensée produit de données :
En traitant les données comme un produit, les équipes de domaine sont incitées à se concentrer sur la création de valeur pour leurs utilisateurs. Ce changement de mentalité favorise une conception centrée sur l’utilisateur, une itération rapide et une amélioration continue des produits de données. En fournissant des produits de données précieux qui répondent aux besoins des utilisateurs, l’organisation peut mieux résister aux perturbations et maintenir sa résilience. Ces principes permettent aux équipes de s’adapter rapidement aux perturbations, aux changements réglementaires et à l’évolution des exigences commerciales, garantissant ainsi que l’organisation reste résiliente et compétitive dans un environnement en évolution rapide.
Défis d’adoption
Si l’architecture de maillage de données offre de nombreux avantages, son adoption s’accompagne de plusieurs défis auxquels les organisations peuvent être confrontées.
- Changement culturel : les architectures de données centralisées traditionnelles impliquent souvent un contrôle et une prise de décision centralisés, alors qu’un maillage de données favorise la décentralisation et l’autonomie entre les équipes du domaine. Convaincre les parties prenantes et les équipes d’adopter ce changement culturel peut s’avérer difficile et peut nécessiter un leadership fort et des efforts de gestion du changement.
- Compétences et expertises : l’adoption d’une architecture de maillage de données nécessite que les équipes du domaine possèdent les compétences et l’expertise nécessaires dans des domaines tels que l’ingénierie des données, la gouvernance des données et la gestion des produits. Les organisations devront peut-être investir dans des initiatives de formation et de perfectionnement pour garantir que les équipes du domaine disposent des capacités nécessaires pour gérer efficacement leurs produits de données.
- Complexité technologique : la mise en œuvre d’une architecture de maillage de données implique le déploiement et la gestion d’un ensemble diversifié de technologies, notamment une infrastructure de données, des outils et des plateformes. L’intégration de ces technologies et la garantie de l’interopérabilité peuvent s’avérer complexes et nécessiter un investissement initial important dans l’infrastructure et l’expertise.
- Gouvernance et sécurité des données : la décentralisation de la propriété des données soulève des défis liés à la gouvernance, à la sécurité et à la conformité des données. Garantir des politiques de gouvernance et des contrôles de sécurité cohérents entre les équipes de domaine tout en permettant flexibilité et autonomie peut s’avérer difficile. Les organisations doivent établir des cadres de gouvernance et des mesures de sécurité robustes pour atténuer les risques associés à la gestion décentralisée des données.
- Qualité et cohérence des données : maintenir la qualité et la cohérence des données entre les équipes du domaine peut s’avérer difficile, en particulier lorsque les données proviennent de systèmes et de sources disparates. Garantir la qualité, la fiabilité et la cohérence des données tout en permettant l’autonomie et la flexibilité nécessite une planification, une surveillance et une collaboration minutieuses entre les équipes du domaine.
- Intégration et interopérabilité : garantir une intégration et une interopérabilité transparentes tout en permettant l’autonomie et l’accès en libre-service nécessite des API, des formats de données et des protocoles de communication standardisés. Les organisations doivent investir dans des technologies et des pratiques d’intégration pour faciliter l’échange de données et la collaboration.
- Silos organisationnels : les équipes de domaine peuvent se concentrer trop sur leurs propres produits et priorités en matière de données, ce qui entraîne une fragmentation et une duplication des efforts. Les organisations doivent favoriser la collaboration et la communication entre les équipes de domaine pour garantir l’alignement avec les objectifs commerciaux plus larges.
- Gestion du changement : la transition vers une architecture de maillage de données implique des changements organisationnels importants et peut se heurter à la résistance des parties prenantes habituées aux approches centralisées traditionnelles. Une gestion efficace du changement, une communication et un engagement des parties prenantes sont essentiels pour surmonter la résistance et garantir l’adoption réussie de l’architecture de maillage de données.
Relever ces défis nécessite une approche globale qui implique d’aligner la culture organisationnelle, de développer les compétences et l’expertise nécessaires, de mettre en œuvre des mesures de gouvernance et de sécurité solides, de favoriser la collaboration et la communication et de gérer efficacement le changement.
Conclusion : potentiel transformateur du maillage de données dans la refonte de l’architecture des données
En résumé, l’architecture de maillage de données responsabilise les équipes de domaine, favorise la collaboration et assure une évolution synchronisée des données avec les besoins de l’entreprise et les progrès technologiques. Il s’agit d’un changement de paradigme qui encourage l’agilité et l’évolutivité dans la gestion des données. Bien que l’adoption d’une architecture de maillage de données puisse présenter des défis, les avantages potentiels en termes d’agilité, d’innovation et de résilience en font un investissement rentable pour les organisations souhaitant exploiter pleinement leur potentiel en matière de données.
“Data Mesh est une approche sociotechnique décentralisée pour la gestion et l’accès aux données analytiques à grande échelle.” Zhamak Dehghani
Glossaire du Data Mesh
- Data Mesh (Maillage de données) : Une approche architecturale décentralisée pour la gestion des données à grande échelle.
- Propriété des données orientée domaine : Principe où les équipes spécifiques à un domaine sont responsables des données qu’elles produisent et utilisent.
- Infrastructure de données en libre-service : Outils et plateformes permettant aux équipes de domaine de gérer leurs données de manière autonome.
- Données en tant que produit : Concept traitant les données comme des produits à part entière, avec leurs propres cycles de vie et valeurs.
- Gouvernance des données fédérée : Approche de gouvernance où les équipes de domaine définissent leurs propres politiques tout en respectant les normes organisationnelles.
- API-first : Approche privilégiant la création d’API pour l’accès et l’intégration des données entre les domaines.
- Qualité décentralisée des données : Responsabilité des équipes de domaine pour assurer la qualité de leurs propres données.
- Architecture évolutive : Conception flexible permettant à l’infrastructure de données de s’adapter aux changements des besoins de l’entreprise.
- Résilience des entreprises : Capacité d’une organisation à s’adapter et à survivre face aux perturbations.
- Convergence des données : Processus d’intégration et d’harmonisation des données provenant de différentes sources.
- Silos organisationnels : Isolation des équipes ou des départements qui entrave la collaboration et le partage d’informations.
- Données structurées : Données organisées selon un format prédéfini, généralement stockées dans des bases de données relationnelles. Elles sont facilement recherchables et analysables (ex: tableurs, bases de données SQL).
- Données semi-structurées : Données qui ont une certaine structure organisationnelle, mais qui ne sont pas aussi rigides que les données structurées. Elles peuvent contenir des balises ou des marqueurs pour séparer les éléments (ex: fichiers XML, JSON).
- Données non structurées : Données qui n’ont pas de structure prédéfinie et ne sont pas organisées de manière prédéterminée. Elles sont plus difficiles à analyser et à traiter avec des méthodes traditionnelles (ex: texte libre, images, vidéos).
- Traitement par lots : Méthode de traitement des données où un grand volume de données est collecté sur une période, puis traité en une seule fois. Utilisé pour des tâches qui ne nécessitent pas de résultats en temps réel.
- Traitement en continu : Approche de traitement des données où les données sont traitées dès leur arrivée, permettant des analyses et des réactions en temps quasi réel.
- Traitement de flux : Méthode de traitement des données en continu, spécialement conçue pour gérer des flux de données en temps réel. Elle permet d’analyser et de réagir aux données au fur et à mesure qu’elles arrivent, sans nécessairement les stocker de manière permanente.
Dr Maguy Medlej, consultante senior en stratégie data