Datamaske

Fra Wikipedia, den frie encyklopedi

En datamaske (engelsk: data mesh) er et domeneorientert dataarkitektur-paradigme for administering av stordata som et alternativ til datasjøer (data lakes) og tradisjonelle datavarehus, og er ment å kombinere noen av fordelene fra datareservoar og datavarehus. En datamaske kan bestå av et eller flere datavarehus og/eller datasjøer, samt felles verktøy og standarder for disse. En viktig komponent i datamasken er et tilkoblingslag for å kontrollere, administrere og støtte datatilgang på tvers av organisasjonen.

Datamasken er en type dataplattformarkitektur som omfavner allestedsnærværende data i bedriften ved å utnytte et domeneorientert og selvbetjent design. Hovedtanken med en datamaske er at man istedenfor å bygge en stor sentralisert dataplattform lar bedriftsdataarkitekter lage distribuerte datanettverk. Dette gjøres ved at datamasken fødererer dataeierskap blant dataeierne, som i sin tur holdes er ansvarlige for å levere dataene som et produkt. Hvert av domenene har da sine egne ETL-kommandokøer (ETL-pipelines), men deler på lagring, katalogisering og tilgangskontroll til rådataene. Datamasker kan hjelpe med å unngå informasjonssiloer.

Design basert på datamasker har blant annet ha blitt tatt i bruk av nettbutikken Zalando.[1]

Historie[rediger | rediger kilde]

Begrepet data mesh ble først definert av Zhamak Dehghani i 2019,[2] mens hun jobbet som prinsipalkonsulent hos teknologiselskapet ThoughtWorks. Hun har fått støtte for idéene sine fra Agile Lab og Deloitte.[3]

Navnet datamaske kommer fra maskenettverk, som i likhet med datamaske-arkitekturen er basert på en desentralisert nettverksarkitektur. Det domeneorienterte og selvbetjente designet låner dermed den amerikanske teknologen Eric Evans sin teori om domenedrevet design som han lanserte i 2003.[4]

Prinsipper[rediger | rediger kilde]

Datamasker er definert etter prinsipper som:

Domeneorientert, desentralisert dataeierskap og arkitektur
Hvert domene håndterer sine egne kommandokøer eller kanaler (data pipelines).
Data som produkt
(DaaP, data as a product)[5] Hvert domene må definere en tjenestenivåavtale og kvalitetsmål som de kan garantere for sine forbrukere.
Selvbetjent datainfrastruktur som en platform
Muliggjør blant annet selvbetjent forretningsinnsikt (self-service business intelligence). Abstraherer kompliserte tekniske detaljer ved å ha en sentral plattform med domeneagnostisk datainfrastruktur som håndterer motorene for data pipeline-ene, lagring og strømmeinfrastruktur. Imidlertid er hvert av domenene ansvarlige for å gjøre seg nytte av disse komponentene for å lage spesialtilpassede ETL-pipelines.
Føderert forvaltning av dataressurser
I motsetning til en monolittiske datainfrastruktu støttes distribuerte, domenespesifikke datakonsumenter. Grunnlaget for dette gjøres ved å definere datastandarder som legger til rette for samarbeid på tvers av domenene. Dette kan være standarder for formatering, governance, oppdagbarhet, metadata-felter, med mer. Det legges til rette for å benytte dataene på tvers av domener, både når det gjelder rådata og vaskede data.

Skalerbarhet[rediger | rediger kilde]

Zhamak har argumentert for at dataarkitekturen kan skaleres ved å brytes ned i mindre, domeneorienterte komponenter.[6]

Sammenlignet med data fabric[rediger | rediger kilde]

Begrepene data mesh (datamaske) og data fabric brukes av og til om hverandre, men data fabric er en mer arkitektonisk tilnærming til datatilgang, mens en datamaske forsøker å koble dataprosesser med brukere.[7][8]

Se også[rediger | rediger kilde]

  • Dataforvaltning
  • Datahvelvmodellering, metode for datamodellering med lagring av data fra ulike driftssystemer og sporing av dataopprinnelse, tilrettelagt for revisjon, lastehastigheter og resiliens
  • Datavarehus, veletablert type databasesystem for å organisere data på en tematisk rettet måte
  • Mikrotjenester (Microservices), variant av tjenesteorientert arkitektur hvor en tjeneste sys sammen av løst koblede tjenester
  • ETL og ELT

Referanser[rediger | rediger kilde]

  1. ^ «Data Mesh in Practice: How Europe's Leading Online Platform for Fashion Goes Beyond the Data Lake». Databricks (engelsk). Besøkt 28. januar 2022. 
  2. ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022. 
  3. ^ «From data mess to a data mesh». Deloitte Netherlands (nederlandsk). Besøkt 28. januar 2022. 
  4. ^ Moses, Barr (19. august 2021). «What is a Data Mesh — and How Not to Mesh it Up». Medium (engelsk). Besøkt 28. januar 2022. 
  5. ^ «Data Mesh defined | James Serra's Blog» (engelsk). 16. februar 2021. Besøkt 28. januar 2022. 
  6. ^ «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh». martinfowler.com. Besøkt 28. januar 2022. 
  7. ^ ParamitaGhosh (3. november 2021). «Data Fabric vs. Data Mesh». DATAVERSITY (engelsk). Arkivert fra originalen 28. januar 2022. Besøkt 28. januar 2022. 
  8. ^ States, Houston TX United (25. oktober 2021). «Data Mesh Vs. Data Fabric: Understanding the Differences». Datanami. Besøkt 28. januar 2022.