Datasjø

Fra Wikipedia, den frie encyklopedi
Eksempel på en database som kan brukes i en datasjø (i dette tilfellet strukturerte data)

En datasjø[1][2] (også kalt «datadump») er en samling av data lagret i sitt råformat,[3] som vanligvis innebærer filer eller binærobjekter. Datasjøen er vanligvis ett enkelt datalager som inneholder råkopier av data fra kildesystem, sensordata, og lignende,[4] samt transformerte data som brukes til oppgaver som rapportering, visualisering, avansert analyse og maskinlæring.

Datasjøen kan inneholde strukturerte data fra relasjonsdatabaser (rader og kolonner), semi-strukturerte data (CSV, logger, XML, JSON), ustrukturerte data (e-post, dokumenter, PDF-filer) og binære data (bilde, lyd, video).[5] Datasjøen kan være lagret lokalt (on-prem) eller i nettskyen, hvorav mange benytter distribuerte filsystemer basert på Apache Hadoop.[6]

Det har vært gradvis økende akademisk interesse for begrepet datasjøer, og det har blitt nevnt som en metode for å administrere stordata, men dette har også møtt en viss kontrovers, og avhenger av en moden implementasjon for å kunne lykkes.[7] Datasjøen kan gi ett enkelt sted for innsamling, organisering og deling av personopplysninger.[8] En annen kritikk av begrepet datasjø er at det har begrenset nytte fordi det brukes på så mange forskjellige måter. [9]

Utvidelser[rediger | rediger kilde]

Datasjøhus (engelsk: data lakehouse) er en foreslått hybrid tilnærming som ligger mellom datasjø og datavarehus,[10] og forsøker å løse noen av utfordringene med datasjøer.[11][klargjør] Det har blitt beskrevet som "å starte med en datasjø-arkitektur og forsøke å legge til datavarehus-kapabiliteter".[12] Ifølge Oracle kombinerer arkitekturen "fleksibel lagring av ustrukturerte data fra en datasjø med administrasjonsmulighetene og verktøyene fra datavarehus".[13]

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. ^ Jørgenrud, Marius B. (12. august 2019). «En datasjø skal drikke fra alle fagsystemene. Dette bør du vite for å unngå at sjøen blir ei hengemyr». Digi.no. Besøkt 25. februar 2022. 
  2. ^ Blichfeldt, Jan Atle. «Vet du hva en datasjø er? - Smart Molde». www.smartmolde.no. Arkivert fra originalen 28. januar 2022. Besøkt 25. februar 2022. 
  3. ^ Harris, Jim (21. november 2016). «The growing importance of big data quality». SAS Institute. Besøkt 17. april 2023. 
  4. ^ «What is a data lake?». Besøkt 12. oktober 2020. 
  5. ^ Campbell, Chris. «Top Five Differences between DataWarehouses and Data Lakes». Arkivert fra originalen 15. september 2017. Besøkt 19. mai 2017. 
  6. ^ Tuulos, Ville. «Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances». 
  7. ^ Needle, David (10. juni 2015). «Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques». eWeek. Besøkt 1. november 2015. «Walter Maguire, chief field technologist at HP's Big Data Business Unit, discussed one of the more controversial ways to manage big data, so-called data lakes.» 
  8. ^ Walker, Coral; Alrehamy, Hassan. «Personal Data Lake with Data Gravity Pull». 2015 IEEE Fifth International Conference on Big Data and Cloud Computing. ISBN 978-1-4673-7183-4. doi:10.1109/BDCloud.2015.62. 
  9. ^ «Are Data Lakes Fake News?». Besøkt 10. august 2017. 
  10. ^ «What is a Data Lakehouse?». Databricks (engelsk). 11. februar 2020. Besøkt 17. april 2023. 
  11. ^ Marr, Bernard. «What Is A Data Lakehouse? A Super-Simple Explanation For Anyone». Forbes (engelsk). Besøkt 17. april 2023. 
  12. ^ «What is a Data Lakehouse?». Snowflake (engelsk). Besøkt 17. april 2023. 
  13. ^ What is a Data Lakehouse? | Oracle