Data mining

Fra Wikipedia, den frie encyklopedi
Gå til: navigasjon, søk

Data mining (datautvinning, eller kunnskapsfunn i databaser) vil si å gjennomgå store, eksisterende databaser for å generere ny informasjon. [1] Hovedmålet med data-utvinningsprosessen er å hente ut informasjon fra datasett og transformere det til en forståelig struktur for videre bruk.

Bakgrunn[rediger | rediger kilde]

Manuell utvinning av mønster fra data har eksistert i mange århundrer med metoder som Bayes Theorem (1700-tallet) og regresjonsanalyse (1800-tallet). Utviklingen av datateknologi har økt muligheten til innhenting, lagring og manipulering av data. Ettersom at datasett har økt i størrelse og kompleksitet, har manuell utvinning blitt erstattet med indirekte og automatiserte måter å prosessere data på. Eksempler på dette er genetisk algoritme (1950-tallet), beslutningstre (1960-tallet), nevralt nettverk (1970-tallet) og støttevektormaskiner (1990-tallet).

Prosess[rediger | rediger kilde]

Kunnskapsfunn i databaser er vanligvis definert i disse trinnene:

  1. Valg
  2. Pre-prossesering
  3. Transformering
  4. Datautvinning
  5. Tolkning/evaluering [2]

Det finnes mange variasjoner av denne prosessen, og det hele kan forenkles til tre steg:

  1. Pre-prossesering
  2. Datautvinning
  3. Validering av resultat

Pre-prosessering[rediger | rediger kilde]

Før datautvinningsalogitmer kan bli brukt, må man velge et konkret datasett. På grunn av at datautvinning bare kan oppdage mønster som faktisk er tilstede i data, må det valgte datasettet være stort nok til å kunne inneholde disse mønstrene. Samtidig skal mønstrene bli funnet innen en akseptabel tidsfrist. Pre-prossesering er viktig for å analysere multivariable datasett før datautvinningen. Datasettet blir deretter renset for å fjerne observasjoner som inneholder støy eller mangler data.

Datautvinning[rediger | rediger kilde]

Datautvinning består av seks forskjellige klasser med oppgaver[2]:

  • Anomali deteksjon (registrering av endring/avvik) — Identifisering av uvanlige dataposter som kan være interessante, eller datafeil som krever videre undersøkelser.
  • Assosiasjonsregler (modellering av avhengigheter) — søk etter sammenhenger mellom variabler. Eksempel: En matbutikk kan samle inn data på kundene sine kjøpsvaner. Ved bruk av assosiasjonregler kan butikken finne ut hvilke produkt som ofte blir kjøpt sammen og bruke denne informasjonen i markedsføringsformål.
  • Klynger — oppgaven med å gruppere et sett objekter på en slik måte at objekter i samme klynge er mer lik hverandre (på en eller annen måte), enn de er lik objektene i en annen klynge.
  • Klassifikasjon — Identifisere hvilken kategori, av et sett med kategorier, en ny observasjon hører til. Eksempel: Kategorisere en e-post som spam eller ikke-spam.
  • Regresjon — Forsøk på å finne en funksjon som modellerer data med minst feil.
  • Oppsummering — gir en mer kompakt representasjon av datasettet, inkludert visualisering og rapportgenerering.

Validering av resultat[rediger | rediger kilde]

Datautvinning kan utilsiktet bli misbrukt, og kan da gi resultater som synes å være av betydning. Disse resultatene vil ikke kunne forutsi fremtidig atferd, og kan ikke reproduseres på en ny prøve av data.

Det siste steget av kunnskapsfunn fra data er å verifisere at mønstrene som er produsert av datautvinningsalgoritmene oppstår i større datasett. Mønstre funnet av algoritmene er ikke nødvendigvis gyldige. Det er vanlig for algoritmer å finne mønstre i treningssettet som ikke er tilstede i det generelle datasettet. Dette kalles overtilpassing. For å løse dette bruker evalueringen et testsett med data som algoritmen ikke er trent i. De lærde mønstrene påføres dette datasettet, og det faktiske resultatet blir sammenlignet med ønsket resultat.

Hvis de lærde mønstrene ikke oppfyller de ønskede standarder, er det nødvendig å revurdere og endre pre-prosessering og datautvninngstrinnene. Hvis de derimot oppfyller de ønskede standarder, så må man tolke de lærde mønstrene og gjøre dem om til kunnskap.

Eksempler på bruk av datautvinning[rediger | rediger kilde]

  • Forretning — En forretning kan bruke datautvinning til å gjøre markedsanalyser for å identifisere nye produktpakker, finne årsaker til produksjonsproblemer, unngå kundeflukt og få nye kunder, mersalg og profilere kunder med bedre presisjon. [3]
  • Menneskerettigheter — Datautvinning gjør det mulig å finne brudd på fundamentale menneskeretter, i tilknytning til produksjon og publisering av ugyldige eller uredelig juridiske dokument ved ulike offentlige etater. [4] [5]
  • Musikk — Datautvinningsteknikker har blitt brukt til å finne likheter i musikk, som radiolister og CD databaser, for å klassifisere musikken i sjangre på en mer objektiv måte. [6]

Personvern og etikk[rediger | rediger kilde]

Selv om uttrykket datautvinning i seg selv ikke har noen etiske implikasjoner, blir det ofte assosiert med utvinning av personers atferd.[7] Måten datautvinning blir brukt på, kan i noen tilfeller, føre til spørsmål angående personvern, lovlighet og etikk. [8]

Datautvinning krever forberedelse av data som kan avdekke informasjon eller mønstre som kan sette taushetsplikten og personvernet i fare. Dette kan oppstå gjennom data aggregering. Data aggregering går ut på å kombinere data sammen (eventuelt fra forskjellige kilder) på en måte som forenkler analysen. I utgangspunktet er ikke dette datautvinning, men et resultat av forberedelsen til analysen av data. Trusselen mot personvernet kommer når dataene er kompilert fordi den eller de som utvinner data, eller alle som har tilgang til det nykompilerte datasettet, kan være i stand til å identifisere individ, spesielt når dataene originalt var anonyme. [9] [10] [11] Et eksempel på dette er tilfellet hvor journalister klarte å identifisere flere individ basert på et sett med anonymisert søkehistorikk som AOL, ved en feiltakelse, publiserte i 2006. [12]

Før man begynner med datautvinning er det anbefalt at at man kjenner til følgende: [13]

  • Formålet med data-innsamlingen
  • Hvordan dataen vil bli brukt
  • Hvem kommer til å ha mulighet til å utvinne dataen, bruke selve dataen og utledningene.
  • Statusen til sikkerheten rundt å få tilgang til data
  • Hvordan innsamlet data blir oppdatert

Situasjonen i USA[rediger | rediger kilde]

I USA har bekymringer for personvernet vært adresser i en viss grad av den Amerikanske Kongressen, via passeringer av regulatoriske kontroller som Health Insurance Portability and Accountability Act (HIPAA). HIPAA krever at enkelt personer gir "informert samtykke" om informasjon de gir, for nåværende og fremtidig bruk.

Beskyttelse gjennom informert samtykke blir undergravd av kompleksiteten til samtykkeerklæringer som kreves av deltakere. Samtykkeerklæringene er ofte uforståelig for den gjennomsnittlige mannen i gaten. [14] Dette understreker nødvendigheten til data anonymitet i data aggregering- og datautvinningspraksiser.

Personvernlovgivning som HIPAA og Family Educational Rights and Privacy Act (FERPA) gjelder kun for de spesifikke områdene som slike lover adresserer. De fleste bedrifters datautvinning i USA, er ikke kontrollert av noen lovgivning.

Situasjonen i Europa[rediger | rediger kilde]

Europa har sterke personvernlover, og det arbeides med å styrke rettighetene til forbrukerne ytterligere. Men, U.S.-E.U. Safe Harbor-prinsippene utsetter europeiske brukere for personvern utnyttelse fra amerikanske selskap. Som en konsekvens av Edward Snowden's Global surveillance disclosure, har det blitt en økt diskusjon om å oppheve denne avtalen.

Referanser[rediger | rediger kilde]

  1. ^ «Data mining». Oxford Dictionaries. Besøkt 3. november 2014. 
  2. ^ a b Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). From Data Mining to Knowledge Discovery in Databases. Besøkt 17. desember 2008
  3. ^ O'Brien, J. A.; Marakas, G. M. (2011). Management Information Systems. New York: McGraw-Hill/Irwin. 
  4. ^ Zernik, Joseph; Data Mining as a Civic Duty – Online Public Prisoners' Registration Systems, International Journal on Social Media: Monitoring, Measurement, Mining, 1: 84–96 (2010)
  5. ^ Zernik, Joseph; Data Mining of Online Judicial Records of the Networked US Federal Courts, International Journal on Social Media: Monitoring, Measurement, Mining, 1:69–83 (2010)
  6. ^ Pachet, François; Westermann, Gert; and Laigre, Damien; Musical Data Mining for Electronic Music Distribution, Proceedings of the 1st WedelMusic Conference, Firenze, Italia, 2001, s. 101–106.
  7. ^ Seltzer, William. The Promise and Pitfalls of Data Mining: Ethical Issues. 
  8. ^ Pitts, Chip (15. mars 2007). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. 
  9. ^ Ohm, Paul. «Don't Build a Database of Ruin». Harvard Business Review. 
  10. ^ Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 3. desember 2013
  11. ^ Darwin Bond-Graham, Inside the Tech industry’s Startup Conference, Counterpunch.org, 2013.09.11
  12. ^ AOL search data identified individuals, SecurityFocus, august 2006
  13. ^ Think Before You Dig: Privacy Implications of Data Mining & Aggregation, NASCIO Research Brief, september 2004
  14. ^ Biotech Business Week Editors (30. juni 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, hentet fra LexisNexis Academic 17. november 2009