Data samlet fra åpne kilder er ikke ufarlig

Olav Lysne Direktør SimulaMet og professor Oslo Met

Inga Strümke NTNU og SimulaMet

Michael Riegler SimulaMet og Universitetet i Tromsø

Justisdepartementet har i et høringsnotat foreslått at Politiets sikkerhetstjeneste (PST) skal kunne lagre data fra åpne kilder på internett i 15 år. Dette er data vi selv har gjort tilgjengelig på nett, for eksempel en tweet, en post i et kommentarfelt eller et Facebook-innlegg.

Selv om dataene er publisert frivillig, kan de ha et betydelig skadepotensial dersom man tar inn over seg kraften som ligger i moderne dataanalyse.

I utgangspunktet står vi overfor et klassisk personvernsdilemma.

På den ene siden er det skremmende om en hemmelig tjeneste kan sitte på all din nettaktivitet 15 år tilbake i tid. Hvilken effekt det vil ha på demokratisk ønskelige meningsytringer, vet vi lite om. Men undersøkelser viser at overvåking har en nedkjølingseffekt på offentlig diskurs.

På den andre siden står Norges behov for beskyttelse. Vi vet at både spionasje og påvirknings- og terroroperasjoner utføres i Norge. PST er satt til å håndtere dette. Justisdepartementet argumenterer med at slik innsamling og lagring er nødvendig for at PST skal kunne gjøre jobben sin.

Innsikt fra små datamengder

Vi vil ikke ta stilling til hvorvidt lagringen er et forholdsmessig svar på utfordringene PST står overfor, men heller bruke høringsnotatet som et eksempel på en utbredt undervurdering i personverndiskusjoner: Åpne data har overraskende stort skadepotensial.

Moderne dataanalyse, inkludert maskinlæring og kunstig intelligens, øker dette potensialet løpende.

Et eksempel illustrerer hvor mye innsikt som kan ligge bare i små datamengder.

Anta at vi vet at en person er kvinne, 30 år gammel, barnløs, har vært sykmeldt en ukes tid og akkurat har sluttet å snuse. Reflekter så over sjansen for at personen er gravid.

Vi har listet opp fem enkeltstående fakta som hver for seg øker sannsynligheten litt. Med om lag 20 slike fakta kunne man statistisk anslått dette med stor sikkerhet.

Enda mer interessant er det at dette ble beregnet fra data som ikke omhandler graviditet, og som lett kan finnes i åpne kilder.

Uten å vite det, og uten å ha samtykket, kan denne personen ha lagt ut åpen informasjon som etter en analyse forteller om noe hun ønsket å holde for seg selv.

Anslå mental helsetilstand

Kunstig intelligens har tatt slike analysemuligheter lysår videre.

Feltet er i utviklingsfasen, og det fulle potensialet er ukjent. Men vi ser allerede mulighetene: Mental helsetilstand kan anslås ved bruk av data fra sosiale medier. Fotografier kan brukes til å estimere seksuell legning og politisk orientering.

Vi vet ikke hva som blir mulig i fremtiden, men kan slå fast at data du frivillig har delt, vil kunne avsløre informasjon du ikke hadde til hensikt å dele.

Kontroll med analysemetodene

Eksisterende personvernlovgivning omhandler hva data eksplisitt inneholder. Den har i liten grad tatt innover seg potensialet moderne analysemetoder har for å finne informasjon vi ikke vet at dataene inneholder.

Høringsnotatet fra Justisdepartementet lider av samme svakhet: Oppmerksomheten vies kontroll med datakilder. Eksemplene over viser at kontroll med analysemetodene PST kan benytte, er like viktig.

Konsekvensen bør bli regulering av hvilke analyser PST kan gjøre på lagrede data fra åpne kilder, så de ikke fritt kan utvinne personopplysninger personen selv ikke har delt. Skadepotensialet i analysemetoder må vurderes på selvstendig grunnlag.

Olav Lysne er medlem av EOS-utvalget, men skriver her kun i egenskap av å være professor i informatikk. EOS-utvalget sitt syn på hvorvidt PST skal kunne lagre åpent tilgjengelig informasjon fremgår av utvalgets høringsuttalelse.