Siirry pääsisältöön

Lapin AMKin Avoimen TKI-toiminnan opas (päivitys käynnissä)

Tunnisteellinen aineisto ja anonymisointi

Tunnisteellisen aineiston käsittely vaatii erityistä huolellisuutta.

  • Tällä sivulla on esitelty lyhyesti  tunnisteellisen tiedon käsitteistöä ja tunniteellisen tiedon käsittelyyn liittyviä toimenpiteitä. Sivun sisältö perustuu Tietoarkiston Aineistonhallinnan käsikirjaan, joka antaa kattavan ohjeistuksen tunnisteellisen tiedon käsittelyyn sekä ohjeet kvantitatiivisen ja kvalitatiivisen aineiston anonymisointiin.
     
  • Tietoarkisto: Aineistonhallinan käsikirja, Tunnisteellisuus ja anonymisointi

Henkilötieto ja tunnisteellisuus

Henkilötietoja tulee kerätä vain siinä määrin kuin on välttämätöntä tutkimuksen toteuttamiseksi. Henkilötietoja ei saa kerätä vain siltä varalta, että ne saattavat olla hyödyllisiä. Henkilötietojen keräämiselle tulee aina olla suunniteltu tutkimuksellinen tarve.
 

  • EU:n tietosuoja-asetuksen määritelmän mukaan henkilötiedoilla tarkoitetaan kaikkia tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön liittyviä tietoja.
  • Tunnistettavissa olevana pidetään luonnollista henkilöä, joka voidaan suoraan tai epäsuorasti tunnistaa erityisesti tunnistetietojen, kuten nimen, henkilötunnuksen, sijaintitiedon, verkkotunnistetietojen tai hänelle tunnusomaisen esimerkiksi fyysisen, taloudellisen tai kulttuurillisen tekijän perusteella. Tutkimusaineistoihin voi myös sisältyä tunnistetietoja tutkittavien lähipiiristä tai muista kolmansista henkilöistä. Myös heitä tunnistettavasti käsittelevät tiedot ovat aina henkilötietoja.

 

Tunnistetietoja ovat

  • Suorat tunnisteet:
    • koko nimi
    • henkilötunnus
    • henkilönimen mukainen sähköpostiosoite
    • biometriset tunnisteet (sormenjälki, kasvokuva, ääni, silmän iiris, kämmenen muoto, käsin tehty allekirjoitus).
       
  • Vahvat epäsuorat tunnisteet:
    • postiosoite
    • puhelinnumero
    • auton rekisteri
    • harvinainen ammattinimike
    • hyvin harvinainen sairaus
    • erilaiset yksilöivät koodit (esimerkiksi opiskelijatunnus).
       
  • Epäsuorat tunnisteet (tiedot, jotka yksin eivät riitä tunnistamiseen, mutta yhdistettynä voivat mahdollistaa henkilön tunnistamisen):

    • sukupuoli
    • ikä
    • koulutus
    • ammattiasema
    • kotitalouden koostumus
    • tulot
    • siviilisääty
    • kieli
    • kansallisuus
    • etninen tausta
    • työpaikka
    • koulu
    • asuinaluetta koskevat muuttujat (esimerkiksi postinumero, kaupunginosa tai kunta)
    • päivämäärä.

Tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua, asiallisesti perusteltua ja tietojen käsittelyyn on laillinen käsittelyperuste (esimerkiksi tutkittavan suostumus tai yleisen edun mukainen tutkimus).

Tunnisteellisen tiedon käsittely

Tunnisteellisten tutkimusaineistojen käsittelyn tulee olla suunnitelmallista ja huolellista. Tutkittavien yksityisyyden suojaa ei saa vaarantaa aineiston huolimattomalla säilyttämisellä tai suojaamattomilla sähköisillä siirroilla. Henkilötietojen käsittelyn yleisiä suojatoimia ovat pseudonymisointi, anonymisointi ja säilytyksen rajoittaminen.

 

Pseudonymisointi

  • Pseudonymisointi tarkoittaa  aineiston tunnisteellisten tietojen poistamista tai korvaamista peitetiedoilla tai koodeilla. Prosessin jälkeen ne säilytetään organisatorisesti ja teknisesti erillään aineistosta.  Organisatorisilla toimenpiteillä tarkoitetaan tietojen suojattua fyysistä käyttöympäristöä ja hallinnollisesti rajattua ja valvottua käyttöoikeutta. Teknisillä toimenpiteillä viitataan tietoturvallisiin tallennusratkaisuihin. Pseudonyymistä aineistosta tulee anonyymi, kun erillään säilytettävät tunnistetiedot hävitetään (esimerkiksi koodiavain, henkilötiedot, tiedot muutettujen arvojen muodostamistavoista).

Anonymisointi

  • Täysin anonyymiä tietoa ei ole olemassa. Anonymisoinnilla voidaan kuitenkin päästä sellaiseen tulokseen, jossa yksittäisiä henkilöitä ei voi annettujen tietojen perusteella tai tietoja yhdistelemällä tunnistaa. Aineisto on anonyymi, jos sitä ei voi kohtuullisin keinoin enää yhdistää alkuperäisiin henkilötietoihin.
     
  • Tutkimusaineiston anonymisointiin ei ole olemassa valmista kaikkiin aineistoihin soveltuvaa menettelytapaa. Anonymisointi tulee suunnitella aina aineistokohtaisesti ottaen huomioon aineiston
    • ominaisuudet (aineiston ikä, arkaluonteisuus, vastaajajoukon koko, sisällön  yksityiskohtaisuus), 
    • käyttöympäristö (ketkä dataa käyttävät ja missä, mitä ulkopuolisia tietoja on saatavilla sillä hetkellä, fyysinen säilyttäminen)  ja
    • käytettävyys (miten anonymiteetin ja aineiston käytettävyyden saa yhdistettyä niin, että aineisto olisi tutkimuksellisesti käyttökelpoinen anonymisoinnin jälkeen).
  • Anonymisointiprosessin hahmottamiseksi niin kvantitatiivisissa kuin kvalitatiivisissa aineistoissa voi käyttää apuna seuraavia kysymyksiä:
    • Mitä suoria tai epäsuoria tunnisteita aineisto sisältää?
    • Sisältääkö aineisto ainutlaatuisia tai harvinaisia havaintoja?
    • Mitä aineiston tietoja yhdistelemällä henkilö saattaa olla tunnistettavissa?
    • Onko saatavilla ulkopuolisia tietoja, jotka voidaan yhdistää aineistoon niin, että havainnot/tutkittavat voivat olla tunnistettavissa?
    • Mihin aineistoa tullaan käyttämään ja mitä aineiston ominaisuuksia voidaan säilyttää  ja mitä voidaan poistaa anonymisointiprosessissa.

Säilytystarve

  • Tutkimuksen toteuttamiselle tarpeettomat henkilötiedot poistetaan heti, kun se on mahdollista. Esimerkiksi aineiston keruuvaiheessa tarvitut nimitiedot, osoitteet ja vastaavat tunnisteet hävitetään heti, kun ne eivät ole enää välttämättömiä tutkimuksessa. Samoin tietojen yhdistämiseen tarvittu henkilötunnus voidaan hävittää, kun sitä ei enää tarvita.