Siirry pääsisältöön

Tutkimusaineistojen hallinta

Dokumentointi ja metatiedot

Aineiston dokumentoinnilla tarkoitetaan tutkimusaineiston kuvailua, eli sen avaamista, mitä aineistot ovat, miten ne ovat syntyneet ja miten niitä voidaan käyttää. Kuvailevaa tietoa kutsutaan metatiedoksi tai metadataksi. Kuvailu auttaa ymmärtämään, tulkitsemaan ja käyttämään aineistoja sekä tutkimuksen aikana että sen jälkeen. Laadukas kuvailu on osa hyvää tieteellistä käytäntöä ja takaa sen, että aineisto on mahdollista löytää ja siihen voi viitata.

Aineiston dokumentoinnilla kuvaat sekä itsellesi että muille, mistä aineistossa on kyse. Suunnittele aineiston dokumentointi mahdollisimman tarkkaan ja aloita se heti tutkimusprojektin alussa. Huolellisesti suunniteltu ja toteutettu dokumentointi helpottaa tutkimustyötä ja sitä on hankalaa, ellei mahdotonta, toteuttaa jälkikäteen.

Kaavio erilaisista metatiedon tyypeistä, kuvituskuva

Tutkimusaineiston metadata. Kuva: Tampereen yliopiston kirjasto: Tutkimusaineistojen hallinta. CC BY 4.0

Kuvailun tarkkuus, laajuus ja toteutustapa riippuvat aineiston määrästä ja luonteesta. Tutkimuksen aikana kuvailu keskittyy aineiston sisällönkuvailuun ja tutkimuksen kannalta olennaisiin tietoihin, kuten muuttujiin ja keruumenetelmiin. Tutkimuksen jälkeen aineistolle laaditaan julkaisuvaiheen kuvailutiedot, joihin sisältyvät esimerkiksi tiedot aineiston sijainnista ja käyttöoikeuksista. Tutkimusaineiston metadata voidaan julkaista, vaikka itse aineistoa ei julkaistaisi.

Kuvailun hyviä käytäntöjä

  • Tiedostojen ja kansioiden nimeäminen: luo yhtenäiset tiedostojen ja kansioiden nimeämiskäytännöt ja noudata niitä johdonmukaisesti. Sovi yhtenäisistä nimeämiskäytännöistä tutkimusryhmän kanssa.
  • Kansiorakenne: suunnittele aineistolle sopiva looginen kansiorakenne.
  • Readme-tiedostot: luo kuvailutiedot sisältävä tekstitiedosto.
  • Versionhallinta
  • Metadatastandardit: etenkin jos aineistoa tai kuvailutietoa on paljon, kannattaa käyttää aineistolle sopivaa metadatastandardia. Jos tiedät, missä aiot julkaista aineiston, tarkista valitun arkiston vaatimukset.
  • Tietokanta- ja aineistonhallintaohjelmistot: hyödynnä valmiita ohjelmistoja, jotka usein tuottavat metadataa myös automaattisesti.
  • Sanastot: laadi sanasto, jossa selitetään esim. käytetyt muuttujat, termit ja lyhenteet.

Metadatastandardit

Metadatastandardit ovat malleja tutkimusaineiston kuvailuun. Monille aloille on laadittu omia metadatastandardeja ja tutkimusaineistoja vastaanottavilla arkistoilla on usein käytössään tietty standardi. Voit etsiä tietoa erilaisista metadatastandardeista esimerkiksi seuraavista oppaista ja sivustoilta:

Readme-tiedostot

Seuraavassa on joitakin yleisiä ohjeita niistä asioista, joita projektista ja aineistosta tulisi kuvailla tieteenalasta riippumatta. Nämä tiedot tulee liittää readme.txt-tiedostoon tai vastaavaan aineistojen yhteyteen.

  • TITLE: Aineiston tai sen tuottaneen projektin nimi
  • CREATOR: Aineiston luoneet henkilöt tai organisaatiot osoitetietoineen
  • DESCRIPTION Aineiston ja kansiorakenteen yleiskuvaus
  • LOCATION: Kun aineisto liittyy fyysiseen paikkaan, kirjaa sen alueellinen kattavuus
  • METHODOLOGY: Kuvaile, miten aineisto on koottu tai luotu, mukaan lukien käytetty välineistö ja ohjelmistot, koeohjelmat, haastattelurungot ym. seikat, joita kuvailisit myös tutkimuksenaikaisiin muistiinpanoihin
  • INFORMATION ABOUT DATA FILES
    • IDENTIFIER: Aineiston identifiointinumero, vaikka se olisi vain organisaation sisäinen projektitunnus
    • LOCATION: Mistä aineiston voi löytää
    • DATES: Keskeiset aineistoon liittyvät päivämäärät, ml. projektin alku- ja loppupäivät, aineiston muokkaus- ja valmistumispäivät sekä ajanjakso, jota aineisto kattaa
    • SUBJECT: Avainsanat tai ilmaukset, joilla aineiston aihetta tai sisältöä kuvataan
    • FILE FORMATS: Mitä tiedostoformaatteja on käytetty
  • FUNDERS: Tutkimuksen rahoittajat
  • RIGHTS: Aineistoon liittyvät immateriaalioikeudet
  • LANGUAGE: Aineiston sisällön kieli (kielet), jos sellaisia on

Tiedostojen ja kansioiden nimeäminen

Suunnittele tiedostojen ja kansioiden nimeämiskäytäntö heti projektin alussa. Suunnitelman tulee olla niin tarkka ja laaja, että se kattaa koko tutkimuksesi aikaiset tarpeet. Nimeämissuunnitelman tavoitteina on

  • pystyä itse helposti tulkitsemaan, mitä tietoa kukin tiedosto sisältää (human readable filenames)
  • auttaa muita tiedostojesi hyödyntäjiä tulkitsemaan, mitä tietoa kukin tiedosto sisältää
  • huolehtia siitä, että nimet ovat koneluettavia (computer readable filenames)
  • pystyä pitämään kaikki tutkimuksesi tiedot tallessa ja loogisessa järjestyksessä.

Huolehdi siitä, ettet käytä tiedostojen ja kansioiden nimeämisessä henkilötietoja tai muuta sensitiivistä tietoa.