This is a read only archive of pad.okfn.org. See the
shutdown announcement
for details.
Tutkimusdatan_julkaisun_hallinta
Avoimen tieteen käytännöt tutkimustyössä
Avoimen tiedon kuntakiertue - Open Knowledge Roadshow 2013
Tampere 27.9. ja Turku 10.10.
===================
Julkaistu Blogiteksti
===================
http://fi.okfn.org/2013/10/25/miten-tutkijan-kannattaa-hallita-julkaisudataansa
To 10.10. Avoimen tieteen käytännöt tutkimustyössä (9:30 - 11:30)
Ilmoittautuminen: https://okroadshowturku.eventbrite.com/
Esittelyteksti Eventbriteen ja tapahtuman kutsuun:
Tule oppimaan ja keskustelemaan avoimen tieteen käytännöistä. Miten julkaisen avoimesti? Miten avaan tutkimusdatani? Miksi hylkäisin tiukasti lisensoidut ja kalliit analyysiohjelmistot ja siirtyisin käyttämään avoimia ohjelmistoja? Mitä iloa on avoimuudesta tieteessä? Mitä yksittäinen tutkija voi tehdä ja missä koko tieteen teon rakenteiden rahoituksesta tutkijoiden meritoitumiseen ja julkaisufoorumeihin täytyy muuttua? Näitä kysymyksiä pohditaan vertaisoppimistapahtumassa, jonka alkupuolella on tutkija Markus Kainun johdanto aihepiiriin. Tavoitteena on laittaa aluilleen avoimen tieteen toimintaa Turun seudun korkeakouluissa.
- Mukana olevien esittäytyminen ja kiinnostus aiheeseen (katso pienet ennakkotehtävät alla)
- Inspiraatio: Markus Kainu (Aleksanteri -instituutin tutkija ja Open Science työryhmän jäsen) esittelee ja demonstroi avoimen tieteen käytäntöjä
- Keskustelu ja yhteenveto: "Miten turkulaisissa korkeakouluissa tuetaan avointa tiedettä nyt ja miten tilannetta voidaan yksin ja yhdessä parantaa?"
Ennakkotehtävä 1
Muokattavasta muistiosta osoitteesta: http://new.okfnpad.org/p/Tutkimusdatan_julkaisun_hallinta löydät kolme kysymystä johon toivomme teidän vastaavan jo ennen tilaisuutta:
* Kuka olet?
* Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
* Mitä odotat keskustelulta?
Ennakkotehtävä 2
Ennakkotehtävä
Vastaa seuraavaan kolmeen kysymykseen, jotta saamme mahdollisimman hyvän lähdön huomenna perjantaina:
Kuka olet?
Antti "Jogi" Poikola, Open Knowledge Finlandista. Olen ollut mukana käynnistelemässä Open Science työryhmää, jonka tarkoituksena on koota yhteen avoimesta tieteestä kiinnotuneita ihmisiä Suomessa. http://fi.okfn.org/wg/openscience/
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Suunnittelen itse parhaillaan väitöskirjatutkijaksi ryhtymistä (aiheraakileena "dataintensiivinen kaupunkitutkimus" http://bit.ly/connected_city_fi ) ja jo suunnitteluvaiheessa pyrin huomioimaan kaikki tutkijan tiedonhallintaan liittyvät prosessit ja välineet niin, että voisin tehdä omasta tutkimuksestani "avoimen tieteen" periaatteita noudattavan.
Mitä odotat keskustelulta?
Koska olen itse vasta pre-aloittava tutkija (joskin minulla on parin vuoden kokemus vuosilta 2006-2008 tutkijana työskentelystä), niin toivoisin pääseväni sparrailemaan ajatuksia avoimesta tutkimuksen teosta ja tutkimusdatan hallinnasta muiden ja mahdollisesti kokeneempienkin tieteentekijöiden kanssa.
Kuka olet?
Markus Kainu, sosiaalipolitiikan tohtorikoulutettava Helsingin yliopiston Aleksanteri-instituutista & Turun yliopiston sosiaalitieteiden laitokselta. Edustan avoimeen tieteen saralla ns. pragmaattista koulukuntaa (ks. [Fescher & Friesike 2013] ( http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2272036 ), eli olen etupäässä kiinnostunut siitä, miten avoimilla analyysimenetelmillä/softilla on mahdollista tehostaa tutkijoiden yhteistyötä jakamalla analyysikoodia sekä tekemällä omista analyyseistä ns. toistettavia. Sittemmin olen seurannut myös ns. demokraattisen koulukunnan keskustelua avoimen julkaisemiseen liittyen sekä ns. infrastruktuurikoulukunnan ajatuksian avoimen tieteen teknologisen arkkitehtuurin liittyen. Työskentelen humanistis-yhteiskuntatieteellisessä (YHT) tutkijayhteisössä ja pyrin sitä kautta pitämään esillä ns. ihmistieteiden näkökulmaa avoimen tieteen tekemisessä.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Käytän yhtäältä ns. tutkimusdatoja (muiden tutkimuskäyttöön keräämiä isoja kotitaloustason tulo-/kulutus-/asenneaineistoja) sekä toisaalta erilaisia tilastoja. Ns. tutkimusdatojen käyttö edellyttää yleensä melko raskasta lupaprosessia, jossa tarkasti määritetään mitä datalla saa tehdä ja kuka saa tehdä. Aineistojen salassapito on ehdotonta, mikä määrittää datan hallinnan: se pitää pitää salassa, mutta varmasti tallella. Näille datoille ominaista on kuitenkin laaja kansainvälinen käyttäjoukko, jonka kesken analyysikoodin jakaminen jakamisella olisi hirmuinen potentiaali. Sitä ei valitettavasti tapahdu, mutta yritän olla asiassa aloitteellinen <http://markuskainu.fi/r-tutorial/#eu-silc>
Eri maiden kansalaisten elinoloja kuvaavat tilastot ovat puolestaan olleet melko avoimia jo pidempään ja näiden "hallinnan" osalta olen pyrkinyt kehittämään työkaluja siihen, miten niiden käyttö käytännön analyyttisessä työssä olisi helpompaa. Esimerkkinä tästä työn alla oleva rustfare-paketti <http://markuskainu.fi/rustfare/> r-kielelle, jonka avulla Venäjän tilastoviranomaisen maa- ja aluetason tilastoja on helpompaa hyödyntää.
Noin yleisesti suhtaudun melko huolellisesti tutkimusdatan hallintaan ja pyrin kehittämään sitä suoraviivaisemmaksi ja luotetettavammaksi ja rohkaisen muita tekemään samoin. Koen että tällä hetkellä YHT-tieteissä tämä ei ole kovin hyvällä tolalla.
Mitä odotat keskustelulta?
Odotan näkemyksiä eri tieteenalojen ja eri metodien käyttäjiltä, kuten miten harjoittaa avointa tiedettä tilanteessa jos vaikka haastatteluaineisto on luottamuksellista vs. täysin vapaan ja avoimen tutkimusdatan käytön tilanteessa.
Kuka olet?
Tuomas Mäkilä, 2012 ohjelmistotuotannon kehitysprosessien mallintamisesta väitellyt tekniikan tohtori. Tällä hetkellä työskentelen mm. ketterien menetelmien käyttöä sulautettujen järjestelmien kehityksessä ja lisätyn todellisuuden käyttöä museoympäristössä tutkivissa hankkeissa Turun yliopiston BID-yksikössä.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Tutkimustyössämme käsittelemme monipuolisesti tutkimusdataa kyselytutkimusten tuloksista yritysten sisäiseen dokumentointiin. Lisäksi tietyissä projekteissa tuotamme itse tietokoneohjelmistoja, jotka omalla tavallaan toimivat tutkimuksen kohteena, tutkimusdatana laajasti katsottuna ja tutkimustuloksina.
Mitä odotat keskustelulta?
Käytännön vinkkejä tutkimuksen työmenetelmien kehittämiseen. Turkulaisen avoimen tieteen yhteisön rakentamista.
Jatka tästä - kopioi otsikot pohjaksi ja lisää omat tietosi:
To 10.10. Avoimen tieteen käytännöt - Turku (MUISTIINPANOT)
Alustuksen materiaalit: https://github.com/muuankarski/avointiede2013
Esittäytymiskierros:
What it actually takes to make research data open
Ari PIkkarainen (Biologian laitos) - avoin tiede on uusi asia, avoimet analyysiohjelmistot kiinnostavat
Sami Majaniemi - tieteen teossa on paljon rakenteellisia ongelmia, palkitsemisjärjestelmät yms. on kehittyneet tukemaan yksinäisen taistelijan toimintamallia
Marja-Liisa Mäkelä (aikuiskasvatustiede) - kaikki kiinnostaa, ensimmäisen vuoden jatko-opiskelija
Marja Pirttivaara (Sitra) - Forum Virium Helsinki ja Helsinki Region Infoshare ohjausryhmässä mukana. Myös tiedon hyödyntäjä, miten tutkimusrahoittajan näkökulma. Kartata ja ihmisten oma dna-tieto kiinnostavat.
Kaisa Könnölä (BID) - Tutkimuksen teko ja avoin data uutta. BID:llä on paljon yritysyhteistyötä, tulee paljon salaista dataa, miten tämän yhdistäisi avoimeen tieteeseen.
Tuomas Mäkilä - Pragmaattinen lähtökohta avoimeen tieteeseen - tieteen historiassa, tieteen tekijöiden ja tutkimuksen määrä oli niin pieni, että ihmiset pystyivät tuntemaan toisensa ja kaikki journaalit voitiin tilata kirjastoihin. Nyt tilanne on räjähtänyt käsiin, niche-aloillakaan ei enää voida tuntea kaikkea alan tutkimusta ja tutkijoita - syntyy kuppikuntia ja guruja, tutkimuksen toistettavuus ja laatu kärsivät. Avoimet toimintamallit ja dialogin mahdollistaminen tarvitaan.
Markuksen alustus:
Pienet piirit - Markus referoi Antin aluilleen panemaa wikipedia-artikkelia http://fi.wikipedia.org/wiki/Avoin_tiede
Avoimen tieteen diskurssit: yhteiskunnallinen, demokraattinen, pragmaattinen, infrastruktuuri, impaktin mittaaminen (Fecher & Friesike. (2013) Open Science: One Term, Five Schools of Thought. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2272036)
Määrälliseen tutkimukseen orientoitunut yhteiskunnallinen tutkimus usein: "Toistettavan tutkimuksen irvikuva - satojen megojen köntti, missä on tuhansia tiedostoja - varmaan täynnä virheitä"
Legacy-koodi synnyttää kuppikuntia "kultamunia muniva hanhi, jolla saadaan paljon julkaisuja"
Mikä valta yliopiston IT-hallinnolla on esim. työkalujen valintaan - pakotetaan ottamaan kaikenlaisia byrokraattisia softia, mutta kukaan ei pakota tai kannusta ottamaan käyttöön esim. hyviä analyysityökaluja.
- Haku Turun yliopiston intraan "opetuksen tuki" ja "tutkimuksen tuki", jälkimmäiseen ainoa resurssi on budjettimalli akatemiahakuihin.
- "intrahakuun pitäisi saada linkki johonkin avoimen tieteen juttuun"
(referenssi)tiedon haku ja louhinta - julkaisujen systemaattinen haku eri tietokannoista. (PubMed)
Journalistien ja muiden tulisi olla varovaisia, miten tulkitsevat dataa - tilastoharhat ovat yleisiä. Mutta esim. laskennallisilla menetelmillä jossain uudella aluevaltauksella voi mennä tieteellisissäkin artikkeleissa läpi virheellisiä tulkintoja.
Paikkatiedon ja aikasarjojen analysointi - R on erinomainen ympäristö näihinkin
Koodisanojen purkaminen tai välttäminen (Git, R, Latex, jne...)
Digital humanities: Mitä tarkoittaa arkistoille, kun ei olekaan enää fyysistä alkuperäiskappaletta (born digital)
- organisaatioiden tulisi tallentaa born digital -tietoa riippumatta siitä, tutkiiko siitä kukaan vielä
- yksittäisillä tutkijoilla, jos seuraavat avoimen tieteen menetlemiä on vastuu "data curationista", tähän esim. CSC
Esimerkkejä
- YLE:ltä on hävinnyt kaikki ennen vuosituhannen vaihdetta julkaistut nettiuutiset
- Huvudstadsbalet uudisti verkkolehden keskustelualustan ja 10 vuoden lukijakommentit katosivat
- Ahvenanmaalla on päätösten valmistelu ja keskustelu siirtynyt Facebookkiin, nyt arkistoidaan ruudunkaappauksilla
Ihmisen DNA-data on avoimena, koska NIH rahoittajana pakottaa, muiden
Negatiivisten tulosten julkaisu ja tutkimusprosessin auki kirjoittaminen
- Tutkimusprosessi on usein hiljaa 2-3 vuotta
Yhteenveto, mitä ajatuksia heräsi:
- Jogi: avoimen tieteen discurssien jäsennys inspiroi - laajempi koko tutkimuksen elinkaaren
- mitä, jos aineistoa ei voi julkaista sellaisenaan (laadullista, mutta eettisistä syistä ei avattavissa, anonymiteetti)
- Sami: aikoo härskisti plagioida Markuksen R-studioesimerkin - bugit korjattu demossa
- Kun ei itsekään pysty enää menemään taaksepäin ja palaaman datan pariin, niin vielä vaikeampaa se on sivullisille
- Tilastopuoli ja tulkinta, miten kun uudet ohjelmat ovat helppoja, mahdollistavat "ymmärtämättömän käytön"
- Miten vähän esim. väikkärien aineistoa ja tuloksiakin käytetään
- Demo: you don't have to be insane to play with the data, ready platforms make it easier - this can be used by different types of people from different fields - yhteistyö
- eri diskurssit: eri tahot ja organisaatiot voivat olla kiinnostuneita avoimuudesta (avoimesta tieteestä, avoimesta tiedosta) eri syistä
- Miten näitä asioita pitäisi julkaista, jotta eri toimijat voisivat kontribuoida ja hyödyntää -> esim. http://ropensci.org/ (paljon biostatistiikan alan tutkijoita)
- kehityskulku, ensin on tehty itse opittu ja huomattu, että asioita voi tehdä helposti -> nyt aletaan tulemaan asioiden kanssa ulos ja promoamaan laajempaan käyttöön
- tilastotieteen merkityksen nousu "datascientist on maailman seksikkäin ammantti"
- hyödyntäminen ja luottamuksen säilyttäminen kuuluu yhteen
- 5 Diskurssia
- Työvirta / työkalupakki "Markuksen demo" (pakottaa ajattelemaan tietyllä tavalla / data on irrallista prosessissa, mutta samalla luo lopputulokset)
- "datascientist on maailman seksikkäin ammantti" - ammattilainen tarvitsee keinoja datan hallinnointiin ja tietenkin datalukutaitoa
Jatko
Pe 27.9. Tutkimusdatan julkaisun hallinta (10:00 - 11:30)
Ennakkotehtävä
Vastaa seuraavaan kolmeen kysymykseen, jotta saamme mahdollisimman hyvän lähdön huomenna perjantaina:
Kuka olet?
Jukka Huhtamäki, tutkija Tampereen teknillisen yliopiston IISLabista. Toimin projektitutkijana ja valmistelen siinä sivussa myös omaa väitöskirjaani, joka käsittelee datalähtöistä visuaalista analytiikkaa, erityisesti verkostoanalyysiä. Olen kiinnostunut laajasti siitä, miten tietotekniikkaa saataisiin tuotua tutkijoiden ja muiden ihmisten avuksi (sen sijaan että sillä aiheutetaan lisää ongelmia). Uusi Tehdas on minulle mieluisa paikka ja onkin hienoa, että pääsen huomenna kanssanne miettimään avointa dataa, tietotekniikkaa ja tieteen tekemistä juuri siellä.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Monellakin tavalla. Ehdotin tämän tilaisuuden järjestämistä Troika-tapahtumassa mainittavista syistä: www.troikalearning.org/troika/40 . Omassa tutkimuksessani koostan, analysoin ja visualisoin dataa innovaatiotoiminnasta ja tieteestä ja törmään jatkuvasti siihen, että datan kerääminen ja käsitteleminen on hyvin hankalaa. Erilaisia tietokantoja on pilvin pimein ja harvaan niistä on helppoa pääsyä. Data on riekaleista ja esimerkiksi ihmisten yksilöinti hataralla pohjalla. Kuitenkin samaan aikaan datan perusteella tehdään erilaisia mittauksia, mm. arvioidaan laitosten ja yksilöiden tieteellistä tasoa.
Mitä odotat keskustelulta?
Olisi hienoa jos löytäisimme esim. TOP-5 -listan ("Tee ainakin nämä") omia julkaisutietojaan paimentavan tutkijan avuksi. Parhaassa tapauksessa huominen tilaisuus toimii lähtölaukauksena meidän avoimesta tutkimustiedosta kiinnostuneiden ihmisten väliselle yhteistyölle. Tiesithän että avointa tiedettä puidaan jo FB-ryhmässä Open Science Finland: https://www.facebook.com/groups/241398182642057/?fref=ts
Kuka olet?
Tuija Sonkkila, datakuraattori Aalto-yliopiston kirjastosta. Työni liittyy toistaiseksi lähinnä bibliometriikkaan, mutta mahdollisesti jatkossa myös siihen mistä varsinainen työnimeni puhuu.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Tieteellisten kirjastojen tulevaisuus on jotakin muuta kuin mitä niiden arki nyt on. Maailmalta kantautuu esimerkkejä, miten juuri kirjastot organisaatioina ja yksikköinä ovat yliopistoissa niitä jotka ovat ottaneet konsultoivan ja/tai kuratoivan otteen tutkimusdatasta. En tiedä tapahtuuko Suomessa niin, mutta mahdollista se on. Tutkimusten mukaan yksi suurimpia esteitä tutkimusdatan saattamiseksi kaikkien käyttöön on siinä, ettei tutkijoilla ole aikaa (eikä korvamerkittyä rahoitusta) kaikkeen siihen, mitä se vaatii. Jos kirjasto voi tässä auttaa, niin parhaassa tapauksessa tutkijalle jäisi enemmän aikaa varsinaiseen tutkimustyöhön. Mikään hokkuspokkus-keino tämä ei tietenkään ole, monesta syystä. Kirjastot eivät Suomessa ole tutkimusyksiköitä toisin kuin esim. USA:ssa, eivätkä sen työntekijät ole tutkijoita, vaikka tieteellisissä kirjastoissa työskenteleekin runsaasti akateemisen loppututkinnon suorittaneita ihmisiä eri tieteenaloilta. Esimerkiksi omassa työtiimissäni on useita diplomi-insinöörin, kemistin ja biologin koulutuksen saaneita. Uskon kuitenkin siihen, että välittäjärooli soveltuisi hyvin tämän kaltaisille henkilöille. Eli, vastatakseni vihdoinkin itse kysymykseen: ei mitenkään juuri tässä ja nyt, mutta haluan oppia tuntemaan tutkijan arkea siltä osin kuin se liittyy tutkimusdatan keräämiseen, käsittelyyn, tallentamiseen ja jakeluun. Siihen en oikein jaksa uskoa, että kirjastot ryhtyisivät itse suurimittaiseen datan tallennuspalveluun; tähän on muita, niitä paljon pätevämpiä tahoja.
Mitä odotat keskustelulta?
Jukka kirjoittaa juuri tuolla yllä TOP-5 -listasta, ja sehän kuulostaa hyvältä. Olen jo jonkin aikaa ylläpitänyt miellekarttaa tieteen "ekosysteemistä". Karttaa voi käyttää vaikka keskustelun herättäjänä. Siitä huomaa ainakin sen, että mikään tiekartta se ei voi olla. Tarvitaan jotakin konkreettisempaa http://www.mindmeister.com/227663566#
Kuka olet?
Antti Rousi, Tietoasiantuntija Aalto-yliopiston kirjastosta. Kuriositeettina mainittakoon, että teen myös väitöskirjaa kirjastotieteestä. Datan mahdollinen väitökseni ei kuitenkaan liity.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Olin viime kesän Purduen yliopiston kirjastossa vierailevana tutkijana. Siellä pyrin opiskelemaan paikallisia datapalveluja, jotka he ovat vieneet huomattavasti suomalaisia kirjastoja pidemmälle. Nyt teen kaikkeni luodaksi liikettä tällä kentällä. Jos en muuta saa aikaiseksi, niin jaan ainakin mieluusti kokemuksiani Purduesta.
- Onko linkkejä Purduen juttuihin?
Mitä odotat keskustelulta?
Toivoisin vahvistavani verkostoani liittyen avoimeen dataan. On hienoa tavata asiasta innostuneita ihmisiä myös täällä pohjoisessa.
Kuka olet?
Markku Lintinen, jatko-opiskelija TTY:n tuotantotekniikan laitoksella. Tutkimusaihepiirini on dataintensiivinen päätöksenteko. Kokemustaustani on sulautettujen järjestelmien tuotekehityksestä ja dataintensiivisistä laatumenetelmistä (Six Sigma). Tutkimuksellani haluan lisätä ymmärrystä siitä, miten tuotekehityksessä (ja muuallakin) voitaisiin päätöksenteon tueksi tuoda sellainen analyysiosaamisen ja välineiden yhdistelmä, että ne voisivat tilanteissa oikeasti tarjota apua.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Työni alkaa olla siirtymässä monografiaväitöskirjan kirjoittamisen alkamiseen. Aineistoa on kertynyt enemmänkin kokemustaustan lähteiden kautta kuin tavanomaisten akateemisten lähdekanavien kautta. Kohdallani päivän aihepiiri on tässä vaiheessa enemmän sen ymmärtämistä, miten toisten relevantti tieto löydetään kuin sitä, miten hallitaan omien ajatusten jakelua.
Mitä odotat keskustelulta?
Tuijan mindmapista löytyi erittäin kiinnostavaa tietoa. (Myös kosketuspintaa tämänkin viikon omaan agendaan - R-ympäristön opetteluun ja web-julkaisemisen peruspalikoihin.)
Joudun valitettavasti jättämään väliin odotetun Tampereelle tulon ja tämänkin keskustelun. Toivotan teille antoisaa ajatustenvaihtoa ja toivon mahdollisuutta olla jatkossa yhteydessä.
Jatka tästä - kopioi otsikot pohjaksi ja lisää omat tietosi:
Kuka olet?
Juha Nurmi, tuleva jatko-opiskelija ja nykyinen tutkija TTY:n matematiikan laitoksen IISlabista. Tuleva väitöskirjan aihe liittyy semanttisen datan hallintaan ja ontologioiden automaattiseen hallintaan. Olen myös ohjelmistokehittäjä, hakkeri ja internet-palveluiden toteuttamisen harrastelija.
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Toivottavasti liittyy pian, kun jatko-opinnot pääsevät alkuun :)
Mitä odotat keskustelulta?
Oman tutkijaprofiilin kehittäminen ja oman julkaisudatan hallinta olisi hyvä saada haltuun.
Kuka olet?
Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
Mitä odotat keskustelulta?
"Asialista" - miten käytämme ajan parhaalla mahdollisella tavalla hyödyksi:
Vaihtoehto 1
- Esittely (1 minuutti per osallistuja?)
- Kuka olet?
- Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
- Mitä odotat keskustelulta?
- ...sitten...
- Voitaisiin esimerkiksi käydä ryhmissä läpi (esim. 2x10 minuuttia)
- nykytilaa ja
- toiveita tulevalle
- ja vetää lopuksi ajatukset yhteen reilun mittaisella ryhmäkeskustelulla
Vaihtoehto 2 (Avoimen tieteenteon workflow)
Yksi mahdollisuus olisi tarkastella ja kollektiivisesti kasata työkalujen ja työtapojen kokoelmaa, joka tukisi avointa tutkimusprosessia. Alla on eri lähteistä kasattu kollaasi tutkimushankkeen elinkaaren eri vaiheista aina aiheen täsmentämisestä hankkeen päättämiseen ja datan arkistointiin. Paketti on sen verran iso, että koko kokonaisuuteen yksi Troikka ei varmaankaan riitä, mutta jos voisi laittaa hommaa vaikka aluilleen kysymällä: "Millaiset olisi avoimen tieteen toimintatavat ja työkalut tutkimusprojektin eri vaiheissa?"
Hyvä lista, Jogi! On toki syytä huomioida kutsussa mainittu rajaus tutkijan julkaisutietojen hallintaan. Siihenkin tuo listalla tuo hyvän jäsennyksen. Kalvoista olisi apua! Ja aluksi on tosiaan hyvä käydä läpi mikä ihmisiä erityisesti kiinnostaa - tarkemmin jokin tietty asia (esim. omien julkaisujen tietojen ylläpitäminen) vai avoimen tieteen ote yleisemmin.
- Siitä lähdinkin ajattelemaan, mutta muistin Sami Borgin loistavan esityksen (jonka kalvot ehkä löytyvät jostain) avoimesta tutkimusdatasta. Borgin pointti oli, että tutkimusprosessi on kokonaisuus, jossa aikaisemmin tehdyt päätökset vaikuttavat paljon siihen, miten voidaan edistää avointa tutkimusdataa jatkossa...
- Tietty ihan puhtaasti, jos ajatellaan vain omien julkaisujen (ei tausta-aineiston) hallintaa, niin asia tavallaan yksinkertaistuu
- Juuri näin - otetaan osallistujalähtöinen ote, mutta valmiista vaihtoehdoista (että mitä tehdään) on hyvä valita kun aikaa on rajallisesti.
- Mietin, että meillähän on osallistujien meiliosoitteet, joten nuo ennakkokyssärit voisi lähettää meilitse
- Kuka olet?
- Miten tutkijan tutkimusdatan hallinta liittyy sinun arkeesi?
- Mitä odotat keskustelulta?
- Pääsetkö käsiksi tuoreeseen ilmoittautujalistaan? En - Raimon kautta menee, mutta vaikka menisi vajavaisellekin listalle, niin voisi olla tyhjää parempi... voisi siis ohjata ilmoittautuneet tänne padiin ja pyytää vastaamaan lauseella tai parilla noihin kyssäreihin jo etukäteen.
Tutkimusprojektin elinkaaren eri vaiheet - kollaasi useista lähteistä
Lähteitä:
Tutkimusongelman täsmentäminen
- Aihepiirin määrittely: valinta ja rajaaminen
- Aiempaan tutkimuksiin ja teoreettisiin selvityksiin tutustuminen
- Keskustelut kollegoiden kanssa
- Tutkimuskysymykset ja hypoteesi
- Käsitteiden määrittely
Toteutuksen suunnittelu
- Tutkimusmenetelmän ja toimintatapojen valinta
- Aineiston keruun ja käsittelyn suunnittelu
- Aikataulun laadinta ja rahoituksen suunnittelu
- Tutkimussuunnitelman laatiminen
- Eettinen ennakkoarviointi
Rahoitus: haku ja päätös
- Rahoituksen hakeminen
- Rahoituspäätökset
- Sopimukset
- Käynnistäminen
Toteutus
- Tutkimusaineistojen kokoaminen
- Aineiston analysoiminen
- Tulosten toteaminen ja raportointi
- Julkaiseminen
Päättäminen
- Tutkimushankkeen aineistojen (ensikäytön) päättyminen
- Tutkimusdatan arkistointi ja julkaiseminen
-----------------------------------------------
MUISTIINPANOT
----------------------------------------------
Kirjoitetaan blogijulkaisu lopuksi
- dimensiot 1: yksityinen-yhteisö
- dimensiot 2: julkaisu-julkaisudata
ks. alla blogitekstin hahmottelua
- Avoin julkaisudata (miten voisi esim. saada haltuun sen, kehen kaikkiin on viitannut ja kuka on viitannut takaisin)
- Avoin tutkimusdata
- yksityisyys
- käyttökelpoisuus
- laatu
- integroitavuus
- poliittisuus (voi valikoida, millaista dataa ja miten muotoiltuna antaa saataville)
- Avoin koodi (tutkimukseen liittyvä koodi on usein kuraa... julkaiseminen pakottaisi laadukkaampaan koodiin)
- Oman tutkijaprofiilin kehittäminen
- Koko tutkimusprosessin avoimuus (case Polymath Project, matemaattisten ongelmien avoin ratkaisuyhteisö http://polymathprojects.org/ -- miten lehdet suhtautuvat ideoihin, jotka on jo "julkaistu" jossain)
- Negatiivisten tulosten julkaiseminen
- Purduen kirjastossa hyvät datapalvelut
- Mikä on suomalaisen tieteellisen kirjaston rooli?
- Tarvitaan julkista painetta opetusministeriön ja julkisten toimijoiden suuntaan!
- Nuori tutkija, mieti miten teet tutkimuksestasi mahdollisimman näkyvää globaalisti!
- Voisiko Suomi tarjota jonkinlaisen vaihtoehdon kaupallisille toimijoille jotka nyt "vetävät rahat välistä"
- …esimerkiksi tiedekirjastot voisivat perustaa oman vertaisarvioidun julkaisusarjan
Miten omat julkaisut pitäisi kirjata ja mihin?
- Miten välttää "Himas-efekti" (eihän tää kaveri ole tehnyt mitään)
- Jos julkaisut näkyvät hyvin tietokannoissa, niin niihin viitataan
- Jos paperit saatavilla rinnakkaisjulkaisuina, niin löytyvät Googlella
Sitaattitietokantoja:
- http://www.elsevier.com/online-tools/scopus
- scopuksesta saa csv:n ulos, mutta ei saa mitään järkeviä ID:itä
- http://thomsonreuters.com/web-of-science/
- Visio: jos viittaustietokannat tulee avoimiksi ja "reaaliaikaisiksi" voidaan algoritmisesti haistella nousevia trendejä
- Tässäkin tietysti ollana jo myöhässä, pitää tuntea ihmiset, käydä konferensseissa yms.
- Auttaisi kuitenkin muiden alojen "uudehkon" tutkimuksen löytämiseen
- Arxiv.org esijulkaisu "claimataan" juttu omaksi, ettei kukaan julkaise review-prosessin aikana
Tutkijoiden "some-palveluita":
http://www.academia.edu/
https://www.researchgate.net
- Osallistuminen onnistuu aika kevyesti
- Kaupallinen yritys - liiketoimintamalli?
Identifiointi / clamauspalveluita:
- Tutkijan identifiointi: Researcher ID (Thomson Reuters): http://www.researcherid.com/
- DISTINGUISH YOURSELF IN THREE EASY STEPS: http://orcid.org/
- Joillain on uniikki nimi maailmassa, mutta kaikilla ei (jotkun ovat jopa vaihtaneet sukunimeään tämän takia)
Datan yms. julkaisualustoja:
- http://figshare.com
- DOI datalle - miten dataan voidaan viitata (KUN JULKAISET DATAN - VARMISTA, ETTÄ SAAT JULKAISEMALLESI DATALLE ID:n)
- Nykyisin ehkä esim. datasettien viitteitä ei pahemmin arvosteta, mutta tulevaisuudessa kyllä. Rakentaminen kannattaa aloittaa ajoissa ja kannattaa varmistaa, että kaikki tuotokset ovat globaalisti viitattavissa, ei vain Suomessa. Verkossa "tieteellinen koti", johon kaikki tuotokset kootaan... data saatavilla API:en kautta yms (tämä siis pätee sekä omia julkaisuja edustavaan dataan että avoimeen tutkimusdataan).
- Suomessa on valtakunnallinen hanke CSC Iida julkaisudatan tallentamiseen (nykyisin esim. Tampereella on tilapulaa isojen datamassojen säilyttämiseen)
- ajatuksena, että datan avoimuus voisi olla myös rahoituskriteeri
- EU-tasolla aloitteita tutkimusdatan julkaisemiseen (7. puiteohjelma?, Horizon 2020?)
- Yhteiskunnallinen tietoarkisto
- Käsite: mikrodata (tapahtumatason dataa - ei koostettua tai agregoitua dataa)
- Käsite: data paper
- Onko joku jo julkaissut dataansa?
- Esimerkkejä:
- Nykyisin tutkijat saattavat laittaa kotisivuilleen ohjelmakoodia, dataa ja liitteitä... ongelma, kun tutkija vaihtaa työpaikkaa, voidaanko vanhat kotisivut poistaa
- Työsopimuskysymys, onko data ja muut työnantajan vai tutkijan omaisuutta
Julkaisufoorumi-hanke:
- http://www.tsv.fi/julkaisufoorumi/
- Julkaisufoorumi on masentanut porukoita
- Määritellään julkaisukanavien, siis journaalien ja konferenssien, taso/laadukkuus, asteikolla 1-3
- Proffat voisivat tehdä vertaisarviointeja vain avoimiin julkaisuihin, jolloin niiden painoarvo nousisi.
- Joku paikka, mistä löytyisi myös proffan tekemeät reviewt (arvioinnit on dataa julkaisuihin liittyen siinä, missä itse julkaisukin)
- Tieteellisissä arvioinneissa yliopisto voi "ostaa tutkijaryhmän", jonka mukana tulee valtava paukku viitteitä
Avoimempia julkaisukanavia?
- Tarvitaan avoin julkaisukanava, jolla on samat laatukriteerit, kuin esim. Springerillä, niin silloin se on mahdollista saada esim. Jufo-listalle
- Pitäisikö tällainen perustaa kotimaisin voimin?
- Jufo-listalle kannattaa ilmoittaa tiedossa olevia esim. kovanluokan kansainvälisiä konferensseja
- Olemassaolevia avoimia julkaisukanavia
- Sitaattimetriikoida voi manipuloida esim. sopimalla ristiinviittaamisista (Brasilialaisten journaalien paljastunut ristiiviittaus-case) linkki?
Yhteiskunta- ja kulttuuritieteet
- Julkaisijat Suomessa ja maailmalla ovat melko köyhiä ja tässä on riskinä, että rahalla saa julkaisun läpi
- kirjoilla edelleen vahva asema ja kustantatjien kirjasarjoilla. OA-monografia vielä alkuvaiheessa
- julkaisujen argumentaatio on "sanallista", ei-tilastollista, josta kustantajien editorien rooli merkittävä. PlosOne tms. tekninen tsekkaus+post-referee hyvin ongelmallinen
- tutkimusryhmät harvinaisia jolloin tutkijat ns. akateemisia yksityisyrittäjiä. Kynnys ottaa riski ja avata omaa tutkimusta on merkittävä. Pelko idean varastamisesta yleinen
Reproducability
- yksilöi itsesi ja julkaisusi
- julkaisut mahdollisimman monessa kohdassa saatavilla
- (mieti rinnakkaisjulkaisemisen mahdollisuutta)
- Ihmisillä on epävarmuutta siitä, saako rinnakkaisjulkaisun tehdä? Voisiko yliopisto antaa tuen "anarkistiselle" mallille, eli luvata puolustaa, jos joku haastaa oikeuteen
- nippuväikkärin teossa periaatteessa pitäisi olla lupa jokaiselle paperille uudelleenjulkaisuun
- Eroon lehtipaketoinnista ja enemmän item-pohjaiseen julkaisuparadigmaan
-----------------------------------------------
ESITTELYTEKSTI TROIKASSA
-----------------------------------------------
http://www.troikalearning.org/troika/40
Akateemisiin julkaisuihin liittyviä verkkopalveluja ja sovelluksia riittää. Thomson Reutersin Web of Science, Google Scholar ja monet muut palvelut tarjoavat tutkijalle mahdollisuuden oman julkaisuluettelonsa ylläpitämiseen ja julkaisutietojen tarkastamiseen ja korjaamiseen. Tutkijan on ainakin jollakin tasolla syytä tiedostaa eri palvelujen vahvuudet, koska hänen "akateemista suorituskykyään" mitataan ehkä entistäkin useammin artikkeleiden välisiin viittauksiin perustuvilla mittareilla. Suorituskyky näyttäytyy todellista pienempänä jos julkaisut eivät yhdisty mittaajien käyttämissä aineistossa tutkijaan oikein. Tietenkin on myös mielenkiintoista tietää ketkä viittaavat artikkeleissaan tutkijan artikkeleihin. Ja viittausten määrään on varmasti mahdollista vaikuttaa sillä, miten hyvin julkaisut ovat näkyvillä ResearchGatessa ja vastaavissa "tutkijoiden some-palveluissa".
Myös mahdollisuudet julkaisutietojen analyysiin esimerkiksi verkostoanalyysin keinoin kiinnostavat ainakin tietoteknisesti suuntautuneita tutkijoita. Miten julkaisudataekosysteemin eri palvelut tukevat julkaisudatan analyysiä, siis bibliometriikkaa?
Troika pidetään osana Open Knowledge Roadshown ohjelmaa Tampereella. Roadshown kautta tähän troikaan on ilmoittautunut periaatteessa täysi määrä ihmisiä, mutta käytännössä mukaan sopii varmasti edelleen.
===================
blogitekstin hahmottelua
===================
Otsikko: Miten tutkijan kannattaa hallita julkaisudataansa?
Akateemisiin julkaisuihin liittyviä verkkopalveluja ja sovelluksia riittää. Thomson Reutersin Web of Science, Google Scholar ja monet muut palvelut tarjoavat tutkijalle mahdollisuuden oman julkaisuluettelonsa ylläpitämiseen ja julkaisutietojen tarkastamiseen ja korjaamiseen. Kokonaan oma maailmansa on julkaisujen taustalla olevan tutkimusdatan, lähdekoodin yms. hallinta http://www.tdata.fi/tutkimusdatan-hallinta ja mahdollisuuksien mukaan julkaiseminen avoimesti. Sekä julkaisujen, että tutkimusdatan avoimuuden eteen on asioita, joita yksittäiset tutkijat voivat (ja on siuositeltavaa) tehdä, mutta molemmissa myös tutkimusyhteisöillä- ja organisaatioilla, kuten yliopistoilla on oma toimintaroolinsa.
Kuva: https://docs.google.com/drawings/d/1H0p_IJUtsr0ySofildijF68aTGi3GaRnWSLxpyT23dA/edit?usp=sharing
Tampereella 27.9.2013 osana avoimen tiedon kuntakirtuetta järjestettiin vertaisoppimistapahtuma Troika aiheesta "Miten tutkijan kannattaa hallita julkaisudataansa?"
http://www.troikalearning.org/cgi-bin/tl.cgi/troika/40 tässä keskustelun yhteenvetona tutkijoille suunnattua ohjeistusta julkaisujen osalta.
Vaikka oletkin tällä hetkellä Suomalaisen Yliopiston jäsen ja sinulla on paikallinen tutkijaprofiili yliopiston tutkimustietojärjestelmässä (CRIS = current research information system), niin se ei riitä. Tiede on globaalia, sinä olet osa sitä ja sinulla on sekä historiaa että tulevaisuutta Yliopiston ulkopuolella. Joudut näkemään hieman vaivaa ja tekemään päällekkäistä päivitystyötä, mutta se kannattaa.
Huolehdi siis, että
- sinut ja työsi identifioituvat vain ja vain sinuun: hanki sekä ResearcherID http://www.researcherid.com/ että ORCID http://orcid.org/. Vahvista molemmissa palveluissa omat julkaisusi ja anna palveluiden siirtää tiedot ristiin toinen toisilleen. ResearcherID on luultavasti se, jonka perusteella sinut tunnetaan ja tutkimustasi mitataan kotiyliopistossa. ORCID taas on avoimen tieteen vaihtoehto.
- tuloksesi tunnistetaan: kun julkaiset artikkelin, dataa tai koodia, saat siihen pysyväisluonteisen tunnisteen kuten DOI http://en.wikipedia.org/wiki/Digital_object_identifier, ArXiv ID http://arxiv.org/help/arxiv_identifier, PMID (PubMedID) http://en.wikipedia.org/wiki/PubMed#PubMed_identifier tai URN http://en.wikipedia.org/wiki/Uniform_resource_name. Varmista, että palvelu kertoo, millä tavalla tuotokseesi viitataan.
- kerrot mitä olet tehnyt: pidä yllä ajantasaista CV:tä, portfoliota tai blogia sekä Yliopistossa että jossakin muualla. Google Scholar http://scholar.google.fi/ on yksi mahdollisuus CV:ksi, mutta myös täysin itse ylläpidetty sivusto tai blogi voi olla hyvä vaihtoehto. Eräs varteenotettava lisuke on tehdä profiili ImpactStory-palveluun http://impactstory.org/. ImpactStory kerää tietoa - termi on altmetriikka - siitä, missä verkkopalveluissa ja paljonko työsi on saanut vastakaikua: ladattu, tallennettu, tweetattu jne. Jotta altmetriikkaa kerääntyy, työssäsi on oltava DOI, PMID tai yksilöivä URL. Toinen kahdesta tällä hetkellä altmetriikkaa keräävästä palvelusta on Altmetric.com http://www.altmetric.com/. Se eroaa ImpactStorysta siinä, että se on voittoa tavoitteleva yritys (ja kerää metriikkaa hieman eri lähteistä), joten ImpactStory on avoimen tieteen kannalta ehkä luontevampi vaihtoehto.
Tutkijan työ on sekä itsenäistä että yhteisöllistä, riippuen tieteenalasta ja henkilökohtaisista ominaisuuksista. Tällä hetkellä suuntaus on kohti kansainvälisempiä ja suurempia tutkimusryhmiä. Sitä toivovat sekä rahoittajat että yliopistot, koska tutkimukset ovat osoittaneet että näin saadaan kerättyä enemmän näkyvyyttä, enemmän viittauksia ja sitä kautta enemmän rahoitusta. Vaikka kaikki tämä vaikuttaakin pelkältä hallintovirkamiehen ja tiedepolitiikan märältä unelta, niin siinä on myös toinen puoli: mitä avoimemmin olet esillä, sitä enemmän sinulla on mahdollisuuksia solmia kontakteja, saada ideoita, kehittyä tutkijana, ratkaista ongelmia yhdessä toisten kanssa. Mitä enemmän tutkimuksesi sivuaa maailman Todella Isoja Ongelmia, sitä luultavampaa on, että et pääse eteenpäin yksin.
Kuinka paljon sitten kannattaa panostaa kaikkeen siihen yhteisölliseen meininkiin, jota verkko tarjoaa? Näitähän riittää kuten academic.edu http://www.academia.edu/, researchgate.net http://www.researchgate.net/, Mendeley http://www.mendeley.com/, Google+ http://plus.google.com, LinkedIn http://linkedin.com/- ja päälle vielä oman tieteenalan erityisfoorumit yms. Tähän ei luonnollisesti ole yhtä oikeaa vastausta. Liiallista sitoutumista yhteen palveluun kannattaa kuitenkin välttää; palveluja syntyy ja kuolee melko tiuhaan tahtiin. Kevyt osallistuminen muutamaan eri palveluun ei vie liikaa aikaa itse tieteen tekemiseltä ja pitää sinut ajan tasalla siitä, missä mennään. Jos pieni fraasi sallitaan niin: oman tieteenalan valtavirrassa on syytä yrittää uida sen verran kun rahkeita riittää, mutta virran vietäväksi ei pidä heittäytyä; monitieteisyys ja tieteenalojen välisten raja-aitojen rikkominen on toivottavaa.
Paitsi tutkimusjulkaisuun, myös tutkimusdataan voi nykyään jo viitata myös. Datalla on monia ilmenemismuotoja raakadatasta (ns. mikrodata) yhdistelyjen (aggregate) kautta erilaisiin kuvauksiin. Datan tallennuspaikaksi ei kannata valita pelkästään oman Yliopiston levypalvelua tai laboratorion palvelinta, puhumattakaan omaa PC:tä. Avoimen tieteen hengessä ja tullaksesi huomatuksi, data kannattaa tallentaa myös johonkin julkisempaan data-arkistoon kuten Figshare http://figshare.com/, Dryad http://datadryad.org/ tai Zenodo http://www.zenodo.org/. Suomessa CSC - Tieteen tietotekniikan keskus on käynnistänyt IDA-nimisen tallennuspalvelun http://www.csc.fi/sivut/ida, johon on yliopistokohtaiset levytilakiintiöt. Palvelun kehittymistä on syytä seurata, sillä CSC tähtää pitkäaikaissäilytykseen eli datallesi taataan käytännössä ikuinen koti.
Jos tutkimuksesi sivuaa yhteiskuntatieteitä, Yhteiskuntatieteellinen tietoarkisto on hyvä pitää mielessä http://www.fsd.uta.fi/fi/. Mikään varsinainen avoimen datan arkisto se ei kuitenkaan ole. Omalla tieteenalallasi saattaa lisäksi olla vakiintuneita data-arkistoja, kysy kolleegoilta.
Tutkimusrahoittajat kuten Suomen Akatemia http://www.aka.fi/fi/, TEKES http://www.tekes.fi/ ja EU ec.europa.eu/research/horizon2020/ edellyttävät, että rahoitusta hakiessa on oltava aineistonhallintasuunitelma. Sanahirviö viittaa dataan. Vaatimus datan avoimuudesta on myös yleistymässä.
Kaikkea dataa ei saa kuitenkaan noin vain laittaa avoimeksi. Tutustu tutkimuseettisiin sääntöihin ja niihin sopimuksiin, joihin olet sitoutunut dataa kerätessäsi. Datan anonymisointipalveluja odotellessa sinun on itse huolehdittava siitä, ettei henkilöitä ja dataa pysty yhdistämään toisiinsa ilman henkilön lupaa.
Tutkimus on julkaistava, vasta silloin siitä tulee tiedettä. "Avoimen tieteilijän" roolimallia hakiessasi voit miettiä, mikä näistä sopii sinulle parhaiten ja mihin pyrit:
- perinteinen ura: tarjoat tutkimustasi arvostettuihin kansainvälisiin tiedelehtiin ja konferensseihin riippumatta siitä noudattavatko ne avoimen julkaisemisen periaatteita vai eivät. Yliopistot mittaavat suoriutumistasi mittareilla ja asteikoilla (mm. JulkaisuFoorumi http://www.tsv.fi/julkaisufoorumi/ ), jotka suosivat toistaiseksi tätä mallia. Siitä syystä avoimen tieteen saralla on tähän mennessä ollut enemmän idealistista puhetta kuin varsinaisia tekoja. Muna ja kana.
- keskitie: kuten perinteinen ura mutta sillä erotuksella, että jos vain mahdollista, harrastat rinnakkaisjulkaisemista ja avaat dataa. Rinnakkaisjulkaiseminen tarkoittaa sitä, että tallennat artikkelin myös Yliopiston julkaisuarkistoon tai vaikka ArXiv-palveluun. Verkkopalvelusta SHERPA/RoMEO http://www.sherpa.ac.uk/romeo/ voi tarkistaa, salliiko tiedelehti tämän. Useimmat sallivat jo.
- pioneeri: julkaiset vain lehdissä, jotka noudattavat avoimen julkaisemisen periaatteita. Etsit myös uusia tapoja sekä tieteen tekemiseen että julkaisemiseen. Lehti on historiallinen tapa paketoida tiedettä, mutta ajat muuttuvat. Vertaisarvioidut tekstit eivät välttämättä tarvitse lehteä ympärilleen vaan ne pystyvät välittämään tutkimustulokset muutoinkin. Uusia tapoja tehdä tiedettä on ratkaista ongelmia yhteisöllisesti ja siten, että tutkimustulokset ovat toistettavissa. Esimerkki yhteisöllisyydestä on matemaatikkojen Polymath Project http://polymathprojects.org ja toistettavuudesta IPython Notebook http://ipython.org/notebook.html ja R-ohjelmointiympäristön sovellukset http://en.wikipedia.org/wiki/Knitr, joissa yhdistetään teksti ja koodi.
Mitä avoimelle tieteelle, datalle ja julkaisemiselle sitten tulee käymään? Muuttuuko mikään? Richard Poynder haastattelee blogissaan Open and Shut? neurogenetiikan professori Björn Brembsiä http://poynder.blogspot.fi/2013/09/bjorn-brembs-on-state-of-open-access.html Brembs ehdottaa samaa mistä keskusteltiin OK Roadshow Tampereen http://fi.okfn.org/roadshow/ tilaisuudessa Tutkimusdatan julkaisun hallinta 27.9.2013. Tapahtuisiko muutos, jos yliopistokirjastot perustaisivat tasokkaan, vertaisarvioidun, avoimen julkaisusarjan ja saisivat sen nostettua Julkaisufoorumi-luokituksen korkeimmalle tasolle?
[ Näihin voi linkata jos vaikuttaisi olevan hyötyä: https://docs.google.com/spreadsheet/ccc?key=0AvfW9KgU1XzhdC16b3dReTVjSl9IaDFHd3BlVDFoaXc#gid=0 ja http://www.mindmeister.com/227663566# ]