Informace, média a knižní kultura/Informační podpora ve vědě a výzkumu/Výzkumná data

Z Wikiverzity
Jak používat klasifikační nálepkuTato stránka je součástí projektu:
Příslušnost: skupinová

Výzkumná data[editovat]

  • různé typy dat, surová apod.
  • data jsou informace, nebudeme tomu říkat informace, ale data
  • znovupoužitelnost dat je velký požadavek trandu
  • dobře spravovaná data mohou umožnit kontrolu vědce
  • informační specialisti se zabývají otevřenými daty, kam je ukládat jak je popisovat a co zpřístupnovat
    • v některých oborech má cenu zpřístupňovat jen interpretovaná data -- noto je diskutabilní, když interpretátor mohl udělat chybu
  • postupně otevřená data podporují různé evropské a americké organizace
  • k tomu vznikají repozitáře
  • open research data pilot - sběr unijních dat ve vědě a výzkumu zahájený v roce 2016, vědci v rámci horizon2020 už si zkoušeli správu dat
  • dotaz, jestli je vhodné přijímat data
    • z výzkumu vyplývá, že se zveřejňují nejpozději při zveřejnění publikace
    • recenzenti data potřebují k provedení recenze, takže se jim data stejně musí zprístupnit
  • kdy se data nemohou otevřít?
    • medicínské data, která nelze anonymizovat
    • vojenství, bezpečnost, atd.
    • další případy: běloch sbírá způsob lovu zvířat, který by pytlákům mohlo napomoci více pytlačit
    • nebo při vytržení z kontextu, kdy jedna věc může být zneužita
  • daty nejsou jenom čísla, ale i výpočty
  • v digital humanities data ze starých textů, rukopisů a not, která se podrobují strojové analýe
  • text jsou také data
  • typa dat
    • výzkumná data
    • metadata
      • vedlejší produkt výzkumu
      • data pro potřeby výuky
      • administrativní data
    • powerpointové prezentace jako vedlejší objekt výzkumné aktivity
  • pro data vznikají repozitářů či repozítáře specifické pro výzkumná data
  • DATOVÁ PRAVIDLA ČASOPISŮ
    • agentury vyžadují i časopisy vyžadují zveřjnování výzkumných dat
    • časopisy to vyžadovalid dříve, než agentury
    • časopisy 5-7 let budují vlastní datové repozitáře
  • DATOVÉ ČASOPISY
    • novinka
    • referují, kde jsou uloženy konkrétní datové sety na konkrétní oblast
  • neskutečné množství objektů, formátů apod. kterými se informační věda musí zabývat
  • standardizace jak data ukládat existuje například v Německu
  • 5 let se todle to děje -- v Evropě
  • uvažuje se o tom, kde se data ukládat, protože neexistuje kapacita, co by všechny dokázala ukládat
    • je otázka jestli k něčemu budou a jestli by to kvantum dokázal někdo zpracovat

FAIR principy[editovat]

  • F - findable - data musí být vyhledatelné
    • tzn. musí být obohaceny metadaty
    • plus perzistentní identifikátor jako DOI
    • repozitář by ten identifikátor měl připojovat automaticky
    • repozitář musí umožnit přidělit co nejvíc metadat, hlavně licence
    • také by repozitáře měli mít řízené slovníky - thesaury
    • dále by v repozitáři u dat měl být věcný obsahový popis
    • dobré je pokud jsou pole v metadatech povinné, protože to pak zvyšuje kvalitu
    • data i metadata by měla být indexovatelná
      • a repozitář by měl umět v sobě vyhledávat
      • s datovým setem by se při vyhledávání měl zobrazovat i DOI
  • A - accessible - přístupnost
    • pokud nemohou být přístupná data, měla by být přístupná metadata
    • dobré je, když je repozitář dostupný z webu bez potřeby cokoliv instalovat
    • je fajn, když je k dispozici fajn, že je e-mail na někoho kdo může přístup umožnit nebo repozitář vysvětlit
    • pokud nejsou data volně dostupná, měla by být známá pravidla přístupu a existovat k tomu nástroje (například možnost vytvoření účtu s určitými právy)
  • I - interoperable - možnost vzájemné integrace
    • nutno vést ve stanrdazidovaných formátech
    • formáty na základě Datacite
    • použití standardizovaných slovníků, předmětových heslářů apod.
  • R - reusable - opětovná využitelnost
    • dostatečně popsaná
    • sdílená pod co nejvíce otevřenou licencí
    • jak s nimi mohou uživatelé nakládat
    • popis jak data vznikla
    • v metadatech jasně formulovaná licence
  • POKRAČUJE SKUPINOVÝ ÚKOL
    • každá skupina zhodnotí jeden z výše uvedených principů bude hodnotit v repozitáři zenodo
      • budu jeho CERN
      • spolupracuje s OpenAire evropského programu a ten harvestuje
      • čeští vědci ukládají data do Zenodo
      • skupina zapisovatele: reusable, hodnocena databáze podle jednotlivých R (1, 2 atd)
      • Zenodo, staroegyptských knihovník z alexandrijské knihovny?
    • skupinové reporty
      • FINDABLE
        • zenodo samo uvádí FAIR principy
        • F1: zenodo samo přiděluje DOI
        • F2: jsou k dispozici metadata
        • F3: je obsažen vyhledávací engine, používá openAire k indexaci, klíčová slova v metadatech, proklikatelnost na orcid autorů, ale ne u všech
        • F4: metadata mají DOI a další identifikátory, které vedou k dalším souvisejícím datům (např. odkaz na článek, kde jsou data použita), na Githubu odkaz, který sw byl pro tvorbu dat použit, na druhou stranu jsou někteří autoři nepropojení
      • accessible
        • metadat jsou a pokud nejsou tak je kontaktní formulář na původce dat
        • obsah není k dispozici
        • uživatel se nemusí registrovat, pokud se chce dostat k uzavřeným souborům
        • data by měla být zachována 20 let
        • pokud někdo maže data, musí uvést důvod a ten důvod je uveden v záznamu
        • případně je kontaktován dodavatel, aby data dodal spolu, pokud CERNu spadnou
      • interoperability
        • metadata je možné exportovat a k dispozici je hodně formátů
        • nepoužívají se slovníky a ontologie
        • interface při vyhledávání nenapovídá, do hodně polí se dá napsat cokoliv, což může být nevýhoda
        • lze odkazovat ven na jiné uložiště
        • ten záznam lze neustále upravovat
        • nefunguje propojení na příbuzné zdroje automaticky
      • reusable
        • metadata jsou
          • mělo by existovat minimální množství metadat dle Datacite, ale ve skutečnosti jsou ty obsahy dost rozdílné
        • volné licence jsou uvedené
        • verze datového setu je uvedena
        • autoři jsou uvedeni, ale nelze je vždy proklikat na orcid
        • zenodo je obecný repozitář, takže nemohou být asi vyžadovány standardy pro každý obor
        • snaha o dodržování metadatascheme
  • pokračuje vyučující
    • Datacite je chápán jako univerzální standard
    • zenodo se hlásí k fair principům, ale chybí dostatečná metadata
      • chybí ale povinná vynucovaná pole a nejsou podpory vyplňování standardizovaných hodnot polí
      • když výzkumník nemusí, tak to nevyplňuje, stačilo by to vyžadovat a výzkumníci to vyplní
      • data bez metadat jsou méně cenná, dohledatelná, etc.
    • objekty ze stejného výzkumu se seskupují v rámci komunit
  • SEMESTRÁLNÍ ÚKOL
    • vybrat si repozitář v re3data.org (podle země, podle oboru)
    • vybrat repozitář, který uznává FAIR principy
    • ve dvojicích
    • ohodnotit repozitář na základě FAIR principů
    • vzít si self assasment tool například z ardc.edu.au (fair self assassment tool) a vyhodnotit tam ten repozitář a do prezentace to vložit formou screenoshotu