TA DATA NEJSOU FAIR!
David AntošCESNET
21. 5. 2019
V peti kapitolách
Potíže s vedeckými datyData Management PretendingFAIRTechnická implementace FAIRDiskuse
D.A., Ta data nejsou FAIR, CESNET, 2/44
Kapitola IPotíže s vedeckými daty
D.A., Ta data nejsou FAIR, CESNET, 3/44
Máme tady problém
s ukládáním dat jsou samé potížerelativne malá životnost technologienevalná odolnost proti poškozeníšpatná kontrolovatelnost poškození
ale takéjak data najítjak je popsatjak je použít, když už je najdeme
D.A., Ta data nejsou FAIR, CESNET, 4/44
O cem se mluví dlouho I
zaklínadlo knihovnické komunity:Long Term Preservation
sada procesu a technických opatreník zachování obsahu informace po dlouhoudobu
1. strednedobe: uchování binárního obsahu(mnoho kopií, kontrolní soucty, pravidelnékontroly, . . . )
2. dlouhodobe: konverze formátu dat domodernejších (vcetne kontrol, že se neztratilainformace [což se musí ad hoc])
metadata: nekolik standardu pro popispublikací
Dublin Core, MARC
D.A., Ta data nejsou FAIR, CESNET, 5/44
O cem se mluví dlouho II
problém hledání dat je zde „snadný“hledá se publikace
plác knihovnické komunity:„nikoho LTP nezajímá a nechce na to dátpeníze“politicky nekorektní pohled:je tohle snad o necem jiném než penezích?
D.A. tvrdí, že témer nepotrebujete technologii (drahou) a kurátora(drahého)procesy jsou jasnéNejaké otevrené principielní otázky v LTP?Opravdu? A kde?
D.A., Ta data nejsou FAIR, CESNET, 6/44
Doba datová I
s nárustem vedeckých dat se problém posouvána škáleexaktní vedy – živá príroda – humanitní a ciráesoterika
„zlatí fyzikové, ti dopredu odhadují, co dokážízpracovat“
i urychlovace si podle toho postaviliméne IT-pozitivní obory nemívaly mnoho dat
a je to pro ne revolucea kulturní šok
D.A., Ta data nejsou FAIR, CESNET, 7/44
Doba datová II
zejména ve vedách o živé prírode (LifeSciences)
publikace jako forma vedecké komunikaceztrácí význam proti datuma dat zacalo být zatracene mnohokonfokální mikroskopy, DNA sekvenátory, . . .
životní cyklus dat „porídit – vytežit – zahodit“prestal stacit
chteli bychom i „archivovat“nejlépe vše a vecne
n.b. dnes už je problém i se samotným „porídita udržet aspon do vytežení“
D.A., Ta data nejsou FAIR, CESNET, 8/44
Doba datová III
bežná situacedoktorský student provozuje databázi
na PC v labupod stolembez záloh
jak chcete její záznam citovat?kdy si nekdo vzpomene na PC pod stolem?
poté, co student odešel?o dva roky pozdeji?až umre disk?
„tu aplikaci programoval bývalý manžel panídocentky a beží to tady na tom sedm letstarém desktopu na Win XP, máme tamvšechno“ #TheBellyOfMUNI #RealStory
D.A., Ta data nejsou FAIR, CESNET, 9/44
Kapitola IIData Management Pretending
D.A., Ta data nejsou FAIR, CESNET, 10/44
Pokus grantovek: DMP
Data Management Planpokus grantových agentur podchytit prácis datyjako povinná soucást nekterých projetkovýchžádostí
DMP je formální dokument popisujícízacházení s daty behem a po skoncenívýzkumného projektu. Má za cíl popsatmanagement dat, vytvárení metadat, ochranydat, . . . , a jejich uchování do budoucna.na konceptu DMP jsme se mnoho naucili. . .
zejména, že vubec nefunguje
D.A., Ta data nejsou FAIR, CESNET, 11/44
Problém s vedci
problém s vedci podle Roba Hoofta:C
onsc
ious
ness→
ConsciouslyIncompetent
ConsciouslyCompetent
UnconsciouslyIncompetent
UnconsciouslyCompetent
Competency→
D.A., Ta data nejsou FAIR, CESNET, 12/44
Problém s vedci
problém s vedci podle Roba Hoofta:C
onsc
ious
ness→
ConsciouslyIncompetent
ConsciouslyCompetent
UnconsciouslyIncompetent
UnconsciouslyCompetent
Competency→
a co pánové Dunning a Kurger?
D.A., Ta data nejsou FAIR, CESNET, 12/44
Data Management Plan
vetšina správy dat v projektových žádostechse redukuje na napsání DMP
je to prece povinná kapitolaDMP vs. “unconsciously incompetent” autorprojektu
který vubec nerozumí, co tam má psátodnekud to opíšecelé to projde, protože recenzent tomu takynerozumí
nebylo popsáno, co je „dobrý managementdat“
vedce, delej, šak ty víš co
D.A., Ta data nejsou FAIR, CESNET, 13/44
Kapitola IIIFAIR
D.A., Ta data nejsou FAIR, CESNET, 14/44
Strucná historie FAIR I
pra-FAIRbrezen 2011, Mons et al., The value of data,Nature Genetics
vztahy mezi entitami nalezitelné v datech jetežké popsat textem, a popsané textem jenelze snadno používatnavrhují (strojove zpracovatelné)„nanopublikace“
únor 2013, Bechhofer et al., Why linked data isnot enough for scientists, FGCS
D.A., Ta data nejsou FAIR, CESNET, 15/44
Strucná historie FAIR II
leden 2014, Leiden, NL, workshop Designing aData Fairport
formulace FAIR principu
zárí 2014, 4th RDA plenary, AmsterdamBarend Mons, “Bringing Data to Broadway”
to se ješte sbíraly komentáre k formulacímbrezen 2016, Wilkinson et al., The FAIRGuiding Principles for scientific datamanagement and stewardship, Scientific Data
první publikace FAIR principuprakticky v soucasném znení
D.A., Ta data nejsou FAIR, CESNET, 16/44
Strucná historie FAIR III
témer soucasne se formoval ELIXIRELIXIR [. . . ] brings together life scienceresources from across Europe. Theseresources include databases, software tools,training materials, cloud storage andsupercomputers. The goal of ELIXIR is tocoordinate these resources so that they form asingle infrastructure.
autori FAIR jsou s ELIXIRem silne spojeniod 2014 Barend Mons propagovala propagoval a propagoval
až se veci chytili i EU úrednícia všechna data musí být FAIR
D.A., Ta data nejsou FAIR, CESNET, 17/44
FAIR – co to je?
zaklínadlo?samozrejme
dnes už evropský projekt bez zmínky o FAIRneprojde
EU mávatko do pruvodu?to rozhodne, ale hlavne docela užitecnýkoncept
reakce na „grantovky chtejí datamanagement, ale není jasné, co by to meloznamenat“seznam, o cem premýšlet
dobrá stránka toho humbuku: zacalo seo problému mluvit
D.A., Ta data nejsou FAIR, CESNET, 18/44
FAIR
FAIRFindable, Accessible, Interoperable, Reusable
podrobný popis vizhttps://www.force11.org/group/fairgroup/fairprinciples
s pasážemi pro fanoušky ontologiía filosofování o reprezentaci znalostí
za „daty“ ve FAIR lze videt i algoritmy, nástrojea workflowtip: “(meta)data” znací „data i metadata“
D.A., Ta data nejsou FAIR, CESNET, 19/44
Findable
F1. (Meta)data are assigned a globally uniqueand persistent identifierF2. Data are described with rich metadataF3. Metadata clearly and explicitly include theidentifier of the data they describeF4. (Meta)data are registered or indexed ina searchable resource
D.A., Ta data nejsou FAIR, CESNET, 20/44
Accessible
A1. (Meta)data are retrievable by their identifierusing a standardised communications protocol
A1.1 The protocol is open, free, anduniversally implementableA1.2 The protocol allows for an authenticationand authorisation procedure, where necessary
A2. Metadata are accessible, even when thedata are no longer available
všimnete si: metadata jsou vecná, data mohouzmizet
D.A., Ta data nejsou FAIR, CESNET, 21/44
Interoperable
I1. (Meta)data use a formal, accessible,shared, and broadly applicable language forknowledge representationI2. (Meta)data use vocabularies that followFAIR principlesI3. (Meta)data include qualified references toother (meta)data
strucne: v metadatech používejte rízenéslovníky a specifické odkazy
„X je rízeno Y“ je lepší než „X souvisí s Y“to vše samozrejme formálním jazykem
D.A., Ta data nejsou FAIR, CESNET, 22/44
Reusable
R1. Meta(data) are richly described with aplurality of accurate and relevant attributes
R1.1. (Meta)data are released with a clear andaccessible data usage licenseR1.2. (Meta)data are associated with detailedprovenanceR1.3. (Meta)data meet domain-relevantcommunity standards
D.A., Ta data nejsou FAIR, CESNET, 23/44
Co FAIR je a není
FAIR jsou strucné doménove i technologickynezávislé principyFAIR není standardFAIR 6⇒ verejne prístupnýFAIR 6⇒ dostupný zdarma
jen má být jasné, jak se veci majíFAIR je svatý grál
„nad cím bychom se meli zamyslet“ne „vše z toho je treba splnit dokonale“
FAIR je proceslevel of FAIRness, FAIRification (ehm)
D.A., Ta data nejsou FAIR, CESNET, 24/44
Komu to poslouží
výzkumníkum, kterí chtejí svá data sdíleta být za to rádne citovánia v datech lovit, integrovat je, analyzovat
grantovým agenturámkteré chtejí nejaký datový management
strojovému zpracování – velký duraz na nejznalost vyhledávající výpocetní agentkterý potrebuje explicitne popsanou sémantikua kontexttj. nemá intuici o významu digitálního objektu
D.A., Ta data nejsou FAIR, CESNET, 25/44
Strojové zpracování I
znalost hledající výpocetní agent má býtschopen
1. rozpoznat typ objektu, který nikdy predtímnepotkal
jeho strukturu a úcel2. rozpoznat, zda je užitecný pro rešený problém
analýzou metadat nebo dat
3. rozpoznat, zda je použitelný z hlediskalicence, souhlasu, . . .
4. provést s ním adekvátní akci
. . . nebo aspon malý kousek z toho
D.A., Ta data nejsou FAIR, CESNET, 26/44
Strojové zpracování II
srovnej:„Sovetští vedci jsou presvedceni, že do koncepríští petiletky vytvorí automatický stroj, kterýbude schopen vypracovat národohospodárskýplán SSSR a provést jeho analýzu.“
– zpráva ze zacátku 50. let
D.A., Ta data nejsou FAIR, CESNET, 27/44
Kapitola IVTechnická implementace FAIR
D.A., Ta data nejsou FAIR, CESNET, 28/44
Technická implementace
co potrebujeme pro implementaci?minimalisticky vystacíme s persistentnímiidentifikátory
to je zvládnutá technologiekrome nápadu jako persistentní identifikátorypro verzovaná data1
ale RDA na to má pracovní skupinuprojekty na PIDy
FREYA
a katalogy metadataplikace rídící workflow se hodí. . . ale neexistuje univerzální rešení
1tohle mi fakt nekdo vysvetlete. . . D.A., Ta data nejsou FAIR, CESNET, 29/44
DTL Data FAIRport I
The data FAIRifcation process includes1. Original data retrieval2. Dataset identification and analysis3. Definition of the semantic model4. Data transformation5. License assignment6. Metadata definition7. FAIR Data resource deployment (data,
metadata, license)Currently, this process is done manually, whichlimits its scalability.– https://www.dtls.nl/fair-data/find-fair-data-tools/
D.A., Ta data nejsou FAIR, CESNET, 30/44
DTL Data FAIRport II
sada nástroju vyvíjených v DTLa provozovaných SURFsara
1. FAIRifier and Metadata Editor (to create)2. FAIR Data Point (to publish)3. FAIR Search Engine (to find)4. ORKA (to annotate)
podrobne na https://www.dtls.nl/fair-data/find-fair-data-tools/
D.A., Ta data nejsou FAIR, CESNET, 31/44
DTL Data FAIRport III
The FAIRifier is an online software tooldesigned to address the commonlyencountered problems and data-manipulationtasks in the FAIRification process.
založeno na Google OpenRefineparser na obskurní datové formáty a jejichprevod do usporádanejší formy
The FAIRifier [. . . ] allows the user to mashtogether data and metadata, data license, thedata model, and the chosen ontologies andidentifiers.
vysvetlení od Google jsou srozumitelnejší ;)
D.A., Ta data nejsou FAIR, CESNET, 32/44
DTL Data FAIRport IV
samotná FAIRifikace:(dle https://www.go-fair.org/fair-principles/fairification-process/)
analýza puvodních dat, jaké konceptyreprezentují, jaký mají formát, . . .definice sémantického modelu: popis významujednotlivých položek presne, jednoznacne astrojove zpracovatelnecasto s využitím standardních ontologií aslovníku
(ontologie ≈ slovník s hierarchií pojmu)
aplikace sémantického modelu (“make itlinkable”)
D.A., Ta data nejsou FAIR, CESNET, 33/44
DTL Data FAIRport V
Metadata editor – úcel zjevnýFAIR DataPoint – webový publikacní systém
webové rozhraníAPI
FAIR Data Search Engine sbírá metadata,indexuje, hledá v nich
cím se to liší od OpenAIRE metadat?anotacní nástroj ORKA (Open, ReusableKnowledge graph Annotator)
grafický anotátor grafu znalostí
Data FAIRport je „to všechno dohromady“
D.A., Ta data nejsou FAIR, CESNET, 34/44
Strojové zpracování
nástroje na strojové odvozování znalostíz FAIR dat:
. . .
nevím o žádném
D.A., Ta data nejsou FAIR, CESNET, 35/44
DMP, DS
Data Management (Planning) Data Stewardship
Data Stewardspecialista na správu datvcetne definice datových elementu a metadatzajištení, že jsou data stále užívána. . .
popisy cinnosti DS se znacne lišínekteré univerzity zrizují DS pozice
i v rozsahu FTE na fakultu
at’ tomu ríkáte jakkoli, do projektu stejnemusíte napsat DMP
D.A., Ta data nejsou FAIR, CESNET, 36/44
Data Stewardship
Rob Hooft – myšlenková mapa souvislostísprávy dat
D.A., Ta data nejsou FAIR, CESNET, 37/44
DS Wizard
Robova myšlenková mapa jako základnad ní expertní systém
který provede uživatele tvorbou DMPkladením relevantních otázekformulovaných srozumitelnepripraveno na Life Scienceale snadno rozširitelné na jiné domény
srovnej s DMPonlineužitecný nástroj„obsahuje správné formuláre a mírný návodk jejich vyplnení“ale jinak uživatele nevede
D.A., Ta data nejsou FAIR, CESNET, 38/44
Kapitola VDiskuse
D.A., Ta data nejsou FAIR, CESNET, 39/44
Rizika FAIR I
každá dobrá myšlenka se musí zvrhnout nakvantifikacinapr. http://fairmetrics.org/
merení úrovne naplnení FAIR (které samynejsou kvantifikovatelné)autori metrik si to plne uvedomují:
First, there is no such thing as “FAIR”, andneither is there “unFAIR”! [. . . W]e view FAIRas a continuum of ‘behaviors’ exhibited by adata resource that increasingly enablemachine discoverability and (re)use. [. . . ]“FAIR” will have different requirements fordifferent communities!
výstup: FAIR Maturity IndicatorD.A., Ta data nejsou FAIR, CESNET, 40/44
Rizika FAIR II
existují i dalšílze odhadovat, že metrika v ocích úredníkabude
snadno hodnotitelnýtriviálne porovnatelný(zcela nesmyslný, ale to úredníkovi nedojde)
požadavek grantových agenturhovorí se i o certifikacích FAIR úložišt’
když jsme se nedohodli ani na metrikách?OK. . .
D.A., Ta data nejsou FAIR, CESNET, 41/44
Rizika FAIR III
klasický prípad nahrazení postupuvzdelávat, pochopit, použít rozumne
postupemnaucit všechny naplnit metriku, at’ to másmysl, nebo ne
snad se to tak moc nezvrhne
a když, zamestnanost je treba udržovatviz téžhttps://strikemag.org/bullshit-jobs/
D.A., Ta data nejsou FAIR, CESNET, 42/44
Shrnutí
problém s vedeckými datya srovnání s problematikou LTP
Data Management ve vedeproc nefunguje
FAIRhistorie, formulaceco je a co není
technické nástrojePIDFAIRifikaceData Stewardship (Wizard)
rizikaD.A., Ta data nejsou FAIR, CESNET, 43/44
Jdete a ucinte vaše dataFAIRovejšími!
D.A., Ta data nejsou FAIR, CESNET, 44/44