I "dati della ricerca aperti"

 

L'art.1 della Policy di Ateneo per l’accesso aperto alle pubblicazioni e ai dati della ricerca definisce come "Dati della ricerca" tutte le informazioni, in qualsiasi formato, utilizzate secondo un protocollo definito nell’ambito di una specifica attività di ricerca, necessarie per validare i risultati della ricerca stessa.

A titolo meramente esemplificativo sono da intendersi dati della ricerca: risultati (positivi o negativi) di tutti gli esperimenti rilevanti per la ricerca, fatti, osservazioni, esperienze, fonti edite e inedite, riferimenti bibliografici, software e codice, testi, oggetti del presente o del passato, raccolti o creati in formato digitale e/o cartaceo.

I dati della ricerca possono essere espressi in formato numerico, descrittivo, audio o video. Possono essere grezzi o elaborati.

 I dati della ricerca aperti sono dati accessibili, anche se non necessariamente open access qualora esistano necessità giustificate di tutela, ri-utilizzabili per finalità accademiche, didattiche e non solo.

Idealmente, i dati della ricerca aperti possono essere ri-utilizzati o ri-distribuiti senza restrizioni, qualora la licenza lo permetta e tenuto conto dei vincoli etici, commerciali e di riservatezza.  La condivisione aperta dei dati ne aumenta l’esposizione contribuendo in questo modo a creare i presupposti per la verifica e la riproducibilità della ricerca e nuovi percorsi di una più ampia collaborazione. Quando non sussistono particolari e giustificate necessità di tutela, i dati di ricerca aperti possono essere distribuiti con licenze per il libero dominio o al massimo essere soggetti all'obbligo di attribuzione  condivisione con la stessa licenza aperta. I dati della ricerca aperti devono essere gestiti secondo i principi individuati nell'acronimo FAIR (Findable, Accessible, Interoperable, Reusable).

 

I principi FAIR

 

Nel 2014 sono stati elaborati un gruppo di principi fondamentali, denominati principi dei dati FAIR, per ottimizzare la riutilizzabilità dei dati della ricerca. Essi rappresentano un insieme di linee guida e migliori pratiche sviluppate per garantire che i dati, o qualsiasi oggetto digitale, siano Findable / Rintracciabili, Accessible / Accessibili, Interoperable / Interoperabili e Re-usable / Riutilizzabili:

  • Rintracciabili: per poter rendere i dati riutilizzabili occorre che siano per prima cosa rintracciabili dagli esseri umani e dalle macchine. Il recupero automatico e affidabile di set di dati dipende dagli identificatori persistenti (PID) utilizzati, quali ad  esempio DOI, Handle o URN, e dai metadati descrittivi attribuiti ai dati, che devono essere registrati in "cataloghi" o in repository indicizzabili anche dalle macchine.
  • Accessibili: i dati o almeno i loro metadati devono poter essere accessibili dagli esseri umani e dalle macchine anche attraverso sistemi di autenticazione e autorizzazione (non è necessario che i dati depositati siano open access) mediante l'uso di protocolli standard. I dati e i loro metadati devono essere depositati in archivi o repository che li rendano possibilmente persistenti nel tempo e rintracciabili in rete. Almeno i metadati dovrebbero rimanere  sempre disponibili anche quando i dati non sono in open access.
  • Interoperabili: i dati devono poter essere combinati e utilizzati insieme con altri dati o strumenti. Il formato dei dati deve pertanto essere aperto e interpretabile da vari strumenti, compresi altre basi di dati. Il concetto di interoperabilità si applica anche ai metadati. Ad esempio, i metadati dovrebbero utilizzare un linguaggio standardizzato e condiviso a livello internazionale dai diversi servizi di indicizzazione.
  • Riutilizzabili: sia i metadati, sia i dati devono essere descritti e documentati nel migliore dei modi, a garanzia della loro qualità e perchè possano essere replicati e/o combinati in contesti diversi. Il trattamento dei dati dovrebbe conformarsi agli standard o ai protocolli riconosciuti dalle comunità scientifiche di riferimento. Il riutilizzo dei metadati e dei dati dovrebbe essere dichiarato con una/o più licenze aperte chiare ed accessibili.

 

Quanto sono FAIR i tuoi dati?

Numerose iniziative internazionali hanno cercato di definire strumenti e metriche per valutare il rispetto dei principi FAIR nella gestione dei propri dati della ricerca. EUDAT ha elaborato una semplice lista di controllo di autovalutazione:

 

Findable / Rintracciabili

  • E' stato assegnato un identificatore persistente (es. DOI, Handle, URN) al dataset?
  • Il dataset è stato descritto con metadati esaustivi, informativi e accurati?
  • I metadati sono registrati in un catalogo online o in un data repository che sia indicizzato dai motori di ricerca?
  • Fra i metadati è incluso anche l'identificatore persistente assegnato al dataset?

Accessible / Accessibili

  • L'dentificatore persistente associato al dataset risolve correttamente alla pagina dei matadati del dataset?
  • Il protocollo di recupero dei dati e dei metadati rispetta un linguaggio standardizzato e riconosciuto come ad esempio quello della pagine web (HTTP)?
  •  I metadati sono sempre pubblici, visibili e indicizzabili anche se i dati non sono in open access o non lo sono più? 

Interoperable / Interoperabili

  • I dati sono resi disponibili in formati aperti o almeno in formati documentati e diffusi?
  • I metadati seguono schemi standard riconosciuti e condivisi?
  • Sono stati utilizzati quanto più possibile vocabolari controllati tesauri o ontologie?
  • Sono resi disponibili link o relazioni con altre risorse rilevanti per la comprensione dei dati come pubblicazioni o rapporti tecnici o applicazioni software?

 Re-usable / Riutilizzabili  

  • I dati sono accurati, completi e descritti in modo che siano facilmente comprensibili e riproducibili?
  • Al dataset è stata attribuita una licenza che ne specifica le possibilità di riutilizzo?
  • Sono chiare dai metadati e dalla documentazione allegata le responsabilità scientifiche e e finalità dei dati prodotti?
  • I dati e i metadati rispettano gli standard e i protocolli di qualità  del dominio di ricerca di riferimento?

 

 Questa lista di controllo è utile anche nella compilazione del piano di gestione dei dati di ricerca che documenta le modalità di trattamento dei dataset di ricerca nel corso dei progetti e dopo la loro conclusione.