Perché depositare
Sempre più spesso le riviste scientifiche internazionali e i programmi di finanziamento della ricerca chiedono che i dati di ricerca siano resi disponibili per consentire la validazione delle pubblicazioni scientifiche. Oltre alla possibilità di consultare i dati è raccomandata la concessione del loro libero utilizzo da parte di terzi, subordinato solo alla corretta citazione della fonte, per consentire l'avanzamento delle ricerche e pratiche di data mining. Nell'ambito del programma europeo H2020 è stato attivato un progetto pilota per la disseminazione ad accesso aperto dei dati di ricerca. Anche i recenti bandi SIR e PRIN del MIUR raccomandano di rendere accessibili i dati della ricerca e solo in casi motivati e specifici è possibile mantenerli riservati secondo il principio "as open as possible, as closed as necessary". L'accesso aperto ai dati della ricerca scientifica favorisce il progresso scientifico, la riproducibilità e la validazione delle ricerche, riduce le duplicazioni, incrementa la trasparenza.
Come fare
I ricercatori, in particolare coloro che usufruiscono di finanziamenti pubblici, sono invitati a redigere un piano di gestione dei dati della ricerca (data management plan) e a prendere tutte le misure necessarie per favorire la condivisione dei dati e il loro riuso secondo i principi identificati dall'acronimo FAIR (findable, accessible, interoperable, reusable):
- gestendo correttamente gli aspetti etici quando i dati raccolti includono dati personali e sensibili;
- richiedendo l'autorizzazione ai titolari dei diritti quando si utilizzano fonti o dati di terze parti per poterli non solo utilizzare, ma riprodurre e ridistribuire in forma aperta
- adottando standard internazionali per la loro descrizione e formati aperti o ben documentati per la loro pubblicazione
- scegliendo licenze aperte e liberali come le Creative Commons CC0, CC-BY o CC-BY-SA
- mettendo a disposizione tutta la documentazione necessaria e gli strumenti informatici atti a favorire l'intelligibilità, la riproducibilità e il riuso dei dati
- depositando in archivi pubblici di dati
- inserendo un cross-linking che lega i dati alle relative pubblicazioni
Cosa depositare
Occorre selezionare i dati che si possono legittimamente condividere, che non sono, cioè, soggetti a vincoli di confidenzialità, di tutela della privacy o del diritto d'autore e per i quali non è previsto un piano di sfruttamento industriale o commerciale.
E' necessario rendere disponibili le collezioni di dati in modo accurato e completo, in formati aperti o diffusi e documentati per assicurarne l'accessibilità.
Oltre ai dati, è bene archiviare anche documentazione e spiegazioni (read-me file) facendo riferimento agli strumenti e ai software utilizzati per generare ed elaborare i dati. I dati devono essere depositati completi dei seguenti metadati descrittivi: autore/i e contributore/i, titolo, data di pubblicazione, abstract, riferimenti all'eventuale finanziamento, l'eventuale citazione delle pubblicazioni ai quali si riferiscono, la licenza di distribuzione, il livello di accesso ed eventuale periodo di embargo.
Dove depositare
Preferibilmente è bene archiviare i propri dati negli archivi o repository di riferimento della propria comunità scientifica. Occorre però verificare che il repository scelto rispetti alcuni requisiti. In particolare:
- abbia una governance pubblica
- garantisca la conservazione a lungo termine dei dati
- supporti licenze aperte, come le Creative Commons
- adotti metadati standard richiesti dagli aggregatori internazionali (OpenAIRE)
- attribuisca un identificatore persistente ai data set (DOI, Handle, URN...)
- consenta il cross-linking con le pubblicazioni scientifiche
- gestisca il deposito di versioni aggiornate dello stesso data set collegate fra loro (versioning)
L'archivio istituzionale AMS Acta dell'Università di Bologna accoglie i dati della ricerca e rispetta tutti i requisiti sopraelencati.
Quando depositare
I dati della ricerca devono essere resi disponibili al più tardi al momento della pubblicazione dei risultati della ricerca.
Si raccomanda tuttavia di anticipare il deposito dei dati nel repository al momento dell'accettazione della pubblicazione in modo da attribuire al data set un identificatore persistente (DOI, Handle, URN...) da utilizzare nella citazione all'interno della pubblicazione.
I data set depositati nel repository potranno rimanere inaccessibili (embargo) fino al momento della pubblicazione dell'articolo o del volume o anche più a lungo se sussistono esigenze di tutela. Per la durata dell'embargo saranno visibili nel repository solo i metadati, inclusa la possibilità di contattare l'autore responsabile del deposito mediante un form email.
Come citare i dati
I dati di rilievo per la verifica dell’attendibilità, della correttezza e della riproducibilità dei processi e dei risultati delle ricerche pubblicate (underlying data) devono essere citati nella pubblicazione scientifica. Per questo motivo i dati devono essere depositati nel data repository prima della pubblicazione dell'articolo o del volume. Lo standard citazionale raccomandato è il seguente:
"Autore(i), Anno di pubblicazione, Titolo del Dataset, Nome del data repository, [Versione consultata], Identificatore Persistente come il DOI, HANDLE..."
es. Frascari, Dario ; Pinelli, Davide (2018) MADFORWATER: WP2: Adaptation of wastewater treatment technologies for agricultural reuse: Task2.3: Agro-industrial wastewater treatment: Subtask2.3.1: Treatment of olive mill wastewater: procedure for the selection of the optimal sorbent for phenolic compounds recovery. AMS Acta, Alma Mater Studiorum - Università di Bologna, DOI 10.6092/unibo/amsacta/5998
es. Dobias-Lalou, Catherine (2018) Dataset of the Inscriptions of Greek Cyrenaica and Greek Verse Inscriptions of Cyrenaica. AMS Acta, Alma Mater Studiorum - Università di Bologna, V. 03, DOI 10.6092/unibo/amsacta/5863.
Pubblicare i dati nelle "riviste di dati"
I data set possono anche essere pubblicati mediante le "riviste di dati" (data journals). Si tratta di riviste specializzate nella valorizzazione disciplinare dei data set di ricerca che effettuano una selezione dei materiali da pubblicare mediante peer-review per certificarne la qualità. I data set in questo tipo di riviste sono accompagnati in genere da un abstract o da un articolo descrittivo. Esempi di "riviste di dati" sono la Scientific Data (SpringerNature) e la Data Science Journal (CODATA). Un elenco più esteso di riviste di dati è disponibile in Candela et al.
La pubblicazione dei data set in una "rivista di dati" non sostituisce il deposito degli stessi in un repository istituzionale o disciplinare che è anche finalizzato alla preservazione a lungo termine.