Mio, tuo o nostro? Uno studio sulla condivisione dei dati scientifici in Genetica Umana - Proposte pratiche - pag 7/10

Redazione LSWN 3 settembre 2012 · 7 min di lettura

Difficile

Mio, tuo o nostro? Uno studio sulla condivisione dei dati scientifici in Genetica Umana - Proposte pratiche - pag 7/10

Autori: Nicola Milia1,3, Alessandra Congiu1,3, Paolo Anagnostou1,2, Francesco Montinaro2, Marco Capocasa2, Emanuele Sanna3 e Giovanni Destro...

Autori: Nicola Milia1,3, Alessandra Congiu1,3, Paolo Anagnostou1,2, Francesco Montinaro2, Marco Capocasa2, Emanuele Sanna3 e Giovanni Destro Bisol1,2*

1) Università di Roma ‘La Sapienza’, Dipartimento di Biologia Ambientale, Roma Italy (2)Istituto Italiano di Antropologia, Roma, Italy (3)Università di Cagliari, Dipartimento di Biologia Sperimentale, Cagliari, Italy *destrobisol AT uniroma1 dot it

Alcune proposte pratiche

Come logico sviluppo del nostro studio, dopo l’analisi dei dati, abbiamo rivolto la nostra attenzione sulle possibili implicazioni dei nostri risultati per proporre delle strategie più efficaci sulla condivisione dei dati [31].

Le basse percentuali di condivisione osservate per i lavori nel campo della genetica medica suggeriscono che i fattori che limitano la condivisione dei dati possono variare anche tra settori di ricerca strettamente affini.

Questo mostra come l’identificazione di accorgimenti specifici per ogni settore di ricerca sia di fondamentale importanza per aumentare realmente la condivisione dei dati. La differenza osservata potrebbe scaturire anche dai potenziali conflitti tra condivisione dei dati e privacy e/o dalla mancanza di consapevolezza dei ricercatori in ambito bio-medico sull'utilità dei dati per altri campi di ricerca (in particolare dati relativi ai gruppi di controllo).

Altre possibili spiegazioni sono state discusse in un recente studio effettuato sui dati di espressione genica su microarray, in cui è stato dimostrato che gli autori di lavori incentrati sullo studio dei tumori in soggetti umani fossero meno propensi a rendere i loro dati disponibili [32].

L'autore di questo articolo suggerisce che la percezione da parte dei ricercatori che l’ambiente accademico legato a questo tipo di studi sia molto competitivo, l’influenza esercitata dall’industria farmaceutica e i problemi legati alla privacy rendono i ricercatori meno propensi a condividere i loro dati. Le prime due condizioni sono probabilmente più presenti nel campo medico rispetto a quello forense o della genetica evolutiva.

Nonostante la percentuale di risposte positive da parte dei corresponding authors alle nostre richieste e-mail per ottenere i dataset “trattenuti” sia stata superiore a quella ottenuta in precedenti studi [18], [30], anche nel nostro caso, un gran parte dei dati richiesti (90 su 126, 71,4%) resta non disponibile.

Le difficoltà nel recupero dei dati dopo la loro pubblicazione implica che una completa ed efficace condivisione dovrebbe essere vista, attraverso politiche editoriali più restrittive, come requisito fondamentale per l’accettazione e la pubblicazione del lavoro, piuttosto che una semplice raccomandazione.

Tra le numerose politiche editoriali esaminate, quelle del International Journal of Legal Medicine (IJLM) e Forensic Science International Genetics (FSIG) possono essere prese come un utile modello [33], [34].

Gli autori per sottomettere i propri lavori in queste due riviste devono prima depositare i propri dati a Y Chromosome Haplotype Reference Database (http://www.yhrd.org) ed al European mtDNA Population Database (http://empop.org/) [35], [36].

Dopo che i dati hanno superato il controllo di qualità, i lavori sono sottoposti a peer review.

In caso di accettazione finale, i dati devono essere presentati come aplotipi individuali, di solito come materiale supplementare online.

Abbiamo osservato che la percentuale di condivisione dei dati pubblicati in IJLM e FSIG (89 su 99, 89,9%) contribuiscono all’elevato livello di condivisione riscontrato in ambito forense. Pertanto, le politiche editoriali di queste due riviste possono avere un impatto sostanziale sulla disponibilità di dati forensi di alta qualità.

Il fatto che non venga raggiunto il 100% di condivisione sembra riflettere una diffusa difficoltà nel far rispettare le politiche editoriali agli autori.

Come mostrato da un recente studio condotto su una selezione di 500 lavori pubblicati in 50 riviste scientifiche con il più alto impact factor, il 30% dei lavori non sono stati sottoposti ad alcuna politica di condivisione dei dati, ma una percentuale ancora maggiore (58%) non ha rispettato le linee guida esistenti sul data sharing [19].

È altresì importante notare che le riviste possono beneficiare dall’adozione di regole sulla condivisione dei dati in quanto i lavori i cui dataset sono disponibili senza restrizioni hanno una maggiore probabilità di essere citati rispetto a quelli i cui dati non sono condivisi (vedi sopra e rif. 13).

Naturalmente, questo può contribuire ad aumentare il loro impact factor; IJLM e FSIG sono infatti le riviste con impact factor più alto nella loro categoria “Medicine, Legal” del Science Citation Index (versione 2010).

La disponibilità di database on-line che permettono di scaricare i dati è un fattore che non influisce direttamente sulla condivisione degli stessi, ma può avere un impatto sulla loro accessibilità, in particolare per i dataset di grandi dimensioni.

Abbiamo osservato che una parte importante delle informazioni sono condivise nelle banche dati on-line per mtDNA, ma ciò non accade per i polimorfismi del cromosoma Y. Vale la pena notare che è presente un solo database per i dati del cromosoma Y (Y Chromosome Haplotype Reference Database, YHRD), mentre sono disponibili numerose alternative per polimorfismi del mtDNA (ad esempio EMPOP, Mitomap e GenBank).

Infine, attraverso il nostro studio, abbiamo notato che esiste un aspetto importante che potrebbe contribuire a diffondere una cultura della condivisione dei dati più efficace tra i giovani ricercatori e in tutta la comunità scientifica.

Infatti, abbiamo dimostrato che una parte rilevante delle risorse utilizzate nell’ambito della variabilità genetica umana potrebbe essere sfruttata meglio, se la condivisione fosse una pratica comune.

Attraverso un calcolo approssimato (vedi Tabella S2), abbiamo stimato che tra il 29,8% e il 32,9% delle risorse impiegate sono state spese per produrre dati non condivisi, con una notevole differenza tra i dati del DNA mitocondriale e del cromosoma Y (37,1% - 38,5% per mtDNA, 21,8% -26,9% per cromosoma Y).

E’ interessante notare come questi valori superino quelli dei dataset non condivisi (26,9% per mtDNA e del 17,6% per il cromosoma Y). Il diagramma a “scatola e baffi” mostra una percentuale leggermente superiore di outliers tra i dataset non condivisi (vedi Figura S1 per ulteriori dettagli).

Dopo aver rimosso dai calcoli gli outliers, la percentuale calcolata del costo relativo dei dataset trattenuti si avvicina alla loro percentuale relativa (dal 22,8% al al 28,8% per il mtDNA e il 16,1% al 21,8% per il cromosoma Y).

Ciò indica che una minoranza di lavori con grandi quantità di dati non condivisi ha ulteriormente diminuito il rapporto tra benefici (le informazioni disponibili alla comunità scientifica) e costi (risorse impiegate).

Conclusioni:

In conclusione, il nostro studio dimostra che la maggioranza dei dati pubblicati nell’ambito della variabilità genetica umana sono a disposizione della comunità scientifica.

Tuttavia, abbiamo anche mostrato che ulteriori sforzi sono ancora necessari per rendere la condivisione dei dati una pratica comune in questo settore di ricerca.

Noi sosteniamo che la ricerca in questo campo possa realmente diventare un “forerunner” per la creazione di una condivisione dei dati diffusa, rendendo le politiche editoriali più rigorose, adattando le strategie alle caratteristiche di ogni specifico ambito di ricerca e divulgando i vantaggi della condivisione dei dati in termini di utilizzo ottimale delle risorse.

Più in generale, ci auguriamo che questo studio possa aprire la strada ad ulteriori indagini in altre aree di ricerca genetica e biologica. In questo senso, il semplice protocollo di analisi dei dati qui presentato potrebbe offrire un utile riferimento e una base comune per futuri studi empirici sulla condivisione dei dati.

Ringraziamenti

Vogliamo ringraziare i colleghi che hanno collaborato a questo studio rispondendo alle nostre richieste. Il lavoro è stato possibile grazie al supporto economico del MIUR (Progetti di Ricerca di interesse nazionale 2007-2009, prot.n. 2007TYXE3X; 2009-2011, prot.n. 200975T9EW) e dell’Istituto Italiano di Antropologia (progetto ”La condivisione dei dati scientifici nell’era digitale: un’indagine sulla variabilità genetica nelle popolazioni umane”).