Open Research Data

De EduTech Wiki
Révision datée du 7 novembre 2019 à 20:36 par Pastora GGarcía (discussion | contributions) (vérification (encore partielle) des liens; actualisations et adaptations de liens (encore partielles); modification de la présentation des liens en utilisant le code d'édition wiki (pas fini); ajout de références (pas fini))
Aller à la navigation Aller à la recherche

Page en construction

Cet article est en construction: un auteur est en train de le modifier.

En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.



Lien avec l'ancienne page à refaire intégralement

Historique de l'Open Research Data (ORD)

  • Avant le XXème siècle :

Avant que les journaux scientifiques ne deviennent une institution, le secret était de mise entre les scientifiques.

Dans les année 1600, Galilée, Newton, Kepler, etc... communiquaient leurs recherches à d'autres scientifiques sous format codé non déchiffrable. Ainsi, le scientifique qui avait fait la découverte, lorsqu'il la présentait en décryptant son message, prouvait sa paternité. Mais l'antériorité des découvertes a causé plus d'un scandale, par exemple entre Newton et Leibniz sur le calcul différentiel et intégral. De plus, les découvertes créaient du prestige avant tout pour les mécènes et autres protecteurs, ce qui ne plaisait pas toujours aux chercheurs.

Mais le mécénat trouva ses limites et lorsqu'un un sujet nécessitait plusieurs scientifiques, les coût engendrés étaient très importants. Ainsi, naquirent la Royal Society en Angleterre (1660) et l'académie des sciences en France (1666). A partir de là, les revues scientifiques se multiplièrent et 150 ans plus tard, plus de 1000 journaux scientifiques existent.

Si la diffusion du savoir scientifique progressait en qualité et en rapidité, le début de l'ORD ne se fera qu'au XXème siècle.

  • Au XXème siècle :

Le premier exemple moderne d'ORD est représenté par le "World Data Center". Cet organisme a été créé lors de l'année international de la Géophysique en 1957 par le Conseil International pour la Science pour archiver et distribuer les résultats d'observations dans le domaine géophysique. En effet, ce domaine nécessite le recueil de nombreuses informations à travers le monde pour pouvoir progresser. Initialement développé pour les USA, l'Europe, l'URSS et le Japon, le système WDC s'est étendu à d'autres domaines et d'autres pays (jusqu'à 12). Le coût d'acquisition des domaines y a été réduit au coût d'impression et d'envoi des documents.

Au final, il faudra attendre l'émergence de l'informatique et d'Internet pour avoir une vraie démocratisation de l'ORD. Sa croissance ne s'est pas arrêtée jusqu'à aujourd'hui et ce partage d'informations est encore en cours de construction.

Définition et principes généraux

L'ORD est définit comme le libre accès aux données de recherche.

Les données de recherche sont définies comme les enregistrements factuels (chiffres, textes, images et sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Plus précisément, l'objectif est de mettre en libre accès les résultats de recherches publiques, c'est-à-dire à la fois les publications et les données de recherche, dans un format digital avec un minimum de restrictions. Dans le cadre de recherches financées par des fonds publics, l'accès aux données doit répondre à des principes fixés par l'OCDE(Organisation De Coopération et de Développement Économiques).

Il s'agit d'une évolution du processus de recherche scientifique; évolution basée sur la diffusion numérique du savoir et les nouveaux outils de travail collaboratif.

Cela impliquera des modifications du fonctionnement de la recherche au niveau mondial. En effet, l'ensemble du cycle de recherche peut être impacté par cette évolution.


Cycle de vie de la recherche scientifique et opportunités de l'ORD. Source: fosteropenscience.eu/


Avantages et inconvénients de l'Open Research Data

Le principal avantage est de favoriser et d'accélérer la recherche, en donnant un accès libre à de nombreuses bases de données scientifiques.

Plus précisément :

  • Meilleure transparence et partage en méthodologie expérimentale, observation et collecte de données
  • Accès public aux résultats
  • Réutilisation des données et des résultats
  • Amélioration de la reproductibilité des données
  • Meilleure visibilité et transparence des communications scientifiques
  • Simplification de la collaboration scientifique au niveau mondial (via utilisation des outils web)
  • Meilleur taux de citation
  • Influence l'élaboration des politiques
  • Conformité aux politiques des bailleurs de fonds
  • Utilisation optimale de l'argent des contribuables
  • Impact positif pour les pays en voie de développement : accélération de leurs programmes de recherche)
  • Permet d'éviter à d’autres de refaire les mêmes erreurs dans le cas d'un échec
  • Meilleure collaboration entre les chercheurs


Il existe également des inconvénients ou des limites comme par exemple :

  • Des évolutions de pratiques délicates à assimiler par une partie de la communauté scientifique,
  • L'accès aux données brutes par le grand public sans filtres pourrait générer des fausses conclusions ou des mauvaises interprétations.
  • Des questions de propriété
  • Un risque de plagiat ou de récupération de données "appartenant" à autrui.
  • Des surcoûts liés à la charge de travail supplémentaire
  • Un impact environnemental
  • Les soucis de vie privée pour certaines données personnelles qui sont rendues accessible à tous.

Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics

En 2004, les ministres de la science et de la technologie ont demandé à l’OCDE de définir un ensemble de lignes directrices à partir des principes établis d’un commun accord en vue de faciliter un accès au moindre coût aux données numériques de la recherche financée sur fonds publics.

Ainsi, il en ressort 4 grands principes:

  • Transparence des méthodes expérimentales
  • Transparence des données et des ressources
  • Accessibilité et réutilisation des données scientifiques
  • Utilisation des outils Web pour faciliter la collaboration scientifique.

Une politique de bonne pratique de gestion des données

Afin de conduire une politique de bonne pratique de gestion des données, le législateur prévoit de nombreux outils et principes à respecter.

Le Data Management Plan

Afin de bien gérer les données tout au long de leur cycle de vie (création, traitement, analyse, présentation, mise à disposition, réutilisation, création...), le chercheur doit savoir:

  • Quel type de données sont créées?
  • Comment les données sont documentées ?
  • Où les données sont-elles stockées ?
  • Où les données seront-elles déposées (fin du projet) ?
  • Les données pourront-elles être réutilisées ?
  • Comment les données pourront-elles être citées?

Quelles données partager et comment les partager ?

Pour partager les données de recherche, il est important de se poser plusieurs questions et d'avoir une vision critique sur les données d'autres auteurs qui sont utilisées.

Ainsi, on se posera la question de quelles informations sont nécessaires pour comprendre les données que nous voulons partager. Pour cela, il est primordial de renseigner les données, métadonnées et le contexte pour bien comprendre un ensemble de données.

Il est également important d'utiliser dans la mesure du possible des standards de métadonnées existants, ainsi que de documenter les schémas de métadonnées le plus tôt possible.

Où stocker les données ?

Il y a deux principaux types de dépôts. Par convention, on distingue les data repositories, comme Zenodo, des data software (dépôts de logiciels) :

Ainsi,

  • Les Data Repositories sont un terme général faisant référence à un espace utilisé pour stocker des données de façon centralisée.

Comme par exemple,

  • un disque dur
  • un NAS (Serveur académique en réseau)
  • un Cloud institutionnel (EduCloud (Filr), SWITCHdrive)
  • un LTP (Préservation à long-terme

Les LTP sont un ensemble de processus et d'outils qui permettent d'assurer la disponibilité et la lisibilité des données dans le temps. Ces LTP ne se limitent pas uniquement à enregistrer les données sans erreurs. Ils ont également la possibilité de pouvoir interpréter les données dessus.

  • Les data software (GitHub, par exemple)

Il s'agit essentiellement d'un type de données différent, qui peut induire des spécificités dans leur usage. Par exemple, il est possible de déployer directement une application web sur GitHub, mais pas dans Re3data, un registre global de data repositories. On y trouve des data repositories pour différentes disciplines académiques. Ce registre à été développé dans le but de contrer l'apparition hétérogène des data repositories et de les indexer de façon structurée. En dehors de cela, on classifiera avant tout les repositories sur la façon d'organiser leurs données.

Le rôle des bibliothécaires

Les bibliothécaires ont un rôle majeur à jouer dans l’élaboration de ces politiques, comme en témoigne ce mémoire de fin d'études De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ? réalisé pour l'accès au Diplôme de conservateur de bibliothèque. Ils peuvent contribuer à identifier les besoins des chercheurs et les assister sur le volet « métadonnées ». Aussi, la question de l’ouverture des données de recherche offre une opportunité unique à ces professionnels de la documentation : celle de remodeler, à l’échelle des établissements de recherche, leur(s) lien(s) avec la communauté.

Les obligations de l'ORD dans le cadre du programme de financement Horizon 2020

Le programme-cadre de recherche Horizon 2020 (2014-2020), regroupe pour la première fois dans un seul programme, les programmes de recherche et d'innovation européens. Dans le cadre de ce nouveau programme, la Commission européenne généralise l'accès libre aux publications de recherche et introduit l'accès libre aux données de recherche.

Les bénéficiaires doivent rendre accessibles et réutilisables, gratuitement en ligne, au plus grand nombre d’utilisateurs les données de recherche électroniques générées dans des projets financés dans le cadre du programme Horizon 2020.

Il s'agit donc de fournir un accès en ligne, large et gratuit, à toutes informations scientifiques réutilisables pour tous les utilisateurs.

  • droit des utilisateurs : a minima droit de lecture, téléchargement et impression;
  • droits additionnels potentiels : droit de copier, distribuer, rechercher, renvoyer vers des liens, indexer (non exhaustif).

La politique Suisse, le FNS

La recherche soutenue par des fonds publics devrait être autant que possible accessible au public et ce, en toute gratuité. Le Fonds National Suisse (FNS) s'est engagé à atteindre ce but. "Open Science" est le concept global pour toutes les activités qui œuvrent à l'ouverture de la science et qui recouvrent un changement de paradigme: par exemple Open Access to publications (libre accès aux publications scientifiques), Open Data (libre accès aux données de recherche) et le passage à une promotion de la recherche conforme aux principes de la déclaration Dora.

«Le FNS introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.» (Open Research Data: directives du FNS pour les plans de gestion des données (11/05/2017)

L'Open Access

L'Open Accès garantit l’accès et l’usage des données (http://fr.slideshare.net/Furer/lopen-access-dans-les-carrires-acadmiques-cinquante-nuances-dopen-par-bruno-j-strasser-paul-n-edwards). "Open access (OA) literature is digital, online, free of charge, and free of most copyright and licensing restrictions.» Peter Suber, 2012, Open Access, MIT Press

Concrètement, l'open access (ou aussi "libre accès" ou "accès ouvert") a pour but de diffuser gratuitement les articles scientifiques et la recherche dans un format numérique gratuit, tout en respectant les droits d'auteur.

Cela est permis par plusieurs phénomènes structurants au niveau des sciences qui ont fait fortement augmenté les données disponibles: - l'émergence d'outils d'évaluation de la science et des chercheurs - une concentration des publications chez certains éditeurs - l'utilisation massive d'Internet

Ainsi, les chercheurs et les bibliothèques ont encouragé la création d'archives ouvertes, de dépôt des savoirs, ainsi que l'émergence de revues électroniques librement accessibles sans abonnement.

Pour aller plus loin, il est également possible de consulter : Open Content sur Edutechwiki

Outils de travail collaboratif

Des outils de travail collaboratif et de partage de données peuvent être utilisés pour l'ORD.

Les outils de travail collaboratif sont des plateformes en ligne, pouvant prendre la forme d'un site internet ou d'une application, permettant à plusieurs personnes de travailler sur un même projet. Ce type d'outils permet donc à des chercheurs de rendre publiques leurs protocoles de recherche et les données recueillies. Ces données peuvent ainsi être reprises par d'autres confrères qui en auraient l'utilité pour leurs propres recherches. En médecine, par exemple, ces outils sont très utilisés et particulièrement utiles parce qu'ils permettent aux équipes de chercheurs à travers le monde de partager facilement les données de recherche et de les compléter avec les avancées réalisées. Ainsi, les nouveaux chercheurs peuvent plus facilement consulter ce qui a été réalisé et dans quelles conditions pour se tourner vers l'avenir et entamer des travaux dans ce qui n'a pas encore été expérimenté.

Voici une liste non exhaustive :

  • Github: Service web d'hébergement et de gestion de développement de logiciels.
  • Evernote: Gestionnaire de notes et de documents.
  • Open project: Système de gestion de projet basé sur le Web pour la collaboration d’équipes indépendante du lieu.
  • HUBzero: Outil de collaboration scientifique pour le calcul en nanotechnologie développé par l'Université de Purdue.

Ressources

Gaillard, R. (2014). De l'Open data à l'Open research data: quelle (s) politique (s) pour les données de recherche? (Doctoral dissertation, Ecole Nationale Supérieure des Sciences de l'Information et des Bibliothèques).

OCDE, 2007. Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics.

https://fr.slideshare.net/OpenAIRE_eu/09052018-webinar-h2020data-1

https://www.fosteropenscience.eu/content/what-open-science-introduction

http://openscience.org/what-exactly-is-open-science/

http://wdc.kugi.kyoto-u.ac.jp/wdc/whatis.html

https://hub.wiley.com/community/exchanges/discover/blog/2017/01/16/test-cartoon

https://en.wikipedia.org/wiki/Open_science#History

https://openaccess.couperin.org/

https://www.biblio.univ-evry.fr/expos/oaweek2014/

https://www.cesnet.cz/wp-content/uploads/2013/01/digital-data-long-term-preservation.pdf

https://fr.m.wikipedia.org/wiki/Plate-forme_collaborative

https://s3.amazonaws.com/academia.edu.documents/31571825/jobim_YLeBras_2013.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1550171874&Signature=V1ufaKlZORzSP5iErakATX3io6I%3D&response-content-disposition=inline%3B%20filename%3DTowards_a_Life_Sciences_Virtual_Research.pdf