Open Research Data

De EduTech Wiki
Aller à la navigation Aller à la recherche

Page en construction

Cet article est en construction: un auteur est en train de le modifier.

En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.



Lien avec l'ancienne page à refaire intégralement

Historique de l'ORD

Avant le XXème siècle :

Avant que les journaux sientifiques deviennent une institution, le secret était de mise entre les scientifiques.

Dans les année 1600, Galilée, Newton, Kepler, etc... communiquaient leurs recherches à d'autres scientifiques sous format codé non déchiffrable. Ainsi le scientifique qui avait fait la découverte, lorsqu'il la présentait en décryptant son message prouvait sa paternité. Mais l'antériorité des découvertes a causé plus d'un scandale, par exemple entre Newton et Leiniz sur le calcul différentiel et intégral. De plus les découvertes créaient du prestige avant tout pour les mécènes et autres protecteurs ce qui ne plaisait pas toujours aux chercheurs.

Mais le mécénat trouva ses limites, et lorsqu'un un sujet nécessitait plusieurs scientifiques, les coût engendrés étaient très importants. Ainsi naquirent la Royel Society en Angletterre (1660) et l'académie des sciences en France (1666). A partir de là les revues scientifiques se multiplièrent et 150 ans plus tard, plus de mille journaux scientifiques existaient.

Si la diffusion du savoir scientifique progressait en qualité et en rapidité, le début de l'ORD ne se ferait qu'au XXème siècle.

Au XXème siècle :

Le premier exemple moderne d'ORD est représenté par le "World Data center". Cet organisme a été créee lors de l'année international de la Géophysique en 1957 par le Conseil international pour la science pour archiver et distribuer les résultats d'observation dans le domaine géophysique. En effet ce domaine nécessite le recueil de nombreuses informations à travers le monde pour pouvoir progresser. Initialement développé pour les USA, l'Europe, l'URSS et le Japon, le système WDC s'est étendu à d'autres domaines et d'autres pays (jusqu'à 12). Le coût d'acquisition des domaines y a été réduit au coût d'impression et d'envoi des documents.

Au final, il faudra attendre l'émergence de l'informatique et d'Internet pour avoir une vraie démocratisation de l'ORD. Sa croissance ne s'est pas arrêté jusqu'à aujourd'hui et ce partage d'information est encore en cours de construction.

Définition et principes généraux

L'Open Research Data (ORD) est définit comme le libre accès aux données de recherche.

Les données de recherches sont définies comme les enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Plus précisément, l'objectif est de mettre en libre accès les résultats de recherches publiques, c'est à dire à la fois les publications et les données de recherche, dans un format digital avec un minimum de restrictions. Dans le cadre de recherches financées par des fonds publics, l'accès aux données doit répondre à des principes fixés par l'OCDE(Organisation De Coopération et de Développement Économiques).

Il s'agit d'une évolution du processus de recherche scientifique, évolution basée sur la diffusion numérique du savoir et les nouveaux outils de travail collaboratifs.

Cela impliquera des modifications du fonctionnement de la recherche au niveau mondial.En effet l'ensemble du cycle de recherche peut être impacté par cette évolution.

Cycle de vie de la recherche scientifique et opportunités de l'ORD



https://www.fosteropenscience.eu/content/what-open-science-introduction

Avantages et inconvénients de l'Open Research Data

Le principal avantage est de favoriser et d'accélérer la recherche en donnant un accès libre à de nombreuses bases de données scientifiques.

Plus précisément :

  • Meilleure transparence et partage en méthodologie expérimentale, observation et collecte de données
  • Accès public aux résultats
  • Réutilisation des données et des résultats
  • Amélioration de la reproductibilité des données
  • Meilleure visibilité et transparence des communications scientifiques
  • Simplification de la collaboration scientifique au niveau mondial (via utilisation des outils web)
  • Meilleur taux de citation
  • Influence l'élaboration des politiques
  • Conformité aux politiques des bailleurs de fonds
  • Utilisation optimale de l'argent des contribuables
  • Impact positif pour les pays en voie de développement : accélération de leur programmes de recherches )


Il existe également des inconvénients ou des limites comme par exemple :

  • Des évolutions de pratiques délicates à assimiler par une partie de la communauté scientifique,
  • L'accès aux données brutes par le grand public sans filtres pourrait générer des fausses conclusions ou des mauvaises interprétations.
  • Des questions de propriété
  • Un risque de plagiat ou de récupération de données "appartenant" à autrui.
  • Des sur-coûts liés à la charge de travail supplémentaire
  • Un impact environnemental
  • Les soucis de vie privée pour certaines données. (A préciser)

Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics

A développer

En 2004, les ministres de la science et de la technologie ont demandé à l’OCDE de définir un ensemble de lignes directrices à partir de principes établis d’un commun accord en vue de faciliter un accès au moindre coût aux données numériques de la recherche financée sur fonds publics. http://www.oecd.org/fr/sti/sci-tech/38500823.pdf Ainsi, il en ressort 4 grands principes.

  • Transparence des méthodes expérimentales
  • Transparence des données et des ressources
  • Accessibilité et réutilisation des données scientifiques
  • Utilisation des outils Web pour faciliter la collaboration scientifique.

Une politique de bonne pratique de gestion des données

Afin de conduire une politique de bonne pratique de gestion des données, le législateur prévoit de nombreux outils et principes à respecter.

Le Data Management Plan

Afin de bien gérer les données tout au long de leur cycle de vie (création, traitement, analyse, présentation, mise à disposition, réutilisation, création...) le chercheur doit savoir:

  • Quel type de données sont crée ?
  • Comment les données sont documentées ?
  • Où les données sont-elles stockées ?
  • Où les données seront-elles déposées (fin du projet) ?
  • Les données pourront-elles être réutilisées ?
  • Comment les données pourront-elles être citées?

Quelles données partager et comment les partager ?

Pour partager les données de recherches, il est important de se poser plusieurs questions et d'avoir une vision critique sur les données d'autres auteurs qui sont utilisées.

Ainsi on se posera la question de quelles informations sont nécessaires pour comprendre les données que nous voulons partager. Pour cela, il est primordial de renseigner les données, métadonnées et le contexte pour bien comprendre un ensemble de données.

Il est également important d'utiliser dans la mesure du possible des standards de métadonnées existants, ainsi que de documenter le schémas de métadonnées le plus tôt possible.

Où stocker les données ?

Il y a deux principaux types de dépôts. Par convention, on distingue les data repositories, comme Zenodo, des data software (dépôts de logiciels) :

Ainsi,

  • Les Data Repositories sont un terme général faisant référence à un espace utilisé pour stocker des données de façon centralisée.

Comme par exemple,

  • un disque dur
  • un NAS (Serveur académique en réseau)
  • un Cloud institutionnel (EduCloud (Filr), SWITCHdrive)
  • un LTP (Laboratoire Technologique de Physique)


  • Les data software (GitHub, par exemple)

Il s'agit essentiellement d'un type de données différent, qui peut induire des spécificités dans leur usage. Par exemple, il est possible de déployer directement une application web sur GitHub, mais pas dans Re3data (https://www.re3data.org/), un registre global de data repositories. On y trouve des data repositories pour différentes disciplines académiques. Ce registre à été développé dans le but de contrer l'apparition hétérogène des data repositories et de les indexer de façon structurée. En dehors de cela, on classifiera avant tout les repositories sur la façon d'organiser leurs données.

Le rôle des bibliothécaires

Les bibliothécaires ont un rôle majeur à jouer dans l’élaboration de ces politiques, comme en témoigne ce mémoire de fin d'études De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ? réalisé pour l'accès au Diplôme de conservateur de bibliothèque. Ils peuvent contribuer à identifier les besoins des chercheurs et les assister sur le volet « métadonnées ». Aussi, la question de l’ouverture des données de recherche offre une opportunité unique à ces professionnels de la documentation : celle de remodeler, à l’échelle des établissements de recherche, leur(s) lien(s) avec la communauté.

Les obligations de l'ORD dans le cadre du programme de financement Horizon 2020

Le programme-cadre de recherche Horizon 2020 (2014-2020), regroupe pour la première fois dans un seul programme, les programmes de recherche et d'innovation européens. Dans le cadre de ce nouveau programme,horizon2020 la Commission européenne généralise l'accès libre aux publications de recherche et introduit l'accès libre aux données de recherche.

Les bénéficiaires doivent rendre accessibles et réutilisables gratuitement en ligne au plus grand nombre d’utilisateurs les données de recherche électroniques générées dans des projets financés dans le cadre du programme Horizon 2020.

Il s'agit donc de fournir un accès en ligne, large et gratuit, à toutes informations scientifiques réutilisables pour tous les utilisateurs.

  • droit des utilisateurs : a minima droit de lecture, téléchargement et impression;
  • droits additionnels potentiels : droit de copier, distribuer, rechercher, renvoyer vers des liens, indexer (non exhaustif).

La politique Suisse, le FNS

La recherche soutenue par des fonds publics devrait être autant que possible accessible au public, et ce, en toute gratuité. Le Le Fonds national suisse (FNS) s'est engagé à atteindre ce but. "Open Science" est le concept global pour toutes les activités qui œuvrent à l'ouverture de la science et qui recouvrent un changement de paradigme: par exemple Open Access to publications (libre accès aux publications scientifiques), Open Data (libre accès aux données de recherche) et le passage à une promotion de la recherche conforme aux principes de la déclaration Dora.

"Le FNS introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.» (Open Research Data: directives du FNS pour les plans de gestion des données (11/05/2017)

http://www.snf.ch/fr/pointrecherche/dossiers/open-science/Pages/default.aspx

L'Open Access

L'Open Accès garantit l’accès et l’usage des données (http://fr.slideshare.net/Furer/lopen-access-dans-les-carrires-acadmiques-cinquante-nuances-dopen-par-bruno-j-strasser-paul-n-edwards). "Open access (OA) literature is digital, online, free of charge, and free of most copyright and licensing restrictions.» Peter Suber, 2012, Open Access, MIT Press


Open Content sur Edutechwiki

Outils du travail collaboratif

Des outils de travail collaboratif existent d'ores et déjà en ligne et peuvent être utilisés pour l'ORD.

En voici une liste non exhaustive :

  • Github
  • Slack
  • Trello
  • Open project

Commentaires : si nous maintenons cette partie, il faudra ajouter une taxonomie d'outils

Ressources

https://fr.slideshare.net/OpenAIRE_eu/09052018-webinar-h2020data-1

https://www.fosteropenscience.eu/content/what-open-science-introduction

http://openscience.org/what-exactly-is-open-science/

http://wdc.kugi.kyoto-u.ac.jp/wdc/whatis.html

https://hub.wiley.com/community/exchanges/discover/blog/2017/01/16/test-cartoon

https://en.wikipedia.org/wiki/Open_science#History