Open Research Data
Page en construction
Cet article est en construction: un auteur est en train de le modifier.
En principe, le ou les auteurs en question devraient bientôt présenter une meilleure version.
Lien avec l'ancienne page à refaire intégralement
Historique de l'Open Research Data (ORD)
- Avant le XXème siècle :
Avant que les journaux sientifiques ne deviennent une institution, le secret était de mise entre les scientifiques.
Dans les année 1600, Galilée, Newton, Kepler, etc... communiquaient leurs recherches à d'autres scientifiques sous format codé non déchiffrable. Ainsi le scientifique qui avait fait la découverte, lorsqu'il la présentait en décryptant son message prouvait sa paternité. Mais l'antériorité des découvertes a causé plus d'un scandale, par exemple entre Newton et Leiniz sur le calcul différentiel et intégral. De plus les découvertes créaient du prestige avant tout pour les mécènes et autres protecteurs ce qui ne plaisait pas toujours aux chercheurs.
Mais le mécénat trouva ses limites, et lorsqu'un un sujet nécessitait plusieurs scientifiques, les coût engendrés étaient très importants. Ainsi naquirent la Royel Society en Angletterre (1660) et l'académie des sciences en France (1666). A partir de là les revues scientifiques se multiplièrent et 150 ans plus tard, plus de 1000 journaux scientifiques existent.
Si la diffusion du savoir scientifique progressait en qualité et en rapidité, le début de l'ORD ne se ferait qu'au XXème siècle.
- Au XXème siècle :
Le premier exemple moderne d'ORD est représenté par le "World Data Center". Cet organisme a été crée lors de l'année international de la Géophysique en 1957 par le Conseil International pour la Science pour archiver et distribuer les résultats d'observation dans le domaine géophysique. En effet ce domaine nécessite le recueil de nombreuses informations à travers le monde pour pouvoir progresser. Initialement développé pour les USA, l'Europe, l'URSS et le Japon, le système WDC s'est étendu à d'autres domaines et d'autres pays (jusqu'à 12). Le coût d'acquisition des domaines y a été réduit au coût d'impression et d'envoi des documents.
Au final, il faudra attendre l'émergence de l'informatique et d'Internet pour avoir une vraie démocratisation de l'ORD. Sa croissance ne s'est pas arrêtée jusqu'à aujourd'hui et ce partage d'informations est encore en cours de construction.
Définition et principes généraux
L'ORD est définit comme le libre accès aux données de recherche.
Les données de recherches sont définies comme les enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.
Plus précisément, l'objectif est de mettre en libre accès les résultats de recherches publiques, c'est à dire à la fois les publications et les données de recherche, dans un format digital avec un minimum de restrictions. Dans le cadre de recherches financées par des fonds publics, l'accès aux données doit répondre à des principes fixés par l'OCDE(Organisation De Coopération et de Développement Économiques).
Il s'agit d'une évolution du processus de recherche scientifique, évolution basée sur la diffusion numérique du savoir et les nouveaux outils de travail collaboratifs.
Cela impliquera des modifications du fonctionnement de la recherche au niveau mondial.En effet l'ensemble du cycle de recherche peut être impacté par cette évolution.
https://www.fosteropenscience.eu/content/what-open-science-introduction
Avantages et inconvénients de l'Open Research Data
Le principal avantage est de favoriser et d'accélérer la recherche en donnant un accès libre à de nombreuses bases de données scientifiques.
Plus précisément :
- Meilleure transparence et partage en méthodologie expérimentale, observation et collecte de données
- Accès public aux résultats
- Réutilisation des données et des résultats
- Amélioration de la reproductibilité des données
- Meilleure visibilité et transparence des communications scientifiques
- Simplification de la collaboration scientifique au niveau mondial (via utilisation des outils web)
- Meilleur taux de citation
- Influence l'élaboration des politiques
- Conformité aux politiques des bailleurs de fonds
- Utilisation optimale de l'argent des contribuables
- Impact positif pour les pays en voie de développement : accélération de leur programmes de recherches )
- Permet d'éviter à d’autres de refaire les mêmes erreurs dans le cas d'un échec
- Meilleure collaboration entre les chercheurs
Il existe également des inconvénients ou des limites comme par exemple :
- Des évolutions de pratiques délicates à assimiler par une partie de la communauté scientifique,
- L'accès aux données brutes par le grand public sans filtres pourrait générer des fausses conclusions ou des mauvaises interprétations.
- Des questions de propriété
- Un risque de plagiat ou de récupération de données "appartenant" à autrui.
- Des sur-coûts liés à la charge de travail supplémentaire
- Un impact environnemental
- Les soucis de vie privée pour certaines données personnelles qui sont rendues accessible à tous.
Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics
A développer
En 2004, les ministres de la science et de la technologie ont demandé à l’OCDE de définir un ensemble de lignes directrices à partir de principes établis d’un commun accord en vue de faciliter un accès au moindre coût aux données numériques de la recherche financée sur fonds publics. http://www.oecd.org/fr/sti/sci-tech/38500823.pdf Ainsi, il en ressort 4 grands principes.
- Transparence des méthodes expérimentales
- Transparence des données et des ressources
- Accessibilité et réutilisation des données scientifiques
- Utilisation des outils Web pour faciliter la collaboration scientifique.
Une politique de bonne pratique de gestion des données
Afin de conduire une politique de bonne pratique de gestion des données, le législateur prévoit de nombreux outils et principes à respecter.
Le Data Management Plan
Afin de bien gérer les données tout au long de leur cycle de vie (création, traitement, analyse, présentation, mise à disposition, réutilisation, création...) le chercheur doit savoir:
- Quel type de données sont crée ?
- Comment les données sont documentées ?
- Où les données sont-elles stockées ?
- Où les données seront-elles déposées (fin du projet) ?
- Les données pourront-elles être réutilisées ?
- Comment les données pourront-elles être citées?
Quelles données partager et comment les partager ?
Pour partager les données de recherches, il est important de se poser plusieurs questions et d'avoir une vision critique sur les données d'autres auteurs qui sont utilisées.
Ainsi on se posera la question de quelles informations sont nécessaires pour comprendre les données que nous voulons partager. Pour cela, il est primordial de renseigner les données, métadonnées et le contexte pour bien comprendre un ensemble de données.
Il est également important d'utiliser dans la mesure du possible des standards de métadonnées existants, ainsi que de documenter le schémas de métadonnées le plus tôt possible.
Où stocker les données ?
Il y a deux principaux types de dépôts. Par convention, on distingue les data repositories, comme Zenodo, des data software (dépôts de logiciels) :
Ainsi,
- Les Data Repositories sont un terme général faisant référence à un espace utilisé pour stocker des données de façon centralisée.
Comme par exemple,
- un disque dur
- un NAS (Serveur académique en réseau)
- un Cloud institutionnel (EduCloud (Filr), SWITCHdrive)
- un LTP (Préservation à long-terme
Les LTP sont un ensemble de processus et d'outils qui permettent d'assurer la disponibilité et la lisibilité des données dans le temps. Ces LTP ne se limitent pas à uniquement enregistrer les données sans erreurs. Ils ont également la possibilité de pouvoir interpréter les donner dessus.
- Les data software (GitHub, par exemple)
Il s'agit essentiellement d'un type de données différent, qui peut induire des spécificités dans leur usage. Par exemple, il est possible de déployer directement une application web sur GitHub, mais pas dans Re3data (https://www.re3data.org/), un registre global de data repositories. On y trouve des data repositories pour différentes disciplines académiques. Ce registre à été développé dans le but de contrer l'apparition hétérogène des data repositories et de les indexer de façon structurée. En dehors de cela, on classifiera avant tout les repositories sur la façon d'organiser leurs données.
Le rôle des bibliothécaires
Les bibliothécaires ont un rôle majeur à jouer dans l’élaboration de ces politiques, comme en témoigne ce mémoire de fin d'études De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ? réalisé pour l'accès au Diplôme de conservateur de bibliothèque. Ils peuvent contribuer à identifier les besoins des chercheurs et les assister sur le volet « métadonnées ». Aussi, la question de l’ouverture des données de recherche offre une opportunité unique à ces professionnels de la documentation : celle de remodeler, à l’échelle des établissements de recherche, leur(s) lien(s) avec la communauté.
Les obligations de l'ORD dans le cadre du programme de financement Horizon 2020
Le programme-cadre de recherche Horizon 2020 (2014-2020), regroupe pour la première fois dans un seul programme, les programmes de recherche et d'innovation européens. Dans le cadre de ce nouveau programme,horizon2020 la Commission européenne généralise l'accès libre aux publications de recherche et introduit l'accès libre aux données de recherche.
Les bénéficiaires doivent rendre accessibles et réutilisables gratuitement en ligne au plus grand nombre d’utilisateurs les données de recherche électroniques générées dans des projets financés dans le cadre du programme Horizon 2020.
Il s'agit donc de fournir un accès en ligne, large et gratuit, à toutes informations scientifiques réutilisables pour tous les utilisateurs.
- droit des utilisateurs : a minima droit de lecture, téléchargement et impression;
- droits additionnels potentiels : droit de copier, distribuer, rechercher, renvoyer vers des liens, indexer (non exhaustif).
La politique Suisse, le FNS
La recherche soutenue par des fonds publics devrait être autant que possible accessible au public, et ce, en toute gratuité. Le Le Fonds national suisse (FNS) s'est engagé à atteindre ce but. "Open Science" est le concept global pour toutes les activités qui œuvrent à l'ouverture de la science et qui recouvrent un changement de paradigme: par exemple Open Access to publications (libre accès aux publications scientifiques), Open Data (libre accès aux données de recherche) et le passage à une promotion de la recherche conforme aux principes de la déclaration Dora.
"Le FNS introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.» (Open Research Data: directives du FNS pour les plans de gestion des données (11/05/2017)
http://www.snf.ch/fr/pointrecherche/dossiers/open-science/Pages/default.aspx
L'Open Access
L'Open Accès garantit l’accès et l’usage des données (http://fr.slideshare.net/Furer/lopen-access-dans-les-carrires-acadmiques-cinquante-nuances-dopen-par-bruno-j-strasser-paul-n-edwards). "Open access (OA) literature is digital, online, free of charge, and free of most copyright and licensing restrictions.» Peter Suber, 2012, Open Access, MIT Press
Concrètement, l'open access (ou aussi "libre accès" ou "accès ouvert") a pour but de diffuser gratuitement les articles scientifiques et la recherche dans un format numérique, gratuit tout en respectant les droits d'auteurs.
Cela est permis par plusieurs phénomènes structurants au niveau des sciences qui ont fait fortement augmenté les données disponibles : - l'émergence d'outils d'évaluation de la science et des chercheurs - une concentration des publications chez certains éditeurs - l'utilisation massive d'Internet
Ainsi les chercheurs et les bibliothèques ont encouragé la créations d'archives ouvertes de dépôt des savoir ainsi que l'émergence de revue électroniques librement accessibles sans abonnement.
Pour aller plus loin, il est également possible de consulter : Open Content sur Edutechwiki
Outils du travail collaboratif
Des outils de travail collaboratif existent d'ores et déjà en ligne et peuvent être utilisés pour l'ORD.
En voici une liste non exhaustive :
- Github
- Slack
- Trello
- Open project
Commentaires : si nous maintenons cette partie, il faudra ajouter une taxonomie d'outils
Ressources
https://fr.slideshare.net/OpenAIRE_eu/09052018-webinar-h2020data-1
https://www.fosteropenscience.eu/content/what-open-science-introduction
http://openscience.org/what-exactly-is-open-science/
http://wdc.kugi.kyoto-u.ac.jp/wdc/whatis.html
https://hub.wiley.com/community/exchanges/discover/blog/2017/01/16/test-cartoon
https://en.wikipedia.org/wiki/Open_science#History
https://openaccess.couperin.org/
https://www.biblio.univ-evry.fr/expos/oaweek2014/
https://www.cesnet.cz/wp-content/uploads/2013/01/digital-data-long-term-preservation.pdf