Data Repositories
Définition Générale
Un data repository (dépôt de données, répertoire de données ou référentiel de base de données) est un terme général faisant référence à un espace utilisé pour stocker des données de façon centralisée. Les données en question sont censées être partagées au sein d’une communauté définie.
Par convention, on distingue les data repositories, comme Zenodo, des data software (dépôts de logiciels), comme GitHub.
Les data repositories regroupent en premier lieu des données de recherche, à l’état brut ou traitées à différents niveaux. Le but de ce partage est, selon son contexte, de favoriser l’accès, la réutilisation et/ou le référencement des données.
D'un point de vue technique, un data repository est un serveur de stockage accessible en ligne, comme beaucoup d'autres. Sa spécificité provient du type de données qui y sont regroupées (des données de recherche, donc). Évidemment, les plus grands data repositories sont créés et gérés par les acteurs de la communauté scientifique.
Pour plus de lisibilité, nous utiliserons le terme "data repository", puisque c'est en anglais que nous trouvons plus facilement des informations sur le sujet.
Au niveau du référentiel de base de données, on peut en distinguer deux types, tout d'abord nous avons les données dont les logiciels du système d'information ont besoin pour fonctionner se sont les données de référence ou métadonnées, comme les données principales du client, la nomenclature de produits, les services, les annuaires de l'organisation, des personnes, des équipements. En outre, elles sont décrites dans un dictionnaire de données qui est commun de l'organisation, visant à préciser leurs définitions (sens) et leurs propriétés. Enfin, elles sont stockées physiquement dans une base de données où les applications peuvent retrouver l'information à chaque fois qu'elles en ont besoin. Puis nous avons les informations plus techniques qui sont utilisées pour faire évoluer une application, comme l'administration des bases de données, qui vont être des indications sur le format de la donnée, les conditions de mise à jour, ainsi que les personnes ou entité habilitée à la mettre à jour.
A quoi sert le référentiel de données
Selon les "Wikis", le référentiel est le tronc «d'un système d'information, car les règles auxquelles obéissent sa construction et sa gestion sont logiques et donc bien pensées.» (Wikipédia, 2019).
Pour les projets de référentiel des besoins c'est «la base dans laquelle figurent toutes les exigences rassemblées pour un système» (Wikipédia, 2019). Celui-ci est l'endroit principale «des exigences qui ne peuvent ainsi se trouver nulle part ailleurs» (Wikipédia, 2019). Il faut pour cela que les documents nécessaires à la gestion de projet se réfèrent aux exigences collectées du client.
Ce référentiel s'oppose au fait de "recopier" les besoins d'un endroit à l'autre, d'un document à l'autre, le plus souvent en ne modifiant quelque peu les termes.
On donne un autre nom au référentiel, c'est celui de métadonnée, «concernant en général les systèmes de documentation» (Wikipédia, 2019) qui, pour fonctionner, doivent avoir «des données de référence cohérentes» (Wikipédia, 2019). Ces métadonnées ont comme principe de rajouter des données dans le document qui permettent de décrire celui-ci en fonction de sa nature, de son contenu ou de son historique.
Historique
On peut relever certaines dates fondamentales liées à l‘histoire des data repositories:
En 1957–1958, l’accès gratuit à des données scientifiques a été établi pour la première fois lors de la formation du “World Data Center” (maintenant connu sous le nom “World Data System”), en préparation pour l'International Geophysical Year.
En 1966, l'Educational Resources Information Center(ERIC) a lancé la première initiative consistant à créer une base de données électronique de bibliographie en Open access.
En 2004, Les ministres des sciences des différents pays faisant parti de l’OECD (Organisation for Economic Co-operation and Development) ont signé une déclaration qui déclare que toutes les données d’archive ayant été publiquement financées devraient être accessibles publiquement.
Enfin, en mai 2013, re3data, fondé par Karlsruhe Institute of Technology, GFZ German Research Centre for Geosciences, Berlin School of Library and Information Science a eu son ouverture officielle.
Par ailleurs, étant donné que les data repositories, sont des serveurs à la base, il est possible pour tout un chacun de créer lui-même son data repository. Ainsi, il est difficile d’estimer leur nombre et la date de création du premier data repository.
Carte heuristique
Voici une carte heuristique qui met en évidence les points abordés dans cette page.
Caractéristiques et Types
Types
Il y a deux principaux types de dépôts:
- Les data repositories (voir exemples au point 5.2)
- Les data software (GitHub, par exemple)
Il s'agit essentiellement d'un type de données différent, qui peut induire des spécificités dans leur usage. Par exemple, il est possible de déployer directement une application web sur GitHub, mais pas dans Re3data. En dehors de cela, on classifiera avant tout les repositories sur la façon d'organiser leurs données.
Classification des données
Selon leurs caractéristiques, ou les usages qui en sont faits, il est possible de différencier un repository contenant des données de recherches au sein d’une institution à des fins de référencement et de stockage. On peut aussi trouver des repositories stockant des données de recherche accessibles à tous, à des fins de diffusion.
Le site web https://www.re3data.org/, moteur spécialisé en recherches dans les repositories, classifie les données selon les critères suivants :
- Informations générales : présence d’informations supplémentaires sur les données
- Services/accessibilité : quel degré d’accessibilité autorise le dépôt ? (Consultation, téléchargement, dépôt libre, etc.)
- Licences : licences de réutilisation des données (cf. Licences d'exploitation)
- Standards de métadonnées : adhésion à une norme de métadonnées, utilisation d'un identifiant persistant (DOI, ISBN,...)
- Standards techniques : format des données, types de fichiers autorisés
- Conditions d’utilisation : aspects légaux
- Standards de qualité : revue par des tiers, vérification des données
L’enjeu principal pour un repository, du fait de la quantité de données qui s'y trouvent, est de faciliter au maximum la recherche d’informations, via des critères de recherches permettant la navigation parmi des métadonnées. De nombreux standards de métadonnées existent sur le web, certains étant spécifiques à des disciplines particulières.
Finalités
On peut globalement distinguer les utilités suivantes aux data repositories :
- Objectif éducatif : le repository peut servir de base de connaissances accessible aux étudiants ou utilisable comme répertoire de ressources commun par des enseignants
- Objectif de recherche : l'accessibilité de données et de résultats de recherches favorisent la circulation des connaissances et donc la tenue de nouvelles recherches
- Objectif de classification/entreposage : le stockage centralisé de données, selon un standard de classification est une forme d'archivage efficace
Les data repositories se caractérisent donc essentiellement par les types de données qu’ils hébergent, le degré d’accès qu’ils y accordent, et les licences sous lesquelles ces données peuvent éventuellement être réutilisées.
Exemples de Repositories
Voici ci-dessous une sélection de repositories parmi les plus connus:
Re3data.org
re3data est un registre global de data repositories. On y trouve des data repositories pour différentes disciplines académiques. Ce registre à été développé dans le but de contrer l'apparition hétérogène des data repositories et de les indexer de façon structurée.
Annuaire
OpenDOAR est un annuaire mondialement reconnu de data repositories en accès libre.
Autres data repositories connus
- Dryad est un data repository développé par une institution à but non-lucratif
- Eudat est un projet d'infrastructure européenne regroupant les données de plusieurs institutions scientifiques
- Figshare est une entreprise offrant ses services aux chercheurs et aux éditeurs
- Harvard Dataverse est un réseau de repositories
- Zenodo est un serveur développé et hébergé au CERN
- Yareta est le data repository de l'Université de Genève
- OER data repository pour des ressources destinées aux sciences de l'éducation
- Voir également la page Dépôts de données en technologies éducatives, dans EdutechWiki.
- Cambridge Open Engage data repository pour des ressources de différentes disciplines
- Elsevier est un moteur de recherche des données de recherche
- Dataverse est une plateforme de dépôt de données ouverte de recherches
- EUDAT est une banque de données (CDI-Collaborative Data infrastructure)
- Figshare est une banque de données générale
- Mendeley Data est un dépôt de données
- Repository Finder re3data est un service de DataCite et représente un registre global de data repositories
- Zenodo est un entrepôt de données de type général
Utiliser les open data repositories
Qui et comment ?
Pour déposer des données de recherches sur un data repository, il faut posséder un compte sur la plateforme que l'on veut utiliser. En revanche, pour consulter les données, il n'est pas nécessaire d'être connecté. Ainsi, l'accès aux données est facile pour le public intéressé, mais pour publier des recherches, il faut souscrire à une démarche d'identification, afin d'éviter que n'importe qui puisse déposer ce qu'il veut sur le data repository. Cela permet un meilleur contrôle de ce que l'on peut trouver sur ces plateformes.
Exemple d'utilisation
Un data repository va permettre de publier des articles de recherches, l’objectif étant de permettre une meilleure diffusion et un accès libre auxdits articles, dans une optique d’Open Research Data (ORD), c'est à dire une mise en ligne de données brutes de recherche.
Un data repository permet aussi de pré-publier un article qui est en attente de publication dans une revue spécialisée ou un livre. Ainsi, la recherche est disponible en accès anticipé et permet le référencement dans d’autres recherches sans attendre sa distribution par les maisons d’éditions.
Il est tout autant possible d’y déposer que d’y chercher des travaux, grâce aux métadonnées de ceux-ci, et ainsi de trouver des références pour de nouveaux travaux, comme on le ferait sur un moteur de recherche plus classique, mais moins spécifique, et donc moins efficace.
En résumé, un data repository peut constituer une plateforme de partage de données de recherche et d’articles scientifiques en libre d’accès, pour autant que l’on respecte les règles élémentaires de référencement (voir la page Licences d'exploitation). Les données de recherches déposées/consultables peuvent être brutes ou déjà travaillées.
La plupart des data repositories permettent l’obtention d’un DOI (Digital Object Identifier) qui est un identifiant invariable qui permet de référencer votre travail. Ces DOI sont également utilisés dans des bases de données bibliographiques, qui répertorient toutes les catégories de documents de recherche. Il s'agit d'un standard de métadonnées très répandu.
Aujourd'hui, de plus en plus d'institutions et de périodiques scientifiques adoptent une approche de type "open research", soutenue par des repositories. Cette approche accorde des avantages en termes de visibilité et de flexibilité dans la publication de travaux et de données.
Mise en garde sur la fiabilité du repository
Une mise en garde sur la fiabilité de certain data repository peut venir d'entreprises qui concentrent les différentes types d'informations en un seul endroit. Cela peut être utile d'avoir en un seul emplacement des quantités astronomiques de donnée, mais cela peut ralentir la gestion du système, si l'on ne prend pas garde à faire évoluer le système de gestion avec l'augmentation des données. Mais aussi certaines personnes peuvent accéder à des données sensibles du fait qu'il y a un seul emplacement de stockage.
Pour conclure, certaines entreprises font l'impasse sur une sauvegarde à distance, ce qui peut constituer un problème sur la garantie des informations en cas de panne du système. De plus, certaines d'entre elle n'isolent pas les applications d'accès pour limiter les problèmes liés au système.
Références
Dépôt (informatique). (2017, octobre 1). Wikipédia, l'encyclopédie libre. Page consultée le 22:23, octobre 1, 2017 à partir de http://fr.wikipedia.org/w/index.php?title=D%C3%A9p%C3%B4t_(informatique)&oldid=141138173.
Learning objects repositories. (2011, October 19). EduTech Wiki, A resource kit for educational technology teaching, practice and research. Retrieved 14:12, November 2, 2017 from http://edutechwiki.unige.ch/mediawiki/index.php?title=Learning_objects_repositories&oldid=35629.
Learning object repository. (2013, October 24). EduTech Wiki, A resource kit for educational technology teaching, practice and research. Retrieved 14:04, November 2, 2017 from http://edutechwiki.unige.ch/mediawiki/index.php?title=Learning_object_repository&oldid=48878.
http://guides.ucf.edu/metadata/dataRepositories
Pampel H, Vierkant P, Scholze F, Bertelmann R, Kindling M, Klump J, Goebelbecker H, Gundlach J, Schirmbacher P, Dierolf U. (2013) Making research data repositories visible: the re3data.org registry. PeerJ PrePrints 1:e21v1 https://doi.org/10.7287/peerj.preprints.21v1
Référentiel (s.d) in Wikipédia, consulté le 14.02.2019 à https://fr.wikipedia.org/wiki/Référentiel_(base_de_données)
World Data System (s.d) in Wikipédia, consulté le 27.01.2019 à https://en.wikipedia.org/wiki/International_Geophysical_Year
ERIC (s.d) in Wikipédia, consulté le 27.01.2019 à https://en.wikipedia.org/wiki/Education_Resources_Information_Center
OECD (s.d) in Wikipédia, consulté le 27.01.2019 à http://www.oecd.org
re3data (s.d) in Wikipédia, consulté le 27.01.2019 à https://www.re3data.org/about
what data repository (s,d) in digital guardian, consulté le 27.01.2019 à https://digitalguardian.com/blog/what-data-repository
Liens EduTechWiki
- La page Dépôts de données en technologies éducatives, recense des dépôts de données pour effectuer de nouvelles recherches dans le domaine des technologies éducatives.