Gestion des données de recherche

De EduTech Wiki
Aller à la navigation Aller à la recherche
Manuel de recherche en technologie éducative
Module: Questions pratiques et outils de référence
◀▬▬▶
brouillon débutant
2019/01/13 ⚒⚒ 2015/03/27

Introduction générale

De plus en plus de disciplines, revues et agences de recherche exigent la mise à disposition des données de recherche. Cela implique qu'il faut gérer à la fois l'archivage, la documentation et la mise à disposition.

Par exemple, «Le Fonds national suisse (FNS) soutient le principe du libre accès aux données de la recherche (Open Research Data ou ORD). Il introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.» (Open Research Data: directives du FNS pour les plans de gestion des données (11/05/2017)

Selon Wikipedia, «Un plan de gestion des données, Data management plan ou PGD est un document évolutif qui aide le(s) chercheur(s) ou le chargé de projet de la recherche à définir un plan pour gérer les données utilisées et générées dans le cadre de son activité ou de son projet de recherche. Initié au début du projet, ce plan est mis à jour de manière périodique pour s'assurer de son adéquation avec le déroulement de l'activité ou du projet.»

Définition et cycle de vie des données de recherche

Cette section a été réalisée par les participants au Module 1 du projet RESET-Francophone et particulièrement par Kaoutar Elhadi et Hanae El Maamri.

Le texte ci-dessous est un résumé produit à partir des trois ressources suivantes :

Définitions

Pour traiter la question de l’ouverture des données de la recherche, Rosemberg (2015) rapporte des définitions de différents organismes:

  • Selon l’Organisation de Coopération et de Développement Economiques (OCDE), les données de la recherche sont associées à la validité et aux résultats de la recherche. Elles constituent des sources pour la recherche scientifique pour en valider les résultats.
  • D’après l’Organisme Australien National Data Service (OANDS), les données de la recherche sont des observations ou des expériences sur lesquelles se base la théorie, l’argumentation ou le test. Elles comprennent toutes les données créées par le chercheur dans le cadre de son travail à savoir les carnets de laboratoire, carnets de recherche, projets, rapports, questionnaires, etc.
  • Contrairement à l’OANDS, l’Association des directeurs et des personnels de direction des bibliothèques universitaires (ADBU) n’inclue pas ces données dans l’ensemble « données de la recherche ». Elle les considère comme inutiles à la validation des résultats de la recherche.
  • Selon l’article What is research data ? publié sur le site officiel de l’Université de Leicester, la définition des données de recherche représente un défi. En effet elle varie selon la discipline. Ainsi à partir de plusieurs définitions, celle de l’Université d'Edimbourg, qui affirme que les données de recherche, contrairement aux autres types d’informations, sont « collectées, observées ou créées à des fins d'analyse et dans le but de produire des résultats de recherche originaux », est retenue. D’après le Conseil de recherche en génie et sciences physiques (EPSRC), les données de recherche représentent « des éléments factuels enregistrés, généralement retenus et acceptés par la communauté scientifique comme nécessaires pour valider les résultats de la recherche ».

Cycle de vie

Le site de l’Université de Lausanne, dans un article intitulé Cycle de vie des données de recherche, présente le modèle de référence du cycle de vie des données de recherche, Research Data Lifecycle, élaboré par UK Data Archive. Ledit modèle expose six principales étapes incluant des actions pour une rotation du cycle continue des données, dans le but d’en garantir une gestion appropriée.

Le cycle de vie des données de recherche est constitué de 6 étapes : création ou collecte, traitement, analyse, publication, archivage, réutilisation comme illustré dans la Figure de l'IUMSP. Il est important de comprendre chacune de ces étapes afin de mettre en place une gestion adéquate tout au long du cycle.

Il est également important de bien comprendre, conceptuellement, les termes associés à ces étapes:

  • Durant l’étape de création des données, il s’agit de les recueillir selon les protocoles de recherche et la méthodologie décidés en amont ;
  • Durant l’étape de traitement des données, le chercheur rend ces données analysables en respectant les lois et les considérations éthiques en vigueur (par ex : anonymisation) ;
  • Durant l’étape d’analyse des données, le chercheur analyse, selon les méthodes arrêtées en amont dans le design de recherche et avec les logiciels spécialisés nécessaires pour analyser les données ;
  • Durant l’étape de publication des données, le chercheur sélectionne une partie de ses données, par exemple celles qui permettront à d’autres chercheurs de reproduire le design de recherche, pour les mettre à disposition de la communauté en respectant les contraintes éthiques nécessaires ;
  • Durant l’étape d’archivage des données, celles-ci sont rendues disponible pendant une durée déterminée ;
  • Enfin durant l’étape de réutilisation des données, les données sont non seulement accessibles (elles sont stockées de manière appropriées) mais elles sont également lisibles (tout chercheur peut les utiliser pendant la durée de leur archivage pour conduire une recherche avec).

Il s’agit donc de distinguer entre données actives de recherche et préservation d’une partie de ces données. Les données actives de recherche sont les données en cours d’utilisation par le chercheur alors que les données archivées et préservées sont des données qui ont déjà été analysées et qui sont là pour consultation et/ou utilisation dans le cadre d’une autre recherche. Notons également, tout en relativisant ce chiffre, que l’échelle de temps par rapport à la préservation des données est généralement la suivante : le long terme, dans ce domaine, signifie une durée de 10 ans.

Pour optimiser la gestion du cycle de vie des données, il s’agit, en amont, de considérer les deux phases – la phase active et la phase d’archivage / préservation. En procédant de la sorte, en choisissant d’emblée des formats répondant aux besoins et compatibles avec les deux phases, en réfléchissant au processus de sélection des données qui devront être préservées en amont, la gestion dans son entièreté s’en trouve facilitée. Afin de se poser les bonnes questions, le Data Management Plan (DMP) du FNS est un excellent outil.

Ethique de la recherche, responsabilité du chercheur

Le respect de la vie privée, la propriété intellectuelle, la qualité et l’intégrité des données sont des dimensions éthiques de la gestion des données. Etre informé de l’évolution des règles juridiques est par conséquent très important pour un partage responsable des données utilisées.

« La valeur et les bénéfices de la recherche pour la société sont totalement dépendants de l’intégrité en recherche. Quelle que soit la manière dont la recherche est menée et organisée selon les disciplines et les pays, il existe des principes communs et des obligations professionnelles similaires qui constituent le fondement de l’intégrité en recherche où qu’elle soit menée. » (Déclaration de Singapour sur l'intégrité en recherche (2010), cité par l'UNIL)

Avant le recueil des données, quelles sont les exigences du pays et/ou d’une institution donnée vis-à-vis du recueil de données ?

Le Maroc

La Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP) a été créée par la loi n°09-08 du 18 février 2009 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel. Elle est chargée de vérifier que les traitements des données personnelles soient licites, légaux et qu’ils ne portent pas atteinte à la vie privée, aux libertés et droits fondamentaux de l’homme. La Commission est formée de personnalités notoirement connues pour leur impartialité, leur probité morale et leur compétence dans les domaines juridique, judiciaire et informatique.

La Suisse

Les points saillants éthiques et déontologiques à respecter sont les suivants:

  • Le consentement libre et éclairé des participants : le chercheur informe et fait signer un formulaire de consentement ad-hoc ;
  • Le respect de la dignité du sujet : le chercheur s'engage en établissant un plan de gestion des données et la signature d'une charte du Respect des codes de déontologie et d'éthique ;
  • Le respect de la vie privée et la confidentialité : le chercheur s'engage par la signature d'une charte du Respect de la confidentialité des données de recherche.
  • L'information aux instances de l'institution engagée dans la Recherche via la soumission du projet de recherche à la commission facultaire d'éthique concernée.
  • L'anticipation des risques pour les données et du mode de conservation des données de manière la plus sécurisée possible.

Les institutions de recherche spécialisées comprenant les Sciences Humaine et Sociales et les Sciences de l'Education sont :

  • Swissethics : un ensemble de commissions d’éthique suisses relatives à la recherche sur l'être humain, pour tout ce qui a trait aux recherches en santé.
  • Le fonds national suisse (FNS) : il propose des références de gestion pour tous les chercheurs en Suisse et à l'étranger.
  • Un projet national : le Swiss DLCM project basé sur le concept du "Data Life-Cycle Management" (DLCM) et qui fournit le support et l'encadrement nécessaire aux recherches en Suisse.
  • Swissuniversities : une organisation qui travaille sur des "questions ayant trait à la recherche, au développement et à la relève en vue de créer et de maintenir des conditions-cadres optimales pour les hautes écoles".

Exemples d’implémentation dans quelques institutions du paysage universitaire suisse :

  • Université de Genève : première haute école suisse à se doter d'une nouvelle politique de gestion des données de la recherche (basée sur le Swiss DLCM) avec les aspects éthiques définis par son service recherche.
  • Université de Lausanne en ce qui concerne les aspects éthiques, déontologiques et d'intégrité scientifique et plus particulièrement l'éthique et la recherche
  • Ecole Polytechnique Fédérale Lausanne : Déontologie et éthique dans la recherche
  • Haute Ecole Spécialisée-Suisse Occidentale : la charte (2010) codifie les codes de conduite en recherche. D'autres HES, comme la HES-GE, partagent le même code éthique de l'Université du même canton, ici celui de l'Unige.
  • Haute Ecole Pédagogique : les HEP disposent d'un cadre défini par la Conférence Inter Cantonale de l'Instruction Publique de la Suisse romande et du Tessin, le code d'éthique de la recherche pour les HEP (2002) mais de nombreuses recherches sont réalisées en partenariat avec des universités, reposant dans ce cas sur les codes éthiques de ces dernières.

Quel type de consentement demander? Attention au type d'utilisation!

Les chercheurs sont responsables de la collecte, du traitement, de l’analyse et du stockage de données. Avant le recueil des données, ils sont obligés de demander l’autorisation des participants à l’égard de l’exploitation et de l’utilisation de ces données. Cette autorisation peut être exprimée sous forme écrite, verbale ou implicite mais selon les comités d’éthique de l’Université de Montréal, elle doit respecter les trois critères essentiels pour assurer un consentement libre, éclairé et continu. En effet, les participants doivent avoir la liberté de décision de participer à la recherche. Les éléments du consentement doivent être rédigés dans un langage approprié, dans la langue des participants ou de leur représentant légal et tous les termes techniques doivent être bien expliqués pour que les lecteurs comprennent clairement les objectifs de la recherche. Le dernier critère - la continuité - permet d’assurer un consentement libre et éclairé des participants tout au long de la recherche : ceux-ci doivent être informés de tout changement susceptible d’influencer leur décision de participer à la recherche. Si une recherche concerne en même temps les participants adultes et mineurs, il faudrait prévoir un formulaire pour chaque groupe et demander la signature du représentant légal dans le cas des mineurs. Il serait recommandé de consulter la loi des pays concernés dans l’étude pour adopter des mesures appropriées. Pour s’assurer la possibilité de partager ses données sur un repository Findable, Accessible, Interoperable, and Reusable (FAIR), le formulaire de consentement devrait inclure des clauses liées à l’utilisation légale et à la préservation de données. Une mention explicite telles que « J’autorise le dépôt de mes données anonymisées dans un repository à des fins de diffusion et de partage » permettra de couvrir la préservation de données.

Gestion des données actives de la recherche

Le DMP : un outil similaire au phare

Le plan de gestion des données (Data Management Plan) est un document écrit décrivant les données qu’on prévoit d’acquérir ou de générer au cours d’un projet de recherche et décrit précisément comment on va gérer les données, les décrire, les analyser et les stocker. Il permet d'expliquer comment seront gérées les données depuis leur création jusqu'à leur archivage et leur partage. Il contient également des informations administratives, relatives aux aspects éthiques et aux coûts du stockage des données. Tel un phare, « La vocation d’un DMP n’est pas de contraindre la pratique par l’exigence de nouveaux éléments mais plutôt de formaliser au sein d’un document unique, prospectif, descriptif et évolutif, un ensemble d’éléments et d’informations, auparavant dispersés entre divers acteurs et divers documents, éléments utiles au suivi du projet et à la bonne gestion des résultats obtenus. » Janik, 2017. Seront notamment précisés dans le DMP, les éléments suivants :

  • Le type de données produites : sources, formats, producteurs, volumétrie
  • Métadonnées: standards de description et de documentation des données produites
  • Stockage des données actives, protection et sécurité des données: modes de stockage, d'accès et de partage au cours du projet, gestion de risques et confidentialité
  • Partage et réutilisation des données : impact, partage et dissémination des données pour et par les acteurs de la recherche et de la société
  • Préservation des données : stratégie et garantie de conservation et d'accès à long terme à une partie des données produites

Quelques bonnes pratiques pour stocker les données actives d’une recherche, avec ou sans infrastructure institutionnelle

Si votre institution prévoit un système de stockage des données actives, utilisez-là! Exemple à l'Université de Genève.

Si votre institution ne prévoit rien et que vous êtes contraint d’utiliser votre ordinateur personnel, prévoyez au minimum un dispositif de sécurité local. Par exemple prévoyez une sauvegarde sur un disque dur externe. Les données privées (e.g. formulaires de consentement, tables de correspondance) stockez-les directement sur un disque dur externe disposé dans un lieu sécurisé. Vous pouvez ajouter un mot de passe pour d'avantage de sécurité. Notez que la bonne pratique, en termes de gestion des données actives de recherche, voudrait qu’on ait toujours 3 copies : une copie de travail, une copie de sauvegarde sur un autre média (e.g. clé USB) et une copie sur un autre média dans un autre lieu (e.g. disque dur externe qu’on garde à la maison).

Quelques bonnes pratiques pour organiser et nommer ses fichiers

Il s’agit d’adopter une structure logique et ergonomique ainsi qu’une politique très stricte de nommage des fichiers pour organiser et stocker ses données, et ce afin que le chercheur puisse s’y retrouver facilement, ne pas écraser de données ou travailler avec des versions inadaptées. Exemple : avec une donnée de type « entretien », vous aurez au minimum 4 versions de cette donnée : i) l’entretien audio, ii) l’entretien transcrit tel quel, iii) l’entretien relu et corrigé par le participant ; iv) l’entretien anonymisé et prêt à être analysé. Afin de ne pas vous mélanger les pinceaux, l’arborescence serait pour ce cas précis 4 dossiers : i) données brutes audio ; ii) données transcrites ; iii) données vérifiées par les participants ; iv) données anonymisées. Quant à la documentation associée il s’agit par exemple de mettre un fichier « ReadMe » dans chaque dossier pour expliquer le type de données qui s’y trouve. Enfin pour le nommage des fichiers, vous pouvez indiquer au minimum la version du fichier et la date (01_EntretienA_18-12-2018). Si plusieurs chercheurs sont concernés, ajouter le nom de l’auteur ayant généré cette donnée peut s’avérer utile.

Comment estimer le volume de ses données de recherche ?

Le volume va dépendre du type de données. Nous prenons ici l'exemple d'un projet de recherche qualitative qui n’utiliserait que peu le format vidéo et pour lequel 1 To suffirait pour stocker toutes les données du projet. En effet:

  • Les données de type texte sont stockées au format PDF/A (pdf d’archivage qui pose le défi de ne pas forcément bien conserver les images mais conserve la mise en page). Un entretien de 1h10 donne une transcription de 9 pages (Times 10, interligne 1.5) et un fichier de 232 Ko. Pour donner un ordre d’idées, sur un NAS d’un Téraoctet (To) on pourrait stocker 4 628 197 transcriptions d’entretiens (texte sans image) de 1h10.
  • Les données de type audio sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp3 « pèse » 65.0 Mo. Toujours pour donner un ordre d’idées, on pourrait stocker 16 131 fichiers audio de ce type sur 1 To.
  • Les données de type vidéo sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp4 pèse 4,5 GB. Toujours pour donner un ordre d’idées, on pourrait stocker 228 fichiers vidéo de ce type sur 1 To.

Préservation des données de recherche

Pourquoi préserver les données ?

  • répondre aux critères FAIR (Findable, Accessible, Interoperable, Re-usable)
  • répondre aux critères Open Research Data
  • répondre à un soucis de transparence, par exemple, pouvoir reproduire un design de recherche, prouver un résultat de recherche
  • répondre à un soucis économique de ne pas recueillir plusieurs fois les mêmes données.

Pourquoi rendre son jeu de données public ?

Il y a principalement deux raisons à cela :

  • la possibilité de consulter les données pour un relecteur et tout lecteur d’un article scientifique
  • la possibilité de partager ces données dans le cadre de l’approche Open Data Research

Notez, que comme il y a des publications pour décrire un instrument de recueil de données, il y a désormais des publications pour décrire des jeux de données. Un data paper a pour mission de décrire, de manière précise, un jeu de données, voir cette page du CNRS pour plus d'explication.

De quoi faut-il tenir compte avant de rendre son jeu de données public?

Le partage des données est conditionnée par plusieurs facteurs, notamment:

  • Les règles juridiques/éthiques définies par l’institution qui finance la recherche
  • Les règles juridiques/éthiques établies par l’endroit où se déroule la recherche
  • Les réserves exprimées par les participants à la recherche
  • La nature des données de la recherche, elles-mêmes. Sont-elles communicables et diffusables
  • Le type et la licence de partage : par exemple, l’Open data, accès payant, etc.
  • La durée du partage
  • Le stockage et l’archivage des données : où, clés d’accès, coût, etc.

Quelles données préserver et comment trouver un repository ?

La question qui doit guider la sélection des fichiers à préserver est la suivante : de quelles données et métadonnées un autre chercheur aurait besoin pour reproduire les résultats de l’étude et comment les présenter dans une structure ergonomique pour un utilisateur externe? Les maîtres mots sont sélection, données pertinentes et structure (données, métadonnées et format).

Pour l’instant, l’UNIGE n’offre pas encore de service d’archivage et de préservation mais le fera courant 2019. De manière similaire à l’archive ouverte de l’UNIGE, ce lieu de stockage permettra de stocker des jeux de données en leur attribuant un DOI. Il est également toujours possible de faire appel à un hébergeur externe.

Pour trouver un repository FAIR, vous pouvez consulter cette page. Si votre institution ne propose rien mais que les lois de votre pays vous autorisent à archiver vos données sur un repository FAIR à l’international, vous pouvez utiliser le repository du CERN (zenodo) qui est gratuit. Notez que les données qui ne peuvent pas être stockées à l’extérieur d’une juridiction sont en général non-diffusées.

Quelles licences utiliser ? Qui décide de l’ouverture des données ? Comment procéder en cas de recherche internationale ?

La licence (e.g. licences creative commons) apposée à un jeu de données indiquera aux chercheurs comment ils peuvent le réutiliser (i.e. sans le modifier, en le modifiant mais en laissant le nom d’origine, etc.). Pour ce qui est du choix, le bailleur de fonds peut avoir son mot à dire, l’institution aussi. En cas de recherche internationale, il est important de se mettre d’accord en amont du projet.

Quelques lois relatives à la protection des données personnelles

Algérie :

Europe :

Maroc :

  • Constitution, article 24, ainsi que d’autres textes accessibles depuis le site de la Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP): https://www.cndp.ma/fr/espace-juridique/textes-et-lois.html
  • Dahir n° 1-09-15 du 22 safar 1430 (18 février 2009) portant promulgation de la loi n° 09-08 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel.
  • Décret 2-09-165 du 21 mai 2009 pris pour l'application de la loi n° 09-08 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel.

Suisse :

Tunisie :

  • Loi organique n° 2004-63 du 27 juillet 2004, portant sur la protection des données à caractère personnel : http://www.cnudst.rnrt.tn/jortsrc/2004/2004f/jo0612004.pdf
  • Projet de loi organique relatif à la protection des données à caractère personnel (fortement inspiré de la RGPD): http://www.inpdp.nat.tn/Projet_PDP_bilingue.pdf
  • Loi organique n° 2017-42 du 30/05/2017 portant approbation de l'adhésion de la République Tunisienne à la convention n° 108 du conseil de l'Europe pour la protection des personnes à l'égard du traitement automatise des données à caractère personnel et de son protocole additionnel n° 181 concernant les autorités de contrôle et les flux transfrontières de données.
  • Article 24 de la constitution de 2014 "L’État protège la vie privée, l’inviolabilité du domicile et le secret des correspondances, des communications et des données personnelles".


Ressources