« Gestion des données de recherche » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
 
(42 versions intermédiaires par 3 utilisateurs non affichées)
Ligne 11 : Ligne 11 :
== Introduction générale ==
== Introduction générale ==


De plus en plus de disciplines, revues et agences de recherchent exigent la mise à disposition des données de recherche. Cela implique qu'il faut gérer à la fois l'archivage, la documentation et la mise à disposition.
De plus en plus de disciplines, revues et agences de recherche exigent la mise à disposition des données de recherche. Cela implique qu'il faut gérer à la fois l'archivage, la documentation et la mise à disposition. Cela correspond, en partie, à un changement de paradigme qui est apparu sous l’impulsion de [https://doranum.fr/wp-content/uploads/quesaco_dds_script.pdf Jin Gray] « la science dirigée par les données », appelé aussi 4éme paradigme de la science. Etant donné la masse et à la quantité de données à traiter, il est nécessaire que la communauté scientifique, principale utilisatrice de ces données, puisse les définir clairement et fixer les conditions d'une utilisation responsable. 


Par exemple, {{citation|Le Fonds national suisse (FNS) soutient le principe du libre accès aux données de la recherche (Open Research Data ou ORD). Il introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.}} ([http://www.snf.ch/fr/pointrecherche/newsroom/Pages/news-170511-open-research-data-directives-pour-les-plans-de-gestion-des-donnees.aspx Open Research Data: directives du FNS pour les plans de gestion des données] (11/05/2017)
Par exemple, {{citation|Le Fonds national suisse (FNS) soutient le principe du libre accès aux données de la recherche (Open Research Data ou ORD). Il introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.}} ([http://www.snf.ch/fr/pointrecherche/newsroom/Pages/news-170511-open-research-data-directives-pour-les-plans-de-gestion-des-donnees.aspx Open Research Data: directives du FNS pour les plans de gestion des données] (11/05/2017)


Selon [[wp_fr:Plan_de_gestion_des_données|Wikipedia]], {{Citation|Un plan de gestion des données, Data management plan ou PGD est un document évolutif qui aide le(s) chercheur(s) ou le chargé de projet de la recherche à définir un plan pour gérer les données utilisées et générées dans le cadre de son activité ou de son projet de recherche. Initié au début du projet, ce plan est mis à jour de manière périodique pour s'assurer de son adéquation avec le déroulement de l'activité ou du projet.}}
Selon [[wp_fr:Plan_de_gestion_des_données|Wikipedia]], {{Citation|Un plan de gestion des données, Data management plan ou PGD est un document évolutif qui aide le(s) chercheur(s) ou le chargé de projet de la recherche à définir un plan pour gérer les données utilisées et générées dans le cadre de son activité ou de son projet de recherche. Initié au début du projet, ce plan est mis à jour de manière périodique pour s'assurer de son adéquation avec le déroulement de l'activité ou du projet.}}
Pour rédiger ce plan de gestion des données, un chercheur doit déjà s'informer du cycle de vie des données de recherche. Le plan de gestion de données comporte des questions techniques, relatives au stockage, au nommage des fichiers notamment et d'autres questions d'ordre éthique. Nous tentons sur cette page d'aborder ces différents sujets en prenant également en compte la dimension internationale d'un projet de recherche.


== Définition et cycle de vie des données de recherche ==
== Définition et cycle de vie des données de recherche ==
Cette section a été réalisée par les participants au Module 1 du projet [https://tecfa.unige.ch/tecfa/teaching/reset/ RESET-Francophone] et particulièrement par Kaoutar Elhadi et Hanae El Maamri.
Le texte ci-dessous est un résumé produit à partir des trois ressources suivantes :  
 
* Université de Lausanne (2016). [https://www.unil.ch/openscience/fr/home/menuinst/open-research-data/les-donnees-de-recherche/cycle-de-vie-et-types-de-donnees.html/ Cycle de vie des données de recherche].   
Le texte ci-dessous est un résumé produit à partir des trois ressources suivantes :
* Université de Lausanne (2016). [https://uniris.unil.ch/researchdata/sujet/comprendre-gestion-donnees-recherche/donnees-de-recherche-definitions/cycle-de-vie/ Cycle de vie des données de recherche].   
* University of Leicester (sans date). [https://www2.le.ac.uk/services/research-data/rdm/what-is-rdm/research-data What is research data].   
* University of Leicester (sans date). [https://www2.le.ac.uk/services/research-data/rdm/what-is-rdm/research-data What is research data].   
* Rosemberg, N. (2015). [https://donneesshs.hypotheses.org/39 De la définition des données de la recherche].  
* Rosemberg, N. (2015). [https://donneesshs.hypotheses.org/39 De la définition des données de la recherche].  
Ligne 35 : Ligne 35 :
Le site de l’Université de Lausanne, dans un article intitulé ''Cycle de vie des données de recherche'', présente le modèle de référence du cycle de vie des données de recherche, Research Data Lifecycle, élaboré par [https://data-archive.ac.uk/ UK Data Archive]. Ledit modèle expose six principales étapes incluant des actions pour une rotation du cycle continue des données, dans le but d’en garantir une gestion appropriée.
Le site de l’Université de Lausanne, dans un article intitulé ''Cycle de vie des données de recherche'', présente le modèle de référence du cycle de vie des données de recherche, Research Data Lifecycle, élaboré par [https://data-archive.ac.uk/ UK Data Archive]. Ledit modèle expose six principales étapes incluant des actions pour une rotation du cycle continue des données, dans le but d’en garantir une gestion appropriée.


Le cycle de vie des données de recherche est constitué de 6 étapes : création ou collecte, traitement, analyse, publication, archivage, réutilisation comme illustré dans la [https://www.iumsp.ch/sites/default/files/images/Capture_2.png Figure de l'IUMSP]. Il est important de comprendre chacune de ces étapes afin de mettre en place une gestion adéquate tout au long du cycle.
Le cycle de vie des données de recherche est constitué de 6 étapes : création ou collecte, traitement, analyse, publication, archivage, réutilisation comme illustré dans la [https://www.unil.ch/openscience/files/live/sites/openscience/files/Donnees_de_recherche/Images/Cycle_Vie_Donnees_V3.jpg Figure de l'Open Science de l'UNIL]. Il est important de comprendre chacune de ces étapes afin de mettre en place une gestion adéquate tout au long du cycle.


Il est également important de bien comprendre, conceptuellement, les termes associés à ces étapes:  
Il est également important de bien comprendre, conceptuellement, les termes associés à ces étapes:  
Ligne 47 : Ligne 47 :


Pour optimiser la gestion du cycle de vie des données, il s’agit, en amont, de considérer les deux phases – la phase active et la phase d’archivage / préservation. En procédant de la sorte, en choisissant d’emblée des formats répondant aux besoins et compatibles avec les deux phases, en réfléchissant au processus de sélection des données qui devront être préservées en amont, la gestion dans son entièreté s’en trouve facilitée. Afin de se poser les bonnes questions, le [http://www.snf.ch/SiteCollectionDocuments/DMP_content_mySNF-form_fr.pdf Data Management Plan] (DMP) du FNS est un excellent outil.
Pour optimiser la gestion du cycle de vie des données, il s’agit, en amont, de considérer les deux phases – la phase active et la phase d’archivage / préservation. En procédant de la sorte, en choisissant d’emblée des formats répondant aux besoins et compatibles avec les deux phases, en réfléchissant au processus de sélection des données qui devront être préservées en amont, la gestion dans son entièreté s’en trouve facilitée. Afin de se poser les bonnes questions, le [http://www.snf.ch/SiteCollectionDocuments/DMP_content_mySNF-form_fr.pdf Data Management Plan] (DMP) du FNS est un excellent outil.
== Ethique de la recherche, responsabilité du chercheur ==
Le respect de la vie privée, la propriété intellectuelle, la qualité et l’intégrité des données sont des dimensions éthiques de la gestion des données. Etre informé de l’évolution des règles juridiques est par conséquent très important pour un partage responsable des données utilisées.
« La valeur et les bénéfices de la recherche pour la société sont totalement dépendants de l’intégrité en recherche. Quelle que soit la manière dont la recherche est menée et organisée selon les disciplines et les pays, il existe des principes communs et des obligations professionnelles similaires qui constituent le fondement de l’intégrité en recherche où qu’elle soit menée. » (Déclaration de Singapour sur l'intégrité en recherche (2010), cité par l'[https://www.unil.ch/ssp/fr/home/menuinst/faculte/mission--valeurs/ethique-et-recherche.html UNIL])
=== Avant le recueil des données, quelles sont les exigences du pays et/ou d’une institution donnée vis-à-vis du recueil de données ? ===
==== Le Maroc ====
La Commission Nationale de contrôle de la protection des Données à caractère Personnel ([https://www.cndp.ma/fr/ CNDP]) a été créée par la loi n°09-08 du 18 février 2009 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel. Elle est chargée de vérifier que les traitements des données personnelles soient licites, légaux et qu’ils ne portent pas atteinte à la vie privée, aux libertés et droits fondamentaux de l’homme. La Commission est formée de personnalités notoirement connues pour leur impartialité, leur probité morale et leur compétence dans les domaines juridique, judiciaire et informatique.
==== La Suisse ====
Les points saillants éthiques et déontologiques à respecter sont les suivants:
* Le consentement libre et éclairé des participants : le chercheur informe et fait signer un [https://www.unige.ch/commissionethique/documents/ formulaire de consentement] ad-hoc ;
* Le respect de la dignité du sujet : le chercheur s'engage en établissant un [https://www.unige.ch/recherche/fr/policies/gest/ plan de gestion des données] et la signature d'une [https://www.unige.ch/ethique/charte/ charte] du Respect des codes de déontologie et d'éthique ;
* Le respect de la vie privée et la confidentialité : le chercheur s'engage par la signature d'une charte du Respect de la confidentialité des données de recherche.
* L'information aux instances de l'institution engagée dans la Recherche via la soumission du projet de recherche à la commission facultaire d'éthique concernée.
* L'anticipation des risques pour les données et du mode de conservation des données de manière la plus sécurisée possible.
Les institutions de recherche spécialisées comprenant les Sciences Humaine et Sociales et les Sciences de l'Education sont :
* Swissethics : un ensemble de commissions d’éthique suisses relatives à la recherche sur l'être humain, pour tout ce qui a trait aux recherches en santé.
* Le fonds national suisse (FNS) : il propose des références de gestion pour tous les chercheurs en Suisse et à l'étranger.
* Un projet national : le Swiss DLCM project  basé sur le concept du "Data Life-Cycle Management" (DLCM) et qui fournit le support et l'encadrement nécessaire aux recherches en Suisse.
* [https://www.swissuniversities.ch/fr/themes/recherche/ Swissuniversities] : une organisation qui travaille sur des "questions ayant trait à la recherche, au développement et à la relève en vue de créer et de maintenir des conditions-cadres optimales pour les hautes écoles".
Exemples d’implémentation dans quelques institutions du paysage universitaire suisse :
* Université de Genève : première haute école suisse à se doter d'une nouvelle [https://www.unige.ch/researchdata/fr/services/all/politique/ politique] de gestion des données de la recherche (basée sur le Swiss DLCM) avec les aspects éthiques définis par son [https://www.unige.ch/recherche/fr/policies/ethique-protection-des-donnees-personnelles/ service recherche].
* Université de Lausanne en ce qui concerne les aspects [https://www.unil.ch/openscience/fr/home/menuinst/open-research-data/conformite--exigences/ethique--deontologie.html/ éthiques], déontologiques et d'intégrité scientifique et plus particulièrement l'éthique et la recherche
* Ecole Polytechnique Fédérale Lausanne : [https://www.epfl.ch/research/ethic-statement/fr/declaration-ethique/ Déontologie et éthique] dans la recherche
* Haute Ecole Spécialisée-Suisse Occidentale : la [https://www.hes-so.ch/data/documents/Charte-code-conduite-principes-160.pdf charte] (2010) codifie les codes de conduite en recherche. D'autres HES, comme la HES-GE, partagent le même code éthique de l'Université du même canton, ici celui de l'Unige.
* Haute Ecole Pédagogique : les HEP disposent d'un cadre défini par la Conférence Inter Cantonale de l'Instruction Publique de la Suisse romande et du Tessin, le  [https://www.hepl.ch/files/live/sites/systemsite/files/centre-soutien-recherche-relations-internationales/pole-levees-fonds/code-ethique-recherche-rd-2002-hep-vaud.pdf code] d'éthique de la recherche pour les HEP (2002) mais de nombreuses recherches sont réalisées en partenariat avec des universités, reposant dans ce cas sur les codes éthiques de ces dernières.
==== La Tunisie ====
Le décret n° [http://www.legislation.tn/sites/default/files/fraction-journal-officiel/2013/2013F/004/TF2013473.pdf 2013-47] du 4 janvier 2013, fixant le cadre général du régime des études et les conditions d'obtention du diplôme national de doctorat dans le système « LMD » n’aborde pas les points relatifs à l’éthique ou la déontologie dans la recherche, il fait néanmoins référence à une Charte des études doctorales (Article 15). Ainsi, chaque établissement offrant des formations doctorales propose sa propre charte. Les chartes intègrent, pour la plupart, des points relatifs à l’intégrité scientifique et aux règles déontologiques, d’autres restent plus vagues sur ces aspects.
Cependant, et d'une manière générale, les données à caractère personnel, en Tunisie, sont régies par la Loi organique n° 2004-63 du 27 juillet 2004 portant sur la protection des données à caractère personnel et suivies par l’Instance Nationale de Protection des Données Personnelles (INPDP). Selon la loi, sont qualifiées de données à caractère personnel, «toutes les données quelle que soit leur origine ou leur forme se rapportant à une personne physique directement ou indirectement, à travers plusieurs informations ou symbole notamment par référence à un identifiant tel que le nom, le numéro d’identification, la situation familiale ou des données de localisation, un identifiant en ligne ou à un ou plusieurs éléments spécifiques à la personne en relation avec son identité physique, génétique, psychique ou à ses comportements économiques, culturels ou sociales». Ainsi, le traitement des données de la recherche portant sur les personnes physiques doivent obligatoirement respecter cette réglementation en vigueur.
==== L'Algérie ====
Si les législations ne décrivent pas clairement les pratiques concernant les données de recherche, il existe quelques textes qui peuvent êtres des préambules juridiques en la matière. Il s’agit de plusieurs lois qui ont cité la protection des données dans le cadre des travaux de recherche académiques :
* Un décret exécutif n° 98-254 relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire
* L’article 87 du décret exécutif n° 98-254 relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire
* L’article 43 de l’arrêté n° 547 du 2 juin 2016 fixant les modalités d’organisation de la formation de troisième cycle et les conditions de préparation et de soutenances de la thèse de doctorat
* L’article 61 du même décret exécutif n° 98-254
* L'article 87 du décret exécutif n° 98-254
Ces décrets présentent la propriété des données de recherche comme droit institutionnel et non un droit individuel. Ainsi, le chercheur ne peut en aucun cas en user sauf par autorisation explicite de l’université dont relève le chercheur.  Ce qui fait que les données de recherche ne sont gérées par aucun organisme indépendant qui coordonne et mutualise les résultats. La reconnaissance des certains travaux sont considérés de l'ordre des droit d'auteur si les travaux de recherche proposent des inventions, mais il reste tributaire au service dont relève le chercheur.
La  loi n° 18-07 du 10 juin 2018 relative à la protection des personnes physiques présente les principes fondamentaux de protection des données à caractère personnel et stipule que le traitement des données à caractère personnel ne peut être effectué qu’avec le consentement exprès de la personne concernée. Pour plus d'information et références, voir [[Gestion des données de recherche#Quelques lois relatives .C3.A0 la protection des donn.C3.A9es personnelles|ci-dessous]].
=== Quel type de consentement demander? Attention au type d'utilisation! ===
Les chercheurs sont responsables de la collecte, du traitement, de l’analyse et du stockage de données. Avant le recueil des données, ils sont obligés de demander l’autorisation des participants à l’égard de l’exploitation et de l’utilisation de ces données. Cette autorisation peut être exprimée sous forme écrite, verbale ou implicite mais selon les [https://www.recherche.umontreal.ca/fileadmin/recherche/documents/user_upload_ancien/Ethique_humaine/CERES/Guide_FCLE.pdf comités d’éthique] de l’Université de Montréal, elle doit respecter les trois critères essentiels pour assurer un consentement ''libre, éclairé et continu''. En effet, les participants doivent avoir la liberté de décision de participer à la recherche. Les éléments du consentement doivent être rédigés dans un langage approprié, dans la langue des participants ou de leur représentant légal et tous les termes techniques doivent être bien expliqués pour que les lecteurs comprennent clairement les objectifs de la recherche. Le dernier critère - la continuité - permet d’assurer un consentement libre et éclairé des participants tout au long de la recherche : ceux-ci doivent être informés de tout changement susceptible d’influencer leur décision de participer à la recherche.
Si une recherche concerne en même temps les participants adultes et mineurs, il faudrait prévoir un formulaire pour chaque groupe et demander la signature du représentant légal dans le cas des mineurs. Il serait recommandé de consulter la loi des pays concernés dans l’étude pour adopter des mesures appropriées.
Pour s’assurer la possibilité de partager ses données sur un repository Findable, Accessible, Interoperable, and Reusable (FAIR), le formulaire de consentement devrait inclure des clauses liées à l’utilisation légale et à la préservation de données. Une mention explicite telles que « J’autorise le dépôt de mes données anonymisées dans un repository à des fins de diffusion et de partage » permettra de couvrir la préservation de données.
== Gestion des données actives de la recherche ==
=== Le DMP : un outil similaire au phare ===
Le plan de gestion des données (Data Management Plan) est un document écrit décrivant les données qu’on prévoit d’acquérir ou de générer au cours d’un projet de recherche et décrit précisément comment on va gérer les données, les décrire, les analyser et les stocker. Il permet d'expliquer comment seront gérées les données depuis leur création jusqu'à leur archivage et leur partage. Il contient également des informations administratives, relatives aux aspects éthiques et aux coûts du stockage des données.
Tel un phare, « La vocation d’un DMP n’est pas de contraindre la pratique par l’exigence de nouveaux éléments mais plutôt de formaliser au sein d’un document unique, prospectif, descriptif et évolutif, un ensemble d’éléments et d’informations, auparavant dispersés entre divers acteurs et divers documents, éléments utiles au suivi du projet et à la bonne gestion des résultats obtenus. » [https://qer-2017.sciencesconf.org/data/program/2017_ANF_tracabilite_janik.pdf Janik, 2017]. Seront notamment précisés dans le DMP, les éléments suivants :
* Le type de données produites : sources, formats, producteurs, volumétrie
* Métadonnées: standards de description et de documentation des données produites (par exemple pour les sciences sociales, voir http://www.dcc.ac.uk/resources/subject-areas/social-science-humanities)
* Stockage des données actives, protection et sécurité des données: modes de stockage, d'accès et de partage au cours du projet, gestion de risques et confidentialité
* Partage et réutilisation des données : impact, partage et dissémination des données pour et par les acteurs de la recherche et de la société
* Préservation des données : stratégie et garantie de conservation et d'accès à long terme à une partie des données produites
=== Quelques bonnes pratiques pour stocker les données actives d’une recherche, avec ou sans infrastructure institutionnelle ===
Si votre institution prévoit un système de stockage des données actives, utilisez-là! [https://catalogue-si.unige.ch/stockage-recherche Exemple] à l'Université de Genève.
Si votre institution ne prévoit rien et que vous êtes contraint d’utiliser votre ordinateur personnel, prévoyez au minimum un dispositif de sécurité local. Par exemple prévoyez une sauvegarde sur un disque dur externe. Les données privées (e.g. formulaires de consentement, tables de correspondance) stockez-les directement sur un disque dur externe disposé dans un lieu sécurisé. Vous pouvez ajouter un mot de passe pour d'avantage de sécurité. Notez que la bonne pratique, en termes de gestion des données actives de recherche, voudrait qu’on ait toujours 3 copies : une copie de travail, une copie de sauvegarde sur un autre média (e.g. clé USB) et une copie sur un autre média dans un autre lieu (e.g. disque dur externe qu’on garde à la maison).
=== Quelques bonnes pratiques pour organiser et nommer ses fichiers ===
Il s’agit d’adopter une structure logique et ergonomique ainsi qu’une politique très stricte de nommage des fichiers pour organiser et stocker ses données, et ce afin que le chercheur puisse s’y retrouver facilement, ne pas écraser de données ou travailler avec des versions inadaptées. Exemple : avec une donnée de type « entretien », vous aurez au minimum 4 versions de cette donnée : i) l’entretien audio, ii) l’entretien transcrit tel quel, iii) l’entretien relu et corrigé par le participant ; iv) l’entretien anonymisé et prêt à être analysé. Afin de ne pas vous mélanger les pinceaux, l’arborescence serait pour ce cas précis 4 dossiers : i) données brutes audio ; ii) données transcrites ; iii) données vérifiées par les participants ; iv) données anonymisées. Quant à la documentation associée il s’agit par exemple de mettre un fichier « ReadMe » dans chaque dossier pour expliquer le type de données qui s’y trouve. Enfin pour le nommage des fichiers, vous pouvez indiquer au minimum la version du fichier et la date (01_EntretienA_18-12-2018). Si plusieurs chercheurs sont concernés, ajouter le nom de l’auteur ayant généré cette donnée peut s’avérer utile.
=== Comment estimer le volume de ses données de recherche ? ===
Le volume va dépendre du type de données. Nous prenons ici l'exemple d'un projet de recherche qualitative qui n’utiliserait que peu le format vidéo et pour lequel 1 To suffirait pour stocker toutes les données du projet. En effet: 
* Les données de type texte sont stockées au format PDF/A (pdf d’archivage qui pose le défi de ne pas forcément bien conserver les images mais conserve la mise en page). Un entretien de 1h10 donne une transcription de 9 pages (Times 10, interligne 1.5) et un fichier de 232 Ko. Pour donner un ordre d’idées, sur un NAS d’un Téraoctet (To) on pourrait stocker 4 628 197 transcriptions d’entretiens (texte sans image) de 1h10.
* Les données de type audio sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp3 « pèse » 65.0 Mo. Toujours pour donner un ordre d’idées, on pourrait stocker 16 131 fichiers audio de ce type sur 1 To.
* Les données de type vidéo sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp4 pèse 4,5 GB. Toujours pour donner un ordre d’idées, on pourrait stocker 228 fichiers vidéo de ce type sur 1 To.
== Préservation des données de recherche ==
=== Pourquoi préserver les données ? ===
* répondre aux critères [http://www.snf.ch/SiteCollectionDocuments/FAIR_principles_translation_SNSF_logo.pdf FAIR] (Findable, Accessible, Interoperable, Re-usable)
* répondre aux critères [http://www.snf.ch/fr/leFNS/points-de-vue-politique-de-recherche/open_research_data/Pages/default.aspx Open Research Data]
* répondre à un soucis de transparence, par exemple, pouvoir reproduire un design de recherche, prouver un résultat de recherche
* répondre à un soucis économique de ne pas recueillir plusieurs fois les mêmes données.
=== Pourquoi rendre son jeu de données public ? ===
Il y a principalement deux raisons à cela :
* la possibilité de consulter les données pour un relecteur et tout lecteur d’un article scientifique
* la possibilité de partager ces données dans le cadre de l’approche Open Data Research
Notez, que comme il y a des publications pour décrire un instrument de recueil de données, il y a désormais des publications pour décrire des jeux de données. Un ''data paper'' a pour mission de décrire, de manière précise, un jeu de données, voir [https://www.cnrs.fr/sites/default/files/press_info/2019-11/Plaquette_ScienceOuverte.pdf l'action n° 2, p. 8] du CNRS pour plus d'explication.
=== De quoi faut-il tenir compte avant de rendre son jeu de données public? ===
Le partage des données est conditionnée par plusieurs facteurs, notamment:
* Les règles juridiques/éthiques définies par l’institution qui finance la recherche
* Les règles juridiques/éthiques établies par l’endroit où se déroule la recherche
* Les réserves exprimées par les participants à la recherche
* La nature des données de la recherche, elles-mêmes. Sont-elles communicables et diffusables
* Le type et la licence de partage : par exemple, l’Open data, accès payant, etc.
* La durée du partage
* Le stockage et l’archivage des données : où, clés d’accès, coût, etc.
=== Quelles données préserver et comment trouver un repository ? ===
La question qui doit guider la sélection des fichiers à préserver est la suivante : de quelles données et métadonnées un autre chercheur aurait besoin pour reproduire les résultats de l’étude et comment les présenter dans une structure ergonomique pour un utilisateur externe? Les maîtres mots sont sélection, données pertinentes et structure (données, métadonnées et format).
Pour l’instant, l’UNIGE n’offre pas encore de service d’archivage et de préservation mais le fera courant 2019. De manière similaire à l’archive ouverte de l’UNIGE, ce lieu de stockage permettra de stocker des jeux de données en leur attribuant un DOI. Il est également toujours possible de faire appel à un hébergeur externe.
Pour trouver un repository FAIR, vous pouvez consulter [https://www.unige.ch/researchdata/fr/partager-vos-donnees/all/ou/ cette page]. Si votre institution ne propose rien mais que les lois de votre pays vous autorisent à archiver vos données sur un repository FAIR à l’international, vous pouvez utiliser le repository du CERN (zenodo) qui est gratuit. Notez que les données qui ne peuvent pas être stockées à l’extérieur d’une juridiction sont en général non-diffusées.
A l'Université de Genève, la solution [https://www.unige.ch/researchdata/en/working-data/all/storage/ YARETA] est aussi un repository.
=== Quelles licences utiliser ? Qui décide de l’ouverture des données ? Comment procéder en cas de recherche internationale ? ===
La licence (e.g. [https://creativecommons.org/licenses/ licences creative commons]) apposée à un jeu de données indiquera aux chercheurs comment ils peuvent le réutiliser (i.e. sans le modifier, en le modifiant mais en citant l'auteur d'origine, etc.). Pour ce qui est du choix, le bailleur de fonds peut avoir son mot à dire, l’institution aussi. En cas de recherche internationale, il est important de se mettre d’accord en amont du projet. Autrement dit, pour que les données soient accessibles au public et qu’elles puissent être utilisées et partagées selon les législations des droits d’auteur, il est indispensable qu’elles soient publiées sous une licence. Une licence est un « document » formel donné par l’auteur qui stipule qui a le droit d’utiliser les données et dans quels buts elles peu-vent être utilisées. En l’absence de licence, des situations compliquées peuvent émerger.  Il existe un grand nombre de licences dont les licences Creative Commons (CC), qui proposent trois versions de licences ouvertes CC : la Zero (CC0), la Paternité (Attribution) (CC-BY v4.0) et la Paternité et Partage à l’identique (CC-BY-SA v4.0). La question du choix de la licence nécessite une réflexion au préalable car il s’agit d’un choix, en principe, irréversible. Dans ce sens, pour favoriser la réutilisation des données, il est important de privilégier les licences ouvertes. Pour ce qui est des recherches internationales, les procédure et réflexion sont les mêmes et Creative Commons CC propose six licences de droits d’auteur internationaux basées sur les différents traités internationaux de droits d’auteur. 


== Quelques lois relatives à la protection des données personnelles ==
== Quelques lois relatives à la protection des données personnelles ==
Ligne 52 : Ligne 162 :
* Loi n° 18-07 du 25 Ramadhan 1439 correspondant au 10 juin 2018 relative à la protection des personnes physiques dans le traitement des données à caractère personnel : https://www.joradp.dz/FTP/JO-FRANCAIS/2018/F2018034.pdf  
* Loi n° 18-07 du 25 Ramadhan 1439 correspondant au 10 juin 2018 relative à la protection des personnes physiques dans le traitement des données à caractère personnel : https://www.joradp.dz/FTP/JO-FRANCAIS/2018/F2018034.pdf  
* Décret exécutif relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire, article 61 : https://www.joradp.dz/FTP/Jo-Francais/1998/F1998060.pdf
* Décret exécutif relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire, article 61 : https://www.joradp.dz/FTP/Jo-Francais/1998/F1998060.pdf
* Bulletin officiel du Ministère de l'Enseignement supérieur et de la Recherche Scientifique: http://www.univ-constantine2.dz/files/cruest/Arr%C3%AAte-547-Fr.PDF
* Office national des droits d’auteur et des droits voisins: http://www.onda.dz/
* Institut National Algérien de la Propriété Industrielle: http://e-services.inapi.org/SITE/
'''Europe''' :  
'''Europe''' :  
* Règlement Général sur la Protection des Données (RGPD) : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32016R0679  
* Règlement Général sur la Protection des Données (RGPD) : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32016R0679  
'''Maroc''' :  
'''Maroc''' :  
* Constitution, article 24, ainsi que d’autres textes accessibles depuis le site de la Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP): https://www.cndp.ma/fr/espace-juridique/textes-et-lois.html  
* [https://www.cndp.ma/images/lois/constitution_2011_Fr.pdf Constitution], article 24, ainsi que d’autres textes accessibles depuis le site de la Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP): https://www.cndp.ma/fr/espace-juridique/textes-et-lois.html  
* Dahir n° 1-09-15 du 22 safar 1430 (18 février 2009) portant promulgation de la [https://www.cndp.ma/images/lois/Loi-09-08-Fr.pdf loi n° 09-08] relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel. 
* Décret [https://www.cndp.ma/images/lois/Decret-2-09-165-Fr.pdf 2-09-165] du 21 mai 2009 pris pour l'application de la loi n°    09-08 relative à la protection des personnes physiques à l’égard du    traitement des données à caractère personnel.
'''Suisse''' :  
'''Suisse''' :  
* Loi fédérale sur la protection des données LPD : https://www.admin.ch/opc/fr/classified-compilation/19920153/index.html  
* Loi fédérale sur la protection des données LPD, qui couvre tous les aspects liés aux données personnelles du citoyen (par conséquent des participants à une recherche) : https://www.admin.ch/opc/fr/classified-compilation/19920153/index.html  
* Loi fédérale relative à la recherche sur l'être humain, LRH, https://www.admin.ch/opc/fr/classified-compilation/20061313/index.html
* Loi fédérale relative à la recherche sur l'être humain, LRH, qui fixe les dispositions dont il faut tenir compte quand les données d'une recherche proviennent des résultats d'enquêtes auprès de participants interrogés: https://www.admin.ch/opc/fr/classified-compilation/20061313/index.html
'''Tunisie''' :  
'''Tunisie''' :  
* Loi organique n° 2004-63 du 27 juillet 2004, portant sur la protection des données à caractère personnel : http://www.cnudst.rnrt.tn/jortsrc/2004/2004f/jo0612004.pdf  
* Loi organique n° 2004-63 du 27 juillet 2004, portant sur la protection des données à caractère personnel : http://www.cnudst.rnrt.tn/jortsrc/2004/2004f/jo0612004.pdf  
* Projet de loi organique relatif à la protection des données à caractère personnel (fortement inspiré de la RGPD): http://www.inpdp.nat.tn/Projet_PDP_bilingue.pdf  
* Projet de loi organique relatif à la protection des données à caractère personnel (fortement inspiré de la RGPD): https://legislation-securite.tn/sites/default/files/law/Projet%20de%20loi%20organique%20n%C2%B0%2025-2018%20relative%20%C3%A0%20la%20protection%20des%20donn%C3%A9es%20%C3%A0%20caract%C3%A8re%20personnel%20%28Fr%29.pdf
* Loi organique n° 2017-42 du 30/05/2017 portant approbation de l'adhésion de la République Tunisienne à la convention n° [https://rm.coe.int/1680078b39 108 du conseil de l'Europe] pour la protection des personnes à l'égard du traitement automatise des données à caractère personnel et de son protocole additionnel n° 181 concernant les autorités de contrôle et les flux transfrontières de données.
* Article 24 de la [http://www.legislation.tn/sites/default/files/news/constitution-b-a-t.pdf constitution de 2014] "L’État protège la vie privée, l’inviolabilité du domicile et le secret des correspondances, des communications et des données personnelles".


{{bloc pratiquer|
* Réalisez les modules d'autoformation [https://doranum.fr/] DORANum
* Téléchargez le [http://www.snf.ch/SiteCollectionDocuments/DMP_content_mySNF-form_fr.pdf] DMP du FNS et remplissez-le pour votre projet de recherche.
* Téléchargez le [https://www.unige.ch/fapse/index.php/download_file/view/2628/1535/] formulaire de la commission d'éthique de la FPSE et renseignez-le à l'aide des guides [https://www.unige.ch/fapse/faculte/organisation/commissions/commission-ethique/].
}}


== Ressources ==
== Ressources ==
Ligne 69 : Ligne 191 :
* Research data lifecycle: https://www.ukdataservice.ac.uk/manage-data/lifecycle
* Research data lifecycle: https://www.ukdataservice.ac.uk/manage-data/lifecycle
* Données de la recherche - apprentissage numérique - modules d'auto-formation: https://doranum.fr/
* Données de la recherche - apprentissage numérique - modules d'auto-formation: https://doranum.fr/
* Unité Régionale de Formation à l'Information Scientifique et Technique: https://urfistinfo.hypotheses.org/
* Le site Research Data de l'Université de Genève: https://www.unige.ch/researchdata/fr/
* Politique institutionnelle de l'Université de Genève sur la gestion des données de recherche: https://www.unige.ch/researchdata/fr/services/all/politique/
* Projet Data Life-Cycle Management: https://www.dlcm.ch/
== Contributeurs à cette page ==
Cette page a été réalisée par les participants au Module 1 du projet [https://tecfa.unige.ch/tecfa/teaching/reset/ RESET-Francophone]  et nous tenons à les remercier (alphabétiquement). Il s'agit de: Slaheddine Allagui, Mohamad Altinawi, Issoufou Abdou Moumouni, Mohamed Baoudra, Salete Bastin, Youness Benbrahim, Jacques Etienne Boog, Yousra Boutera, Hind Chaouli, Dalal Doukha, Kaoutar Elahadi, Yassine Elhajoubi, Hane Elmaamri, Driss Elomari, Mahamadou Halilou, Idrissa Karidjo, Rabha Kissani, Ouardia Lasli, Chau Nguyen, Nassilia Rabahi, Corinne Ramillon, Rihab Salhi, Rabea Sfihi et Souhad Shlaka. Il en va de même pour les tuteurs du module: Dalila Bebbouchi, Molka BelCadhi, Meriame Dhimane, Valérie Payen Jean-Baptiste et Najemeddin Soughati. Enfin, Jean-Blaise Claivaz et Pierre-Yves Burgi ont également été d'une aide précieuse.
[[catégorie: identité, vie privée et protection de données]]

Dernière version du 2 octobre 2020 à 08:33

Manuel de recherche en technologie éducative
Module: Questions pratiques et outils de référence
◀▬▬▶
brouillon débutant
2020/10/02 ⚒⚒ 2015/03/27

Introduction générale

De plus en plus de disciplines, revues et agences de recherche exigent la mise à disposition des données de recherche. Cela implique qu'il faut gérer à la fois l'archivage, la documentation et la mise à disposition. Cela correspond, en partie, à un changement de paradigme qui est apparu sous l’impulsion de Jin Gray « la science dirigée par les données », appelé aussi 4éme paradigme de la science. Etant donné la masse et à la quantité de données à traiter, il est nécessaire que la communauté scientifique, principale utilisatrice de ces données, puisse les définir clairement et fixer les conditions d'une utilisation responsable.

Par exemple, «Le Fonds national suisse (FNS) soutient le principe du libre accès aux données de la recherche (Open Research Data ou ORD). Il introduit à ce titre une première mesure: à partir d'octobre 2017, des plans de gestion des données (DMP) feront partie intégrante des requêtes en encouragement de projets.» (Open Research Data: directives du FNS pour les plans de gestion des données (11/05/2017)

Selon Wikipedia, «Un plan de gestion des données, Data management plan ou PGD est un document évolutif qui aide le(s) chercheur(s) ou le chargé de projet de la recherche à définir un plan pour gérer les données utilisées et générées dans le cadre de son activité ou de son projet de recherche. Initié au début du projet, ce plan est mis à jour de manière périodique pour s'assurer de son adéquation avec le déroulement de l'activité ou du projet.»

Pour rédiger ce plan de gestion des données, un chercheur doit déjà s'informer du cycle de vie des données de recherche. Le plan de gestion de données comporte des questions techniques, relatives au stockage, au nommage des fichiers notamment et d'autres questions d'ordre éthique. Nous tentons sur cette page d'aborder ces différents sujets en prenant également en compte la dimension internationale d'un projet de recherche.

Définition et cycle de vie des données de recherche

Le texte ci-dessous est un résumé produit à partir des trois ressources suivantes :

Définitions

Pour traiter la question de l’ouverture des données de la recherche, Rosemberg (2015) rapporte des définitions de différents organismes:

  • Selon l’Organisation de Coopération et de Développement Economiques (OCDE), les données de la recherche sont associées à la validité et aux résultats de la recherche. Elles constituent des sources pour la recherche scientifique pour en valider les résultats.
  • D’après l’Organisme Australien National Data Service (OANDS), les données de la recherche sont des observations ou des expériences sur lesquelles se base la théorie, l’argumentation ou le test. Elles comprennent toutes les données créées par le chercheur dans le cadre de son travail à savoir les carnets de laboratoire, carnets de recherche, projets, rapports, questionnaires, etc.
  • Contrairement à l’OANDS, l’Association des directeurs et des personnels de direction des bibliothèques universitaires (ADBU) n’inclue pas ces données dans l’ensemble « données de la recherche ». Elle les considère comme inutiles à la validation des résultats de la recherche.
  • Selon l’article What is research data ? publié sur le site officiel de l’Université de Leicester, la définition des données de recherche représente un défi. En effet elle varie selon la discipline. Ainsi à partir de plusieurs définitions, celle de l’Université d'Edimbourg, qui affirme que les données de recherche, contrairement aux autres types d’informations, sont « collectées, observées ou créées à des fins d'analyse et dans le but de produire des résultats de recherche originaux », est retenue. D’après le Conseil de recherche en génie et sciences physiques (EPSRC), les données de recherche représentent « des éléments factuels enregistrés, généralement retenus et acceptés par la communauté scientifique comme nécessaires pour valider les résultats de la recherche ».

Cycle de vie

Le site de l’Université de Lausanne, dans un article intitulé Cycle de vie des données de recherche, présente le modèle de référence du cycle de vie des données de recherche, Research Data Lifecycle, élaboré par UK Data Archive. Ledit modèle expose six principales étapes incluant des actions pour une rotation du cycle continue des données, dans le but d’en garantir une gestion appropriée.

Le cycle de vie des données de recherche est constitué de 6 étapes : création ou collecte, traitement, analyse, publication, archivage, réutilisation comme illustré dans la Figure de l'Open Science de l'UNIL. Il est important de comprendre chacune de ces étapes afin de mettre en place une gestion adéquate tout au long du cycle.

Il est également important de bien comprendre, conceptuellement, les termes associés à ces étapes:

  • Durant l’étape de création des données, il s’agit de les recueillir selon les protocoles de recherche et la méthodologie décidés en amont ;
  • Durant l’étape de traitement des données, le chercheur rend ces données analysables en respectant les lois et les considérations éthiques en vigueur (par ex : anonymisation) ;
  • Durant l’étape d’analyse des données, le chercheur analyse, selon les méthodes arrêtées en amont dans le design de recherche et avec les logiciels spécialisés nécessaires pour analyser les données ;
  • Durant l’étape de publication des données, le chercheur sélectionne une partie de ses données, par exemple celles qui permettront à d’autres chercheurs de reproduire le design de recherche, pour les mettre à disposition de la communauté en respectant les contraintes éthiques nécessaires ;
  • Durant l’étape d’archivage des données, celles-ci sont rendues disponible pendant une durée déterminée ;
  • Enfin durant l’étape de réutilisation des données, les données sont non seulement accessibles (elles sont stockées de manière appropriées) mais elles sont également lisibles (tout chercheur peut les utiliser pendant la durée de leur archivage pour conduire une recherche avec).

Il s’agit donc de distinguer entre données actives de recherche et préservation d’une partie de ces données. Les données actives de recherche sont les données en cours d’utilisation par le chercheur alors que les données archivées et préservées sont des données qui ont déjà été analysées et qui sont là pour consultation et/ou utilisation dans le cadre d’une autre recherche. Notons également, tout en relativisant ce chiffre, que l’échelle de temps par rapport à la préservation des données est généralement la suivante : le long terme, dans ce domaine, signifie une durée de 10 ans.

Pour optimiser la gestion du cycle de vie des données, il s’agit, en amont, de considérer les deux phases – la phase active et la phase d’archivage / préservation. En procédant de la sorte, en choisissant d’emblée des formats répondant aux besoins et compatibles avec les deux phases, en réfléchissant au processus de sélection des données qui devront être préservées en amont, la gestion dans son entièreté s’en trouve facilitée. Afin de se poser les bonnes questions, le Data Management Plan (DMP) du FNS est un excellent outil.

Ethique de la recherche, responsabilité du chercheur

Le respect de la vie privée, la propriété intellectuelle, la qualité et l’intégrité des données sont des dimensions éthiques de la gestion des données. Etre informé de l’évolution des règles juridiques est par conséquent très important pour un partage responsable des données utilisées.

« La valeur et les bénéfices de la recherche pour la société sont totalement dépendants de l’intégrité en recherche. Quelle que soit la manière dont la recherche est menée et organisée selon les disciplines et les pays, il existe des principes communs et des obligations professionnelles similaires qui constituent le fondement de l’intégrité en recherche où qu’elle soit menée. » (Déclaration de Singapour sur l'intégrité en recherche (2010), cité par l'UNIL)

Avant le recueil des données, quelles sont les exigences du pays et/ou d’une institution donnée vis-à-vis du recueil de données ?

Le Maroc

La Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP) a été créée par la loi n°09-08 du 18 février 2009 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel. Elle est chargée de vérifier que les traitements des données personnelles soient licites, légaux et qu’ils ne portent pas atteinte à la vie privée, aux libertés et droits fondamentaux de l’homme. La Commission est formée de personnalités notoirement connues pour leur impartialité, leur probité morale et leur compétence dans les domaines juridique, judiciaire et informatique.

La Suisse

Les points saillants éthiques et déontologiques à respecter sont les suivants:

  • Le consentement libre et éclairé des participants : le chercheur informe et fait signer un formulaire de consentement ad-hoc ;
  • Le respect de la dignité du sujet : le chercheur s'engage en établissant un plan de gestion des données et la signature d'une charte du Respect des codes de déontologie et d'éthique ;
  • Le respect de la vie privée et la confidentialité : le chercheur s'engage par la signature d'une charte du Respect de la confidentialité des données de recherche.
  • L'information aux instances de l'institution engagée dans la Recherche via la soumission du projet de recherche à la commission facultaire d'éthique concernée.
  • L'anticipation des risques pour les données et du mode de conservation des données de manière la plus sécurisée possible.

Les institutions de recherche spécialisées comprenant les Sciences Humaine et Sociales et les Sciences de l'Education sont :

  • Swissethics : un ensemble de commissions d’éthique suisses relatives à la recherche sur l'être humain, pour tout ce qui a trait aux recherches en santé.
  • Le fonds national suisse (FNS) : il propose des références de gestion pour tous les chercheurs en Suisse et à l'étranger.
  • Un projet national : le Swiss DLCM project basé sur le concept du "Data Life-Cycle Management" (DLCM) et qui fournit le support et l'encadrement nécessaire aux recherches en Suisse.
  • Swissuniversities : une organisation qui travaille sur des "questions ayant trait à la recherche, au développement et à la relève en vue de créer et de maintenir des conditions-cadres optimales pour les hautes écoles".

Exemples d’implémentation dans quelques institutions du paysage universitaire suisse :

  • Université de Genève : première haute école suisse à se doter d'une nouvelle politique de gestion des données de la recherche (basée sur le Swiss DLCM) avec les aspects éthiques définis par son service recherche.
  • Université de Lausanne en ce qui concerne les aspects éthiques, déontologiques et d'intégrité scientifique et plus particulièrement l'éthique et la recherche
  • Ecole Polytechnique Fédérale Lausanne : Déontologie et éthique dans la recherche
  • Haute Ecole Spécialisée-Suisse Occidentale : la charte (2010) codifie les codes de conduite en recherche. D'autres HES, comme la HES-GE, partagent le même code éthique de l'Université du même canton, ici celui de l'Unige.
  • Haute Ecole Pédagogique : les HEP disposent d'un cadre défini par la Conférence Inter Cantonale de l'Instruction Publique de la Suisse romande et du Tessin, le code d'éthique de la recherche pour les HEP (2002) mais de nombreuses recherches sont réalisées en partenariat avec des universités, reposant dans ce cas sur les codes éthiques de ces dernières.

La Tunisie

Le décret n° 2013-47 du 4 janvier 2013, fixant le cadre général du régime des études et les conditions d'obtention du diplôme national de doctorat dans le système « LMD » n’aborde pas les points relatifs à l’éthique ou la déontologie dans la recherche, il fait néanmoins référence à une Charte des études doctorales (Article 15). Ainsi, chaque établissement offrant des formations doctorales propose sa propre charte. Les chartes intègrent, pour la plupart, des points relatifs à l’intégrité scientifique et aux règles déontologiques, d’autres restent plus vagues sur ces aspects.

Cependant, et d'une manière générale, les données à caractère personnel, en Tunisie, sont régies par la Loi organique n° 2004-63 du 27 juillet 2004 portant sur la protection des données à caractère personnel et suivies par l’Instance Nationale de Protection des Données Personnelles (INPDP). Selon la loi, sont qualifiées de données à caractère personnel, «toutes les données quelle que soit leur origine ou leur forme se rapportant à une personne physique directement ou indirectement, à travers plusieurs informations ou symbole notamment par référence à un identifiant tel que le nom, le numéro d’identification, la situation familiale ou des données de localisation, un identifiant en ligne ou à un ou plusieurs éléments spécifiques à la personne en relation avec son identité physique, génétique, psychique ou à ses comportements économiques, culturels ou sociales». Ainsi, le traitement des données de la recherche portant sur les personnes physiques doivent obligatoirement respecter cette réglementation en vigueur.

L'Algérie

Si les législations ne décrivent pas clairement les pratiques concernant les données de recherche, il existe quelques textes qui peuvent êtres des préambules juridiques en la matière. Il s’agit de plusieurs lois qui ont cité la protection des données dans le cadre des travaux de recherche académiques :

  • Un décret exécutif n° 98-254 relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire
  • L’article 87 du décret exécutif n° 98-254 relatif à la formation doctorale, à la post graduation spécialisée et à l’habilitation universitaire
  • L’article 43 de l’arrêté n° 547 du 2 juin 2016 fixant les modalités d’organisation de la formation de troisième cycle et les conditions de préparation et de soutenances de la thèse de doctorat
  • L’article 61 du même décret exécutif n° 98-254
  • L'article 87 du décret exécutif n° 98-254

Ces décrets présentent la propriété des données de recherche comme droit institutionnel et non un droit individuel. Ainsi, le chercheur ne peut en aucun cas en user sauf par autorisation explicite de l’université dont relève le chercheur. Ce qui fait que les données de recherche ne sont gérées par aucun organisme indépendant qui coordonne et mutualise les résultats. La reconnaissance des certains travaux sont considérés de l'ordre des droit d'auteur si les travaux de recherche proposent des inventions, mais il reste tributaire au service dont relève le chercheur.

La loi n° 18-07 du 10 juin 2018 relative à la protection des personnes physiques présente les principes fondamentaux de protection des données à caractère personnel et stipule que le traitement des données à caractère personnel ne peut être effectué qu’avec le consentement exprès de la personne concernée. Pour plus d'information et références, voir ci-dessous.

Quel type de consentement demander? Attention au type d'utilisation!

Les chercheurs sont responsables de la collecte, du traitement, de l’analyse et du stockage de données. Avant le recueil des données, ils sont obligés de demander l’autorisation des participants à l’égard de l’exploitation et de l’utilisation de ces données. Cette autorisation peut être exprimée sous forme écrite, verbale ou implicite mais selon les comités d’éthique de l’Université de Montréal, elle doit respecter les trois critères essentiels pour assurer un consentement libre, éclairé et continu. En effet, les participants doivent avoir la liberté de décision de participer à la recherche. Les éléments du consentement doivent être rédigés dans un langage approprié, dans la langue des participants ou de leur représentant légal et tous les termes techniques doivent être bien expliqués pour que les lecteurs comprennent clairement les objectifs de la recherche. Le dernier critère - la continuité - permet d’assurer un consentement libre et éclairé des participants tout au long de la recherche : ceux-ci doivent être informés de tout changement susceptible d’influencer leur décision de participer à la recherche. Si une recherche concerne en même temps les participants adultes et mineurs, il faudrait prévoir un formulaire pour chaque groupe et demander la signature du représentant légal dans le cas des mineurs. Il serait recommandé de consulter la loi des pays concernés dans l’étude pour adopter des mesures appropriées. Pour s’assurer la possibilité de partager ses données sur un repository Findable, Accessible, Interoperable, and Reusable (FAIR), le formulaire de consentement devrait inclure des clauses liées à l’utilisation légale et à la préservation de données. Une mention explicite telles que « J’autorise le dépôt de mes données anonymisées dans un repository à des fins de diffusion et de partage » permettra de couvrir la préservation de données.

Gestion des données actives de la recherche

Le DMP : un outil similaire au phare

Le plan de gestion des données (Data Management Plan) est un document écrit décrivant les données qu’on prévoit d’acquérir ou de générer au cours d’un projet de recherche et décrit précisément comment on va gérer les données, les décrire, les analyser et les stocker. Il permet d'expliquer comment seront gérées les données depuis leur création jusqu'à leur archivage et leur partage. Il contient également des informations administratives, relatives aux aspects éthiques et aux coûts du stockage des données. Tel un phare, « La vocation d’un DMP n’est pas de contraindre la pratique par l’exigence de nouveaux éléments mais plutôt de formaliser au sein d’un document unique, prospectif, descriptif et évolutif, un ensemble d’éléments et d’informations, auparavant dispersés entre divers acteurs et divers documents, éléments utiles au suivi du projet et à la bonne gestion des résultats obtenus. » Janik, 2017. Seront notamment précisés dans le DMP, les éléments suivants :

  • Le type de données produites : sources, formats, producteurs, volumétrie
  • Métadonnées: standards de description et de documentation des données produites (par exemple pour les sciences sociales, voir http://www.dcc.ac.uk/resources/subject-areas/social-science-humanities)
  • Stockage des données actives, protection et sécurité des données: modes de stockage, d'accès et de partage au cours du projet, gestion de risques et confidentialité
  • Partage et réutilisation des données : impact, partage et dissémination des données pour et par les acteurs de la recherche et de la société
  • Préservation des données : stratégie et garantie de conservation et d'accès à long terme à une partie des données produites

Quelques bonnes pratiques pour stocker les données actives d’une recherche, avec ou sans infrastructure institutionnelle

Si votre institution prévoit un système de stockage des données actives, utilisez-là! Exemple à l'Université de Genève.

Si votre institution ne prévoit rien et que vous êtes contraint d’utiliser votre ordinateur personnel, prévoyez au minimum un dispositif de sécurité local. Par exemple prévoyez une sauvegarde sur un disque dur externe. Les données privées (e.g. formulaires de consentement, tables de correspondance) stockez-les directement sur un disque dur externe disposé dans un lieu sécurisé. Vous pouvez ajouter un mot de passe pour d'avantage de sécurité. Notez que la bonne pratique, en termes de gestion des données actives de recherche, voudrait qu’on ait toujours 3 copies : une copie de travail, une copie de sauvegarde sur un autre média (e.g. clé USB) et une copie sur un autre média dans un autre lieu (e.g. disque dur externe qu’on garde à la maison).

Quelques bonnes pratiques pour organiser et nommer ses fichiers

Il s’agit d’adopter une structure logique et ergonomique ainsi qu’une politique très stricte de nommage des fichiers pour organiser et stocker ses données, et ce afin que le chercheur puisse s’y retrouver facilement, ne pas écraser de données ou travailler avec des versions inadaptées. Exemple : avec une donnée de type « entretien », vous aurez au minimum 4 versions de cette donnée : i) l’entretien audio, ii) l’entretien transcrit tel quel, iii) l’entretien relu et corrigé par le participant ; iv) l’entretien anonymisé et prêt à être analysé. Afin de ne pas vous mélanger les pinceaux, l’arborescence serait pour ce cas précis 4 dossiers : i) données brutes audio ; ii) données transcrites ; iii) données vérifiées par les participants ; iv) données anonymisées. Quant à la documentation associée il s’agit par exemple de mettre un fichier « ReadMe » dans chaque dossier pour expliquer le type de données qui s’y trouve. Enfin pour le nommage des fichiers, vous pouvez indiquer au minimum la version du fichier et la date (01_EntretienA_18-12-2018). Si plusieurs chercheurs sont concernés, ajouter le nom de l’auteur ayant généré cette donnée peut s’avérer utile.

Comment estimer le volume de ses données de recherche ?

Le volume va dépendre du type de données. Nous prenons ici l'exemple d'un projet de recherche qualitative qui n’utiliserait que peu le format vidéo et pour lequel 1 To suffirait pour stocker toutes les données du projet. En effet:

  • Les données de type texte sont stockées au format PDF/A (pdf d’archivage qui pose le défi de ne pas forcément bien conserver les images mais conserve la mise en page). Un entretien de 1h10 donne une transcription de 9 pages (Times 10, interligne 1.5) et un fichier de 232 Ko. Pour donner un ordre d’idées, sur un NAS d’un Téraoctet (To) on pourrait stocker 4 628 197 transcriptions d’entretiens (texte sans image) de 1h10.
  • Les données de type audio sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp3 « pèse » 65.0 Mo. Toujours pour donner un ordre d’idées, on pourrait stocker 16 131 fichiers audio de ce type sur 1 To.
  • Les données de type vidéo sont stockées au format AVI ou MPG. Le même entretien de 1h10 au format Mp4 pèse 4,5 GB. Toujours pour donner un ordre d’idées, on pourrait stocker 228 fichiers vidéo de ce type sur 1 To.

Préservation des données de recherche

Pourquoi préserver les données ?

  • répondre aux critères FAIR (Findable, Accessible, Interoperable, Re-usable)
  • répondre aux critères Open Research Data
  • répondre à un soucis de transparence, par exemple, pouvoir reproduire un design de recherche, prouver un résultat de recherche
  • répondre à un soucis économique de ne pas recueillir plusieurs fois les mêmes données.

Pourquoi rendre son jeu de données public ?

Il y a principalement deux raisons à cela :

  • la possibilité de consulter les données pour un relecteur et tout lecteur d’un article scientifique
  • la possibilité de partager ces données dans le cadre de l’approche Open Data Research

Notez, que comme il y a des publications pour décrire un instrument de recueil de données, il y a désormais des publications pour décrire des jeux de données. Un data paper a pour mission de décrire, de manière précise, un jeu de données, voir l'action n° 2, p. 8 du CNRS pour plus d'explication.

De quoi faut-il tenir compte avant de rendre son jeu de données public?

Le partage des données est conditionnée par plusieurs facteurs, notamment:

  • Les règles juridiques/éthiques définies par l’institution qui finance la recherche
  • Les règles juridiques/éthiques établies par l’endroit où se déroule la recherche
  • Les réserves exprimées par les participants à la recherche
  • La nature des données de la recherche, elles-mêmes. Sont-elles communicables et diffusables
  • Le type et la licence de partage : par exemple, l’Open data, accès payant, etc.
  • La durée du partage
  • Le stockage et l’archivage des données : où, clés d’accès, coût, etc.

Quelles données préserver et comment trouver un repository ?

La question qui doit guider la sélection des fichiers à préserver est la suivante : de quelles données et métadonnées un autre chercheur aurait besoin pour reproduire les résultats de l’étude et comment les présenter dans une structure ergonomique pour un utilisateur externe? Les maîtres mots sont sélection, données pertinentes et structure (données, métadonnées et format).

Pour l’instant, l’UNIGE n’offre pas encore de service d’archivage et de préservation mais le fera courant 2019. De manière similaire à l’archive ouverte de l’UNIGE, ce lieu de stockage permettra de stocker des jeux de données en leur attribuant un DOI. Il est également toujours possible de faire appel à un hébergeur externe.

Pour trouver un repository FAIR, vous pouvez consulter cette page. Si votre institution ne propose rien mais que les lois de votre pays vous autorisent à archiver vos données sur un repository FAIR à l’international, vous pouvez utiliser le repository du CERN (zenodo) qui est gratuit. Notez que les données qui ne peuvent pas être stockées à l’extérieur d’une juridiction sont en général non-diffusées.

A l'Université de Genève, la solution YARETA est aussi un repository.

Quelles licences utiliser ? Qui décide de l’ouverture des données ? Comment procéder en cas de recherche internationale ?

La licence (e.g. licences creative commons) apposée à un jeu de données indiquera aux chercheurs comment ils peuvent le réutiliser (i.e. sans le modifier, en le modifiant mais en citant l'auteur d'origine, etc.). Pour ce qui est du choix, le bailleur de fonds peut avoir son mot à dire, l’institution aussi. En cas de recherche internationale, il est important de se mettre d’accord en amont du projet. Autrement dit, pour que les données soient accessibles au public et qu’elles puissent être utilisées et partagées selon les législations des droits d’auteur, il est indispensable qu’elles soient publiées sous une licence. Une licence est un « document » formel donné par l’auteur qui stipule qui a le droit d’utiliser les données et dans quels buts elles peu-vent être utilisées. En l’absence de licence, des situations compliquées peuvent émerger. Il existe un grand nombre de licences dont les licences Creative Commons (CC), qui proposent trois versions de licences ouvertes CC : la Zero (CC0), la Paternité (Attribution) (CC-BY v4.0) et la Paternité et Partage à l’identique (CC-BY-SA v4.0). La question du choix de la licence nécessite une réflexion au préalable car il s’agit d’un choix, en principe, irréversible. Dans ce sens, pour favoriser la réutilisation des données, il est important de privilégier les licences ouvertes. Pour ce qui est des recherches internationales, les procédure et réflexion sont les mêmes et Creative Commons CC propose six licences de droits d’auteur internationaux basées sur les différents traités internationaux de droits d’auteur.

Quelques lois relatives à la protection des données personnelles

Algérie :

Europe :

Maroc :

  • Constitution, article 24, ainsi que d’autres textes accessibles depuis le site de la Commission Nationale de contrôle de la protection des Données à caractère Personnel (CNDP): https://www.cndp.ma/fr/espace-juridique/textes-et-lois.html
  • Dahir n° 1-09-15 du 22 safar 1430 (18 février 2009) portant promulgation de la loi n° 09-08 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel.
  • Décret 2-09-165 du 21 mai 2009 pris pour l'application de la loi n° 09-08 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel.

Suisse :

Tunisie :

Pour pratiquer:


  • Réalisez les modules d'autoformation [1] DORANum
  • Téléchargez le [2] DMP du FNS et remplissez-le pour votre projet de recherche.
  • Téléchargez le [3] formulaire de la commission d'éthique de la FPSE et renseignez-le à l'aide des guides [4].


Ressources

Contributeurs à cette page

Cette page a été réalisée par les participants au Module 1 du projet RESET-Francophone et nous tenons à les remercier (alphabétiquement). Il s'agit de: Slaheddine Allagui, Mohamad Altinawi, Issoufou Abdou Moumouni, Mohamed Baoudra, Salete Bastin, Youness Benbrahim, Jacques Etienne Boog, Yousra Boutera, Hind Chaouli, Dalal Doukha, Kaoutar Elahadi, Yassine Elhajoubi, Hane Elmaamri, Driss Elomari, Mahamadou Halilou, Idrissa Karidjo, Rabha Kissani, Ouardia Lasli, Chau Nguyen, Nassilia Rabahi, Corinne Ramillon, Rihab Salhi, Rabea Sfihi et Souhad Shlaka. Il en va de même pour les tuteurs du module: Dalila Bebbouchi, Molka BelCadhi, Meriame Dhimane, Valérie Payen Jean-Baptiste et Najemeddin Soughati. Enfin, Jean-Blaise Claivaz et Pierre-Yves Burgi ont également été d'une aide précieuse.