Méthodes de conduite de la recherche sur les EIAH (école d'automne 2022)/Atelier 7 - Prédire l’abandon des études : Comment s’y prendre ?
Animation de l'atelier
- Agathe Merceron - Professeure (Université des Sciences appliquées de Berlin)
Résumé
L’éducation, comme tout autre secteur, dispose de nombreuses données sous forme numérique et cette tendance s’accentue. Cette observation et le développement de méthodes et algorithmes appropriés ont amené le développement de nouveaux champs de recherche comme « Educational Data Mining », https://educationaldatamining.org/, ou « Learning Analytics », https://www.solaresearch.org/. Cet atelier se situe dans l’intersection de ces deux champs. Prenant comme appui une problématique précise : « Prédire l’abandon des études dans l’éducation supérieure » en analysant avec des algorithmes de machine learning les données administratives que toute université enregistre sur ses étudiants, voir les références [NWM 21] et [WMS 20] dans la bibliographie, nous discuterons dans cet atelier différents niveaux de méthodes nécessaires pour répondre à une question de recherche à l’intersection des champs « Learning Analytics » et « Educational Data Mining ». La liste suivante -non exhaustive- montre différents niveaux de ces méthodes :
- Choix des données à acquérir
- Acquisition des données
- Anonymisation ou pseudonymisation des données
- Stockage sûr pendant toute la durée du projet
- Nettoyage des données
- Choix et création d’attributs pour les algorithmes
- Choix ou/et développement d’algorithmes
- Évaluation, explication (explicabilité) et équité des résultats
- Interventions possibles à partir des résultats
- Publication de données et d’algorithmes obtenus dans le projet.
Les participants emploieront par groupe différents niveaux de méthodes et les appliqueront au problème « Prédire l’abandon des études dans l’éducation supérieure ».
Mots clés
- Learning Analytics, Educational Data Mining, Préparation des données, Machine Learning, Explications et Équité.
Objectifs pédagogiques
- Les participants auront pris conscience de problèmes liées à l’acquisition, stockage et utilisation de données éducationnelles et apprendront des solutions à mettre en place.
- Les participants connaitront plusieurs algorithmes de prédiction qui diffèrent quant à l’explicabilité des résultats : les humains peuvent-ils comprendre comment l’algorithme arrive à sa décision ?
- Les participants connaitront des problèmes d’équité qui peuvent se poser à plusieurs niveaux et apprendront quelques solutions.
- Les participants prendront conscience que l’utilisation possible des résultats doit être inclue dans la démarche de recherche.
Ressources
- Fichier:2022 11 16 Ateliers EcoleAutmone.pdf
- Fichier:3466132.3466134.pdf
- Fichier:Fairness.pdf
- Fichier:LAK20 Companion Proceedings WMS.pdf
- Fichier:MiniTutorialRapidMiner.pdf
- Fichier:TravauxDeGroupes.pdf
Bibliographie
Avant de participer à l’atelier, les participants devront lire les items signalés en vert ci-dessous:
- Lecture à effectuerSection 3.1 Data Preprocessing: An Overview pages 84-87 du livre "Data Mining - Concepts and Techniques" par Han, Kamber et Pai, disponible en ligne: http://myweb.sabanciuniv.edu/rdehkharghani/files/2016/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Micheline-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-2011.pdf
- Lecture à effectuerSrinivasan, R., Chander, A.: Biases in AI Systems - A survey for practitioners. Communications of the ACM August 2021 (Vol. 64, No. 8). Pages 44-49 https://doi.org/10.1145/3464903
- Lecture à effectuer [WMS 20] Wagner, K., Merceron, A., Sauer, P.: Accuracy of a Cross-Program Model for Dropout Prediction in Higher Education. In Companion Proceedings of the 10th Learning Analytics and Knowledge Conference (LAK’20), p. 744-749. Workshop on Addressing Dropout Rates in Higher Education, Frankfurt am Main, Germany, 2020.
- [NWM 21] Novoseltseva, D., Wagner, K., Merceron, A., Sauer, P., Jessel, N., Sedes, F.: Investigating the Impact of Outliers on Dropout Prediction in Higher Education. In Proceedings of the Delfi Workshops 2021 at the 19th e-Learning Conference of the German Society for Computer Science, Dortmund-Online, Germany, September 13, 2021, p. 120-129.