Orange

De EduTech Wiki
Aller à la navigation Aller à la recherche

Présentation

Orange est un logiciel de data mining (Analytique et exploration de données). Gratuit et open-source, il s'agit d'un logiciel multi-plateforme (Windows, Mac et Linux) qui permet d'analyser des données et de créer de multiples visualisations graphiques. Orange est un outil utilisable dans tout domaine d'activité et de recherche où l'on souhaite analyser des données, qu'il s'agisse du marketing, de la médecine ou des sciences de l'éducation.

Description détaillée

Interface du logiciel Orange (capture d'écran)

Interface

L'interface du logiciel est relativement simple d'un point de vue graphique mais permet à l'utilisateur de se repérer facilement. Il s'agit d'une page classique au thème de l'OS sur lequel il est utilisé avec une barre de navigation sur le haut contenant le menu. Sur le côté gauche, on trouve les fonctionnalités du logiciel sous la forme d'icônes colorées.

Au milieu se trouve l'espace dans lequel l'utilisateur va créer son “workflow”. En cliquant à n'importe quel endroit, une liste de fonctionnalités apparaît et l'utilisateur peut choisir celles dont il a besoin, à l'aide de nombreuses icônes qui permettent de repérer et distinguer facilement les fonctionnalités. Les couleurs sont utilisées avec parcimonie pour les différentes fonctionnalités mais également pour les visualisations des données.

En cliquant sur des fonctionnalités, des fenêtres supplémentaires peuvent s'ouvrir, laissant à l'utilisateur la possibilité d'interagir davantage avec le logiciel.

"Workflows" du logiciel Orange (captures d'écran)

Workflow

Le concept de "workflow" est central dans le logiciel Orange. Il permet à l'utilisateur de créer et de gérer les différentes étapes d'un processus de travail pour l'analyse de données. Un "workflow" est une représentation graphique des différentes étapes d'analyse des données, où chaque étape est représentée par une boîte (appelée "widget") qui contient des paramètres spécifiques. Les boîtes sont ensuite connectées entre elles pour créer un flux de travail continu. Par exemple, un "workflow" peut commencer par l'importation des données, suivie d'une étape de prétraitement pour nettoyer les données, puis d'une étape de visualisation pour obtenir des résultats pertinents. Ensuite, on peut ajouter une étape de modélisation pour créer un modèle prédictif ou un modèle de régression. Le "workflow" permet donc à l'utilisateur de gérer facilement différentes étapes de l'analyse des données, en les reliant les unes aux autres et en permettant une visualisation rapide des résultats à chaque étape. Il offre également une grande flexibilité, car l'utilisateur peut ajouter ou supprimer des étapes en fonction de ses besoins.

Fonctionnalités principales

Orange possède un grand nombre de fonctionnalités permettant à l'utilisateur de manipuler les données de sorte à les interpréter du mieux possible, en fonction du cadre d'utilisation et des objectifs poursuivis.

  • Entrée de données :

Pour que le logiciel puisse analyser et proposer de multiples visualisations graphiques des données, il faut pouvoir les entrer. Ainsi, Orange est capable d'importer des données de plusieurs formats, parmi lesquels des fichiers CSV, Excel, XML, JSON, des fichiers de base de données SQL, des fichiers de texte brut et des “repositories” (dépôts) en ligne.

  • Prétraitement de données :

Orange permet à l'utilisateur d'intervenir sur les données en amont de l'analyse. En effet, les données brutes que l'on souhaiterait traiter peuvent contenir certains défauts tels que des valeurs aberrantes ou manquantes ou autres. Ainsi Orange peut repérer et supprimer de telles valeurs afin de nettoyer des données, de sorte à ce qu'elles soient plus pertinentes à l'interprétation.

  • Analyse statistique :

L'analyse statistique vise à comprendre les tendances, les relations entre les variables et à dégager des modèles. Orange dispose d'une gamme d'outils d'analyse statistique qui permettent de calculer des mesures de tendance centrale comme la moyenne, la médiane, le mode, ainsi que des mesures de dispersion comme l'écart-type, le minimum et le maximum pour chaque variable. De plus, pour explorer les relations entre les variables, le logiciel propose des analyses de régression, de variance et de corrélation, et des tests statistiques ainsi que des modèles de prédiction. En utilisant ces outils, les utilisateurs peuvent explorer les données plus en profondeur et obtenir des informations utiles pour la prise de décisions.

  • Visualisation de données et interprétation de résultats :

L'analyse de données ne peut être considérée comme pertinente que si elle permet une interprétation des résultats. Orange propose ainsi une grande variété d'outils de visualisation, tels que les diagrammes de dispersion, les graphiques à barres, les histogrammes, les cartes thermiques, les réseaux, les arbres de décision et plus encore. Ces outils sont configurables et offrent une grande flexibilité pour répondre aux besoins de chaque projet. Grâce à cette approche orientée vers la visualisation, l'utilisateur est en mesure d'explorer ses données sous plusieurs angles, ce qui facilite la compréhension des tendances et des modèles.

  • Apprentissage automatique :

Orange offre la possibilité d'effectuer de la modélisation et de la prédiction de données à partir de données numériques, textuelles ou encore d'images. Le logiciel dispose ainsi d'algorithmes de classification et de clustering, et intègre des fonctionnalités de machine learning telles que le modèle linéaire généralisé, le réseau de neurones, le Random Forest ou encore le gradient boosting. Ces outils permettent ainsi d'analyser des données de manière approfondie et de faire émerger des schémas intéressants dans les données, les résultats obtenus pouvant être interprétés grâce aux nombreuses fonctionnalités d'analyse de résultats et de visualisation disponibles.

Analyse

Intérêt en sciences de l'éducation

Dans le domaine des sciences de l'éducation, le principal intérêt d'Orange est son potentiel d'utilisation dans le cadre de l'analytique de l'apprentissage (learning analytics). L'analytique de l'apprentissage est issue de la combinaison de deux disciplines : le data mining et les sciences de l'éducation. Le data mining est une discipline qui utilise des méthodes statistiques et informatiques pour extraire des connaissances à partir de grandes quantités de données, tandis que les sciences de l'éducation étudient les processus d'apprentissage et les facteurs qui les influencent ; elles s'intéressent notamment aux méthodes pédagogiques, à l'efficacité de l'enseignement, à la motivation des apprenants, etc. En combinant ces deux disciplines, les learning analytics visent à appliquer les techniques d'analyse de données aux données (ou “traces”) d'apprentissage pour mieux comprendre et améliorer les processus d'apprentissage. Ceci permet d'obtenir des informations précieuses aux chercheurs, enseignants ou apprenants, en identifiant les zones de difficulté, en proposant des suggestions d'amélioration et en évaluant l'efficacité des méthodes d'enseignement.

Ainsi, on peut considérer qu'Orange est potentiellement un outil utile pour la recherche dans le domaine des learning analytics, notamment grâce à ses capacités de prétraitement de données, d'analyse exploratoire et de modélisation prédictive, soutenues par une large bibliothèque de modèles et d'algorithmes.

Un autre atout du logiciel est son accessibilité. En effet, contrairement à bon nombre de solutions concurrentes qui peuvent s'avérer onéreuses, Orange est un logiciel gratuit et open-source, ce qui le rend accessible à des chercheurs, des enseignants ou des étudiants aux budgets limités, et qui permet de démocratiser l'utilisation de tels outils. En outre, grâce à son interface graphique et le “workflow”, Orange n'est pas un outil qui nécessite de compétences en programmation ; il s'agit d'une approche orientée vers la visualisation où toute action peut être effectuée avec la souris de l'ordinateur, ce qui permet d'éviter d'exclure des utilisateurs non experts en informatique.

Enfin, Orange est un logiciel régulièrement mis à jour et utilisé par une grande communauté d'utilisateurs ; on peut aisément trouver de nombreuses ressources en ligne, telles que des tutoriels, des forums de discussion et des exemples de projets, ce qui peut faciliter l'apprentissage du logiciel et la résolution de problèmes.

En substance, Orange peut être utilisé dans le domaine des learning analytics pour aider les enseignants et les chercheurs à mieux comprendre les données d'apprentissage, à extraire des informations pertinentes et à prendre des décisions éclairées pour améliorer les processus d'apprentissage et l'expérience des apprenants.

Limites

  • Pas orienté collecte de données :

Orange est principalement un outil d'analyse de données ; il n'est ainsi pas conçu pour collecter des données d'apprentissage à proprement parler, mais il est possible d'importer des données d'apprentissage dans le logiciel pour les analyser et en tirer des informations utiles. Dès lors, il est nécessaire de recourir à d'autres outils pour procéder à l'étape fondamentale de la collecte de données.

  • Dimension généraliste :

Il existe d'autres outils plus appropriés pour la collecte et l'analyse de données d'apprentissage, tels que KTBS4LA ou Moodle. Ces outils permettent de collecter et de modéliser des données sur les performances des apprenants, leur engagement et leur interaction avec le contenu pédagogique.

  • Fonctionnalités non exhaustives :

En contrepartie de sa relative facilité d'utilisation, Orange n'est pas le logiciel de data mining le plus exhaustif en matière de fonctionnalités. Ainsi, pour des utilisateurs experts ou des besoins complexes, Orange peut s'avérer moins pertinent que d'autres logiciels tels que RapidMiner ou Knime.

  • Peu didactique en matière de statistiques :

Si Orange offre plusieurs exemples et divers tutoriels pour découvrir les fonctionnalités et apprendre à utiliser le logiciel, il est en revanche peu didactique en matière de statistiques. Des visualisations aux modélisations, de solides compétences en statistiques sont nécessaires pour comprendre et exploiter les fonctionnalités d'Orange. À moins de faire des recherches en amont, un utilisateur non expert devra ainsi procéder par essais-erreurs pour déterminer les modélisations et diagrammes adéquats pour ses données.

  • Qualité des données :

Cette réflexion s'applique à tout outil d'analyse de données. Comme le résume un célèbre adage : Garbage in, garbage out. En d'autres termes, lorsque des données sont utilisées, il est impératif de garder à l'esprit que des analyses pertinentes nécessitent des données pertinentes : “Poor data risk yielding poor (meaning inaccurate, mistaken, error-prone) results. The best strategy for avoiding this is to ensure good-quality data from the start” (Hand, 2008, cité par Kuonen, 2022).

Data is of high quality if it is fit for its intended use (by customers) in operations, analytics, decision making, and planning. To be fit for use, data must be 'free from defects' (i.e. 'right') and 'possess desired features' (i.e. be the 'right data').” (Redman, 2016, cité par Kuonen, 2022)

Ainsi, au même titre que les autres outils de data mining et de learning analytics, l'utilisation d'Orange requiert une démarche scientifique rigoureuse pour obtenir des résultats fiables et exploitables ; il faut particulièrement prêter attention à la nature des traces et au modèle théorique utilisés pour la conduite d'une analyse (Sanchez et Jaouadi, 2022).

Bibliographie

  • Kuonen, D. (2022, 20 octobre). Data Quality as a Process of Continuous Improvement [Présentation]. Comprendre le numérique : cours transversal 1. Université de Genève.
  • Sanchez, E. et Jaouadi, M. (2022, 13 décembre). Analytique de l'apprentissage (learning analytics) [Présentation]. Méthodes de recherche en technologies éducatives 1. Université de Genève.

Ressources