Gephi

De EduTech Wiki
Aller à : navigation, rechercher
Analytique et exploration de données
à améliorer débutant
2015/09/04 ⚒⚒ 2014/11/19
Catégorie: Visualisation

1 Introduction

Logo de Gephi

Gephi

Gephi est une plate-forme d'exploration qui permet une visualisation interactive des données pour l'analyse de tous types de réseaux et systèmes complexes, dynamiques et graphiques hiérarchiques. Gephi est un logiciel de style open-source donc gratuit, écrit en Java et qui fonctionne sur Windows, Linux et Mac OS X. Il utilise un moteur de rendu 3D afin d'obtenir une architecture flexible des données observables dans l'espace et grâce aux résultats visuels qu'il génère et apporte de nouvelles possibilités de travail.


2 Présentation

Le but de Gephi est de mettre en évidence les principaux aspects d'un réseau grâce à la visualisation dynamique, ce qui permet d'obtenir une nouvelle forme d'exploration graphique des données. Le logiciel utilise les données visuelles en tirant parti des capacités perceptives de l'homme à trouver les caractéristiques de la structure d'un réseau. Il est alors possible en un coup d’œil, de faire comprendre de manière relativement aisée et rapide les réseaux mêmes complexes comportant un grand nombre de données.

En utilisant l'espace tridimensionnel (x, y, z), Gephi nous permet donc de présenter et d'explorer diverses données sous formes de nuages dans l'espace composés de points reliés entre eux que l'on nomme "nœuds" et "liens". Ces points issus de bases de données sont des sources d'informations que l'utilisateur veut pouvoir relier entre elles et pouvoir également les visualiser sous plusieurs angles selon son approche. Gephi permet d'accéder facilement à des données de réseau et les manipuler dans l'espace, les filtrer, naviguer avec et les regrouper grâce à des outils d'exploration. Ainsi, il est possible de colorer certaines données selon leurs liens logiques, voir leurs appellations en zoomant, appliquer des algorithmes de façon à exacerber certains liens pour faire ressortir des données plutôt que d'autres, etc. Les possibilités de Gephi sont multiples et laisse le choix à l'utilisateur d'aborder ses données selon ses exigences et sa créativité.

L'interface de Gephi est disponible en français, espagnol, japonais, brésilien, russe, chinois, polonais et tchèque.

3 Caractéristiques clés de Gephi

  • Utiliser des données provenant de réseaux complexes et denses (p.ex. facebook, twitter, etc.)
  • Utiliser des données importées de bases de données spécifiques (Pilotes : MySQL, SQL Server, PostgreSQL, SQLite, Teradata)
  • Importer des fichiers CSV
  • Exporter des données sous divers formats (.pdf, .png, .svg)
  • Visualisation attractive des données
  • Création régulière de nouveaux plugins

4 Plugins proposés par Gephi

Gephi propose différentes extensions (plugins) permettant la visualisation de données dont le développement est constant. Ces plugins sont en fait des algorithmes, qui vont permettre de traiter les données en modifiant la vision des rapports entre les noeuds et les liens. Ces algorithmes sont un procédé pour faire ressortir les particularités qu'on veut mettre en lumière (p.ex. isoler un groupe).
Gephi propose donc quatre grands types de plugins afin de visualiser les données sous différents angles et selon le contexte étudié :

  • La mise en avant des divisions avec "OpenOrd"
  • La mise en avant des complémentarité avec "Force Atlas", "Yifan Hu", "Fruchterman Reingold"
  • La mise en avant d'un classement avec "Circular", "Radial Axis"
  • La répartition géographique avec "GeoLayout"

On peut télécharger d'autres plugins sur :

5 Présentation de l'interface

5.1 Interface d'accueil

L'interface d'accueil propose à l'utilisateur de créer un nouveau projet ou bien des exemples de modélisation de graphes de données complexes. Dans le menu, il est possible de gérer les fichiers, l'espace de travail, la vue, les outils, la fenêtre, les plugins (extensions) et pour finir, une fonction aide.
Une fenêtre blanche prête à l'emploi occupe la majorité de l'écran et correspond à l'espace de visualisation appelé "vue d'ensemble". Sur le côté gauche de l'écran, se situent les paramètres d'aperçu. Grâce à eux, il est possible d'effectuer les réglages au niveau du design des nœuds (largeur, couleur, etc.), des labels de nœud (police, taille, couleur, nombre de caractères, etc.), des liens (affichés ou non, épaisseur, couleur, etc.), de la taille des flèches de liens et des labels de lien. Cette interface par défaut peut être modifiée selon d'autres critères de base (couleur de l'arrière plan, liens droits ou courbés, etc.).

5.2 Interface générale

A côté de la vue d'ensemble, il y a le "laboratoire de données". C'est sous cette interface que les données vont être traitées avant d'être visualisées. La création et le traitement des liens, des nœuds, etc. Un tableau de données peut être créé pour insérer les données dans des colonnes modifiables et selon leur propiétés "source" ou "target" au niveau des liens et des noeuds.
Enfin, un dernier onglet "prévisualisation" permet de voir le résultat futur de la manipulation des données en temps réel avant d'être sûr de vouloir valider son choix.

exemple de modélisation

6 Développeurs de Gephi

Gephi est un logiciel créé en 2008 par une équipe de 5 ingénieurs en informatique :

  • Mathieu Bastian
  • Sebastien Heymann
  • Julian Blicke
  • Mathieu Jacomy
  • Franck Ghitalla

7 Tutoriel

Première utilisation : La spatialisation des données

Avoir un fichier CSV à 2 colonnes (Attention : pour les valeurs qui contiennent un espace, il faut mettre l’ensemble entre guillemets). Nous pouvons par exemple charger les contacts d’une boîte e-mail (pour ce faire, une marche à suivre est présentée sous ce lien : https://motorola-global-ca-fr.custhelp.com/app/answers/detail/a_id/51198).

Dans la fenêtre de chargement, on peut choisir si le graphe est dirigé ou non. Dans le cas d’un graphe dirigé, la spatialisation affiche alors des flèches pour la représentation des liens.

L’interface :

Voilà le rendu quand Gephi est ouvert et qu'un fichier de données a été chargé.



Nous pouvons donc ensuite cliquer sur « vue d’ensemble » ou « prévisualisation » pour obtenir une spatialisation des contacts.



Sur l’écran à gauche, nous pouvons choisir les paramètres soit selon les « degrés », c’est-à-dire selon l’importance du nœud principal, il est possible de changer la couleur et l’étendue des nœuds, soit selon la « modularité de la classe », c’est-à-dire au niveau de la différenciation des groupes dans la spatialisation. Dans la fenêtre, il est indiqué la proportion des groupes en pourcentage. Il y a la possibilité de gérer le groupement et d’obtenir un graphique.

En dessous, nous pouvons choisir quel type de spatialisation nous désirons utiliser selon notre objectif de mettre en évidence certains éléments par rapport à d’autres. Différents algorithmes sont alors proposés. Les plus utilisés sont les « force Atlas » et « Fruchterman Reingold ». Les algorithmes vont selon leurs propriétés propres, nous permettre de contrôler la répartition des nœuds dans l’espace. Nous pouvons par exemple montrer une équidistance entre les nœuds ou non. En définitive, ils nous permettent de réaliser des spatialisations des données de manière à choisir quels sont les éléments qui vont être saillants. Pour activer les algorithmes, il suffit donc d’en choisir un, puis de cliquer sur le bouton « exécuter » juste en dessous. Dès que le type de spatialisation nous convient, il suffit d’arrêter l’algorithme en cliquant sur le même bouton. Dans le cas contraire, l’algorithme continue à affiner ses calcules et la forme de la représentation ne cesse de changer.

A droite de l’écran, nous avons le « contexte », qui nous indique le nombre de nœuds et de liens. Juste en dessous, nous avons un onglet nommé : « statistiques », qui grâce aux valeurs introduites, vont nous proposer une « vue général du réseau ». Cela peut indépendamment nous donner des graphiques au niveau du « degré », de la « modularité », des « composantes connexes », etc. On peut aussi réaliser des graphiques au niveau de la « vue générale des nœuds », avec le « coefficient de clustering » et au niveau de la « vue générale des liens », avec « Plus courts chemins ». A côté, nous avons un onglet « Filtres ». A l’intérieur, nous disposons d’une série de filtres que l’on peut « drag and drop » dans la fenêtre juste en dessous et activer en cliquant sur le bouton correspondant dans ladite fenêtre.

En bas de l’écran, nous avons la barre d’outils suivants : Afficher/désactiver l’affichage du nom des nœuds ; Régler l’épaisseur des liens ; Modifier la taille des caractères des labels.

8 Références (Bibliographie et liens)