« Preuve de l'évolution par la comparaison de protéines chez différentes espèces » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
m (actualisée avec les modifs du serveur)
Ligne 12 : Ligne 12 :
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''gene:CFTR.'' Il faut chercher les protéines par leur nom du gène (1)  
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''gene:CFTR.'' Il faut chercher les protéines par leur nom du gène (1)  


UniProt va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprot/?query=CFTR&sort=score solution] : la liste est énorme.''  
UniProt va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprotkb?facets=reviewed%3Atrue&query=gene%3ACFTR solution] <small>(en date du 23.09.22)</small>: la liste est énorme.''  


Sélectionner les entrées "reviewed" [https://www.uniprot.org/uniprotkb?facets=reviewed%3Atrue&query=%28gene%3Ains%29&fields=accession%2Creviewed%2Cid%2Cprotein_name%2Cgene_names%2Corganism_name%2Clength&view=table solution (Insuline)] ,  [https://www.uniprot.org/uniprot/?query=gene%3Acftr&sort=score solution CFTR]   
Sélectionner les entrées "reviewed" [https://www.uniprot.org/uniprotkb?facets=reviewed%3Atrue&query=gene%3Ains solution (Insuline)] ''<small>(en date du 23.09.22)</small>'',  [https://www.uniprot.org/uniprotkb/?facets=reviewed%3Atrue&query=gene%3Acftr&sort=score solution CFTR''<small>(en date du 23.09.22)</small>'']   


''(1) N.B. : Le nom de la'' protéine  (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher une protéine par le nom de son'' gène'', car les noms de gène sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences de protéine mais la liste des noms de gènes est exhaustive. Un même gène peut parfois avoir plusieurs noms. Exemple: le gène CFTR a un synonyme : abcc7''[[Fichier:Uniprot-selected-ins-div-sp.jpg|alt=sélection de protéines dans unprot KB|vignette|
''(1) N.B. : Le nom de la'' protéine  (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher une protéine par le nom de son'' gène'', car les noms de gène sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences de protéine mais la liste des noms de gènes est exhaustive. Un même gène peut parfois avoir plusieurs noms. Exemple: le gène CFTR a un synonyme : abcc7''[[Fichier:Uniprot-selected-ins-div-sp.jpg|alt=sélection de protéines dans unprot KB|vignette|
Exemple de résultats obtenu en cherchant 'insulin' comme nom de protéine.
Exemple de résultats obtenu en cherchant 'INS' comme nom de gène.
]]
]]


Ligne 25 : Ligne 25 :
Un minimum de 5 séquences de protéine est nécessaire si l'on veut construire un alignement de séquences qui fait du sens. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]).  
Un minimum de 5 séquences de protéine est nécessaire si l'on veut construire un alignement de séquences qui fait du sens. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]).  


NB: Vérifier que le nom de gène est correct et que les séquences de protéines sélectionnées sont de longueur similaire (parfois les chercheurs ont déterminé la séquence d'une partie de la protéine seulement-  en fonction de leur étude). Ce n'est pas impossible, mais moins visuellement frappant et plus complexe à interpréter si on a une séquence bien plus courte ou plus longue.  
''NB: Vérifier que le nom de gène est correct et que les séquences de protéines sélectionnées sont de longueur similaire (parfois les chercheurs ont déterminé la séquence d'une partie de la protéine seulement-  en fonction de leur étude). Ce n'est pas impossible, mais moins visuellement frappant et plus complexe à interpréter si on a une séquence bien plus courte ou plus longue.''


Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)  
Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)  


Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer 'Add to basket',  sinon la sélection est perdue.
Les séquences sélectionnées sont marquée d'un rectangle bleu en début de ligne et leur nombre apparaît dans le bandeau bleu en haut "''21 rows selected out of 97"'' .  
 
''NB Avant de passer à la page suivante cliquer 'Add' avec l'icone d'un panier,  sinon la sélection est perdue.''


''(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer 'Clear' dans ce bandeau pour éviter qu'elles restent sélectionnées.)''
''(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer 'Clear' dans ce bandeau pour éviter qu'elles restent sélectionnées.)''


=== Construire un alignement ===
=== Construire un alignement ===
Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste.    
''NB :Effectuer une / des captures d'écran pour retrouver les noms d'espèces et pas seulement le nom d'entrée (INS_PANTR -> Pan troglodytes (Chimpanzee)''     
 
* Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Une fenêtre affiches les séquences qui seront alignées au format FASTA.     
* Cliquer le bouton en bas à droite  Align XX sequences.''En principe <sup>1</sup> ne rien toucher''        Après un certain temps (plusieurs secondes, voire minutes) une fenêtre "Tool results" apparait affichant les alignements effectués durant la session.     
 
* Cliquer "Completed" pour afficher l'alignement dans une nouvelle page.      [https://www.uniprot.org/align/clustalo-R20220923-104532-0436-44665631-p1m/overview Exemple pour CFTR] (valable 7 jours depuis le 23 09 22)   


Après un certain temps (plusieurs secondes, voire minutes) l'alignement apparait. [https://www.uniprot.org/align/A202110195BF3C56A578D7D6DFD1FC81EE5DA773000A17EL Exemple pour CFTR] (ne sera actif que temporairement)   
[[Fichier:Alignement-ins-similarity.jpg|alt=Alignement de quelques insulines de diverses espèces - similarité activée|vignette|Alignement de quelques séquences de protéine CFTR de diverses espèces - similarité activée]]
[[Fichier:Alignement-ins-similarity.jpg|alt=Alignement de quelques insulines de diverses espèces - similarité activée |vignette|Alignement de quelques séquences de protéine CFTR de diverses espèces - similarité activée ]]
Les séquences alignées sont affichées sous forme de tableau avec 60 acides aminés par ligne,   
Les séquences alignées sont affichées sous forme de tableau avec 60 acides aminés par ligne,   


Ligne 47 : Ligne 53 :


"-" (tiret) signifie que le programme d'alignement a introduit un espace (insertion/délétion ou "gap") pour pouvoir aligner des séquences de différentes longueurs.  
"-" (tiret) signifie que le programme d'alignement a introduit un espace (insertion/délétion ou "gap") pour pouvoir aligner des séquences de différentes longueurs.  
1 On peut toutefois modifier la première ligne pour chaque espèce afin  de mettre le nom d'espèce en premier plutôt que le code : par exemple 
>sp|P67970|INS_CHICK OS=Gallus gallus OX=9031 GN=INS PE=1 SV=1 
>sp|P67970|Gallus gallus OX=9031 GN=INS PE=1 SV=1   


Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> une nouvelle fenêtre s'ouvre avec l'entrée UniProtKB correspondant à cette protéine et le nom complet de l'espèce.   
Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> une nouvelle fenêtre s'ouvre avec l'entrée UniProtKB correspondant à cette protéine et le nom complet de l'espèce.   

Version du 23 septembre 2022 à 12:07

Preuve de l'évolution par comparaison des séquences de protéine chez différentes espèces

Procédure

Trouver les séquences de la protéine CFTR chez plusieurs espèces dans la banque de données UniProtKB

UniProtKB est une banque de données qui contient toutes les séquences de protéine répertoriées à partir des données publiques (~230 millions de protéines).

N.B. : pour étudier l'évolution, on utilise souvent des séquences de protéine : elles sont plus pertinentes du point de vue évolutif.

Ici nous travaillons avec la protéine CFTR, qui cause la mucoviscidose quand elle est défectueuse, mais d'autres protéines peuvent être employées (cf liste d'exemples)

Aller sur UniProtKB dans Query taper gene:CFTR. Il faut chercher les protéines par leur nom du gène (1)

UniProt va chercher toutes les entrées dans lesquelles on trouve le terme CFTR solution (en date du 23.09.22): la liste est énorme.

Sélectionner les entrées "reviewed" solution (Insuline) (en date du 23.09.22), solution CFTR(en date du 23.09.22)

(1) N.B. : Le nom de la protéine (cf liste d'exemples) diffère souvent du nom du gène. Il vaut mieux chercher une protéine par le nom de son gène, car les noms de gène sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences de protéine mais la liste des noms de gènes est exhaustive. Un même gène peut parfois avoir plusieurs noms. Exemple: le gène CFTR a un synonyme : abcc7

sélection de protéines dans unprot KB
Exemple de résultats obtenu en cherchant 'INS' comme nom de gène.

Sélectionner la même protéine chez plusieurs organismes

Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent.

Un minimum de 5 séquences de protéine est nécessaire si l'on veut construire un alignement de séquences qui fait du sens. (cf liste d'exemples).

NB: Vérifier que le nom de gène est correct et que les séquences de protéines sélectionnées sont de longueur similaire (parfois les chercheurs ont déterminé la séquence d'une partie de la protéine seulement- en fonction de leur étude). Ce n'est pas impossible, mais moins visuellement frappant et plus complexe à interpréter si on a une séquence bien plus courte ou plus longue.

Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)

Les séquences sélectionnées sont marquée d'un rectangle bleu en début de ligne et leur nombre apparaît dans le bandeau bleu en haut "21 rows selected out of 97" .

NB Avant de passer à la page suivante cliquer 'Add' avec l'icone d'un panier, sinon la sélection est perdue.

(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer 'Clear' dans ce bandeau pour éviter qu'elles restent sélectionnées.)

Construire un alignement

NB :Effectuer une / des captures d'écran pour retrouver les noms d'espèces et pas seulement le nom d'entrée (INS_PANTR -> Pan troglodytes (Chimpanzee)

  • Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Une fenêtre affiches les séquences qui seront alignées au format FASTA.
  • Cliquer le bouton en bas à droite Align XX sequences.En principe 1 ne rien toucher Après un certain temps (plusieurs secondes, voire minutes) une fenêtre "Tool results" apparait affichant les alignements effectués durant la session.
  • Cliquer "Completed" pour afficher l'alignement dans une nouvelle page. Exemple pour CFTR (valable 7 jours depuis le 23 09 22)
Alignement de quelques insulines de diverses espèces - similarité activée
Alignement de quelques séquences de protéine CFTR de diverses espèces - similarité activée

Les séquences alignées sont affichées sous forme de tableau avec 60 acides aminés par ligne,

une étoile "*" signifie identité ( dans la colonne) pour toutes les séquences alignées.

":" signifie acides aminés qui ont des propriétés physico-chimiques très similaires,

"." signifie acides aminés qui ont des propriétés physico-chimiques similaires,

"-" (tiret) signifie que le programme d'alignement a introduit un espace (insertion/délétion ou "gap") pour pouvoir aligner des séquences de différentes longueurs.

1 On peut toutefois modifier la première ligne pour chaque espèce afin de mettre le nom d'espèce en premier plutôt que le code : par exemple

>sp|P67970|INS_CHICK OS=Gallus gallus OX=9031 GN=INS PE=1 SV=1

>sp|P67970|Gallus gallus OX=9031 GN=INS PE=1 SV=1

Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> une nouvelle fenêtre s'ouvre avec l'entrée UniProtKB correspondant à cette protéine et le nom complet de l'espèce.

Pour aller plus loin

Cocher la case "Similarity" dans la colonne de gauche : on peut observer que certaines régions sont plus conservées que d'autres.

Cocher la case "Transmembrane" : on peut observer des régions susceptibles d'être transmembranaires

Cocher la case "Natural Variant" : on peut observer les acides aminés susceptibles de différer dans la population humaine (SNP, … )

Cocher la case "DNA Binding" : si une telle région est présente dans la séquence de la protéine, on peut observer ces régions susceptibles de se lier à l'ADN

Compléments et questions possibles

Les propriétés physico-chimiques des différents acides aminés sont décrites ici

Un tableau de correspondance des codes à 3 lettres et à1 lettre des acides aminés et des codons est accessible ici .

Un arbre … phylogénétique ?

L'arbre produit et visible en dessous de l'alignement est appelé un guided tree . Il est utilisé  par le programme  pour construire l'alignement et est basé uniquement sur les différences observées entre les séquences. Il ne s'agit pas d'un arbre phylogénétique: un arbre phylogénétique est beaucoup plus complexe à établir ! Voir par exemple le scénario SIB-3. Phylogénie, biodiversité et pizza ...

Voir aussi Trouver la date de divergence évolutive de deux espèces

D'autres questions possibles :

  • Trouver les organismes les plus proches de ( humain, souris, vache, ...) pour chacune des protéines étudiées par la classe. Essayer de trouver une autre explication que l’origine commune et l'évolution indépendante depuis la séparation.
  • Pourquoi utiliser les séquences ''protéiques'' plutôt que nucléotides dans ce contexte évolutif ?
  • Y a-t-il des séquences qui sont similaires chez un grand nombre d'organismes ?
  • Constater que les séquences de l'insuline, de l'EPO, d'une Histone, de CFTR, etc. sont très similaires chez de nombreuses espèces : on peut aider les élèves à y voir l'expression de cette unicité fondamentale?
  • L'insuline varie dans bien des régions, alors que l'Histone (H4) est presque identique entre de très nombreux organismes.On peut discuter la pression de sélection qui a éliminé tous les organismes dont l'histone n'était pas à même de remplir ses fonctions dans l'enroulement et la régulation de l'ADN.
  • Est-ce que des séquences similaires entre un grand nombre d'organismes indiquent qu'il n'y a pas de mutations à ces endroits-là ?
  • Demander aux élèves de rechercher l'époque où se sont séparés les espèces étudiées et comparer avec l'arbre obtenu. Il n'y a pas de site proposant cela mais une recherche sur internet permet souvent de trouver une estimation du dernier ancêtre commun entre deux espèces.
Reférences

Scénario établi sur la base des indications scientifiques de M.-C. Blatter du SIB

Retour à Bioinformatique : opportunités pour l’enseignement