« Preuve de l'évolution par la comparaison de protéines chez différentes espèces » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
m (clean un edit)
m (corrections syntaxes)
Ligne 1 : Ligne 1 :
== Preuve de l'évolution par la comparaison de ''séquences de'' protéines chez différentes espèces ==
== Preuve de l'évolution par comparaison des ''séquences de'' protéines chez différentes espèces ==


== Procédure ==
== Procédure ==
Ligne 6 : Ligne 6 :
''UniProtKB contient toutes les protéines répertoriées à partir des données publiques (~180 millions début 2020).''
''UniProtKB contient toutes les protéines répertoriées à partir des données publiques (~180 millions début 2020).''


N. B. : En principe on utilise les séquences protéiques : elles sont plus pertinentes du point de vue évolutif (phénotype). Ici nous travaillons avec la CFTR qui cause la mucoviscidose quand elle est défectueuse, mais d'autres  protéines peuvent être employées (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples])
N. B. : En principeon utilise les séquences de protéine : elles sont plus pertinentes du point de vue évolutif (phénotype). Ici nous travaillons avec la protéine CFTR qui cause la mucoviscidose quand elle est défectueuse, mais d'autres  protéines peuvent être employées (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples])


Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''CFTR.'' Il faut taper le nom du gène ( même si c'est une base de protéines : )  
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''CFTR.'' Il faut chercher par nom du gène (même si c'est une banque de données de protéines : ))  


Uniprot va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprot/?query=CFTR&sort=score solution] : la liste est énorme.''  
UniProt va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprot/?query=CFTR&sort=score solution] : la liste est énorme.''  


''Cliquer Restrict term  to ....Protein name et cliquer Filter by puis "reviewed" [http://www.uniprot.org/uniprot/?query=%28name%3Ainsulin%29+AND+reviewed%3Ayes solution (Insuline)] ,  [https://www.uniprot.org/uniprot/?query=cftr&columns=id%2Centry%20name%2Creviewed%2Cprotein%20names%2Cgenes%2Corganism%2Clength&sort=score solution CFTR] NB: le gène a un synonyme abcc7''   
''Cliquer Restrict term  to ....Gene name et cliquer Filter by puis "reviewed" [http://www.uniprot.org/uniprot/?query=%28name%3Ainsulin%29+AND+reviewed%3Ayes solution (Insuline)] ,  [https://www.uniprot.org/uniprot/?query=cftr&columns=id%2Centry%20name%2Creviewed%2Cprotein%20names%2Cgenes%2Corganism%2Clength&sort=score solution CFTR] NB: le gène CFTR a un synonyme : abcc7''   


''N.B. Le nom de la'' protéine  (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher par le nom du'' gène ''pour retrouver une protéine. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences protéiques mais la liste des noms de gènes est toutefois exhaustive.''[[Fichier:Uniprot-selected-ins-div-sp.jpg|alt=sélection de protéines dans unprot KB|vignette]]
''N.B. Le nom de la'' protéine  (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher par le nom du'' gène ''pour retrouver une protéine, car les noms de gènes sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences protéiques mais la liste des noms de gènes est exhaustive.''[[Fichier:Uniprot-selected-ins-div-sp.jpg|alt=sélection de protéines dans unprot KB|vignette]]


=== Sélectionner la même protéine chez plusieurs organismes  ===
=== Sélectionner la même protéine chez plusieurs organismes  ===
Sélectionner (cocher) dans cette liste les insulines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite former un alignement de séquences raisonnable. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples])
Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite construire un alignement de séquences qui fait du sens. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]). Vérifier que le nom de gène est correct et que les séquences de protéines sont de longueur similaire.


Afficher un grand nombre d'entrées en modifiant "Show" en bas du tableau ( p. ex 50, voire 100)  
Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)  


Les séquences son surlignées de jaune et leur nombre dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket  sinon on perd la sélection.
Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket, sinon la sélection est perdue.


(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles restent sélectionnées.)
(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles restent sélectionnées.)
Si on veut passer à la page suivante il faut mettre ces séquences dans le panier


=== Produire un alignement ===
=== Produire un alignement ===

Version du 30 mars 2020 à 11:59

Preuve de l'évolution par comparaison des séquences de protéines chez différentes espèces

Procédure

Trouver les entrées pour insuline de plusieurs espèces dans la banque de données UniProtKB

UniProtKB contient toutes les protéines répertoriées à partir des données publiques (~180 millions début 2020).

N. B. : En principe, on utilise les séquences de protéine : elles sont plus pertinentes du point de vue évolutif (phénotype). Ici nous travaillons avec la protéine CFTR qui cause la mucoviscidose quand elle est défectueuse, mais d'autres protéines peuvent être employées (cf liste d'exemples)

Aller sur UniProtKB dans Query taper CFTR. Il faut chercher par nom du gène (même si c'est une banque de données de protéines : ))

UniProt va chercher toutes les entrées dans lesquelles on trouve le terme CFTR solution : la liste est énorme.

Cliquer Restrict term to ....Gene name et cliquer Filter by puis "reviewed" solution (Insuline) , solution CFTR NB: le gène CFTR a un synonyme : abcc7

N.B. Le nom de la protéine (cf liste d'exemples) diffère souvent du nom du gène. Il vaut mieux chercher par le nom du gène pour retrouver une protéine, car les noms de gènes sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences protéiques mais la liste des noms de gènes est exhaustive.

sélection de protéines dans unprot KB

Sélectionner la même protéine chez plusieurs organismes

Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite construire un alignement de séquences qui fait du sens. (cf liste d'exemples). Vérifier que le nom de gène est correct et que les séquences de protéines sont de longueur similaire.

Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)

Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket, sinon la sélection est perdue.

(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles restent sélectionnées.)

Produire un alignement

Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Après un temps (plusieurs secondes, voire minutes) l'alignement apparait.

Alignement de quelques insulines de diverses espèces - similarité activée
Alignement de quelques CFTR de diverses espèces - similarité activée

Les séquences alignées sont affichées sous forme de tableau avec 60 a.a. par ligne, une étoile "*" signifie identité ( dans la colonne) pour toutes les séquences alignées. ":" signifie acides aminées qui ont des propriétés physico-chimiques très similaires, "." signifie acides aminées qui ont des propriétés physico-chimiques similaires, un "-" signifie que le le programme d'alignement a introduit un espace ("gap") pour aligner avec des séquences plus longues.

Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> ouvre la fenêtre de cette protéine avec le nom complet de l'espèce.

Pour aller plus loin

Cocher la case "Similarity" dans la colonne de gauche : on peut observer que certaines zones sont plus conservées.

Cocher la case "Transmembrane" : on peut observer des zones susceptibles d'être transmembranaires

Cocher la case "Natural Variant" : on peut observer des zones susceptibles de différer dans la population humaine (SNP, … )

Cocher la case "DNA Binding" : Lorsque c'est pertinent, on peut observer des zones susceptibles de se lier à l'ADN

Compléments

Les propriétés chimiques des différents a.a. sont décrites ici

Un tableau de correspondance des codes à 3 lettres et à1 lettre et codons accessible ici .

Un arbre phyogénétique ?

L'arbre produit en dessous est un 'guided tree'  utilisé  par le programme  pour construire l'alignement, construit seulement sur la base des différences entre les  séquences. Ce n'est pas un arbre phylogénétique plus complexe à établir.

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

Scénarios pédagogiques où il peut s'intégrer

Retour à Bioinformatique : opportunités pour l’enseignement