« Preuve de l'évolution par la comparaison de protéines chez différentes espèces » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
m (temporaire save)
m (mise au point en cours)
Ligne 1 : Ligne 1 :
== Preuve de l'évolution par la comparaison de protéines chez différentes espèces ==
== Preuve de l'évolution par la comparaison de ''séquences de'' protéines chez différentes espèces ==


== Procédure ==
== Procédure ==


==== 1Trouver les entrées pour ''insuline'' de plusieurs espèces     dans la banque de données UniProt ====
==== 1Trouver les entrées pour ''insuline'' de plusieurs espèces dans la banque de données UniProtKB ====
<nowiki>http://tecfa.unige.ch/perso/lombardf/bist/scenario5/index.html</nowiki>
N. B. : En principe on utilise les séquences protéiques : elles sont plus pertinentes du point de vue évolutif (phénotype). Ici nous travaillons avec l'insuline, mais d'autres  protéines peuvent être employées (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples])


N. B. : En principe on utilise les        séquences protéiques : elles sont plus pertinentes du point de        vue évolutif (phénotype)
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''insulin.'' Si on écrit en français il ''p''ropose "Did you mean: insulin ": cliquer le terme en anglais.
N. B. : Ici nous travaillons avec l'insuline, mais d'autres      protéines peuvent être employées (cf liste        d'exemples)
Aller sur UniProt dans Query taper ''insuline.       L'outil'' propose "Did you mean: insulin     ": cliquer le terme en anglais.


''UniProt contient toutes les         protéines répertoriées à partir des données publiques (~8          millions ). Les pseudogènes ne sont donc pas répertoriés (ne          produisent pas de protéine), ni les protéines qui n'ont pas          été étudiées ou qui sont sous brevet.''
''UniProtKB contient toutes les protéines répertoriées à partir des données publiques (~180 millions début 2020).''  
Il va chercher toutes les entrées dans lesquelles on trouve le terme    ''insulin solution : la      liste est énorme.''
''Cliquer Restrict term "insulin" to        ....Protein name et cliquer "Show only reviewed" (filter by dans        la nouvelle version) solution,''


''N.B. Le nom de la protéine''        (cf liste         d'exemples) ''diffère souvent du nom du          gène. Il faut parfois chercher par le nom du gène pour          retrouver le nom de la protéine, ou l'inverse. Mais UniProt          est une base de protéines la suite du traitement se fait sur          les séquences protéiques.''  
va chercher toutes les entrées dans lesquelles on trouve le terme ''insulin [http://www.uniprot.org/uniprot/?query=insulin&sort=score solution] : la liste est énorme.''


En haut de la liste : l'entrée pour l'insuline      humaine INS_HUMAN : P01308 Solution.
''Cliquer Restrict term "insulin" to ....Protein name et cliquer Filter by puis "reviewed" [http://www.uniprot.org/uniprot/?query=%28name%3Ainsulin%29+AND+reviewed%3Ayes solution],''


->Une variante pour les avancés est de chercher      les protéines homologues sur la base de leur similarité de      séquence (Blast)
''N.B. Le nom de la'' protéine  (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il faut parfois chercher par le nom du'' gène ''pour retrouver le nom de la protéine, ou l'inverse. M . UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences protéiques mais la liste des noms de gènes est toutefois exhaustive.''
 
En haut de la liste : l'entrée pour l'insuline     humaine INS_HUMAN : P01308 [http://www.uniprot.org/uniprot/P01308 Solution].


=== 2° Afficher les données pertinentes ===
=== 2° Afficher les données pertinentes ===
Cliquer "Customize display" et sélectionner     les données dont on souhaite l'affichage : p. ex. Organism,     Protein Names, Gene Names, Sequence.
Cliquer "Customize display" et sélectionner les données dont on souhaite l'affichage : p. ex. Organism, Protein Names, Gene Names, Sequence.


=== 3° Sélectionner la même protéine chez plusieurs organismes : ===
=== 3° Sélectionner la même protéine chez plusieurs organismes : ===
Sélectionner (cocher) dans cette liste les     insulines des espèces qui vous intéressent. Un minimum de 5 est     nécessaire si l'on veut ensuite former un arbre raisonnable.
Sélectionner (cocher) dans cette liste les insulines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite former un alignement de séquences raisonnable.


Les séquences apparaissent dans le bandeau vert      en bas, sur la gauche.
Les séquences apparaissent dans le bandeau vert      en bas, sur la gauche.


(N.B: si on avait sélectionné d'autres séquences     avant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles      restent sélectionnées.)
(N.B: si on avait sélectionné d'autres séquences   avant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles      restent sélectionnées.)


=== 4° Produire un alignement ===
=== 4° Produire un alignement ===

Version du 26 mars 2020 à 18:39

Preuve de l'évolution par la comparaison de séquences de protéines chez différentes espèces

Procédure

1Trouver les entrées pour insuline de plusieurs espèces dans la banque de données UniProtKB

N. B. : En principe on utilise les séquences protéiques : elles sont plus pertinentes du point de vue évolutif (phénotype). Ici nous travaillons avec l'insuline, mais d'autres protéines peuvent être employées (cf liste d'exemples)

Aller sur UniProtKB dans Query taper insulin. Si on écrit en français il propose "Did you mean: insulin ": cliquer le terme en anglais.

UniProtKB contient toutes les protéines répertoriées à partir des données publiques (~180 millions début 2020).

va chercher toutes les entrées dans lesquelles on trouve le terme insulin solution : la liste est énorme.

Cliquer Restrict term "insulin" to ....Protein name et cliquer Filter by puis "reviewed" solution,

N.B. Le nom de la protéine (cf liste d'exemples) diffère souvent du nom du gène. Il faut parfois chercher par le nom du gène pour retrouver le nom de la protéine, ou l'inverse. M . UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences protéiques mais la liste des noms de gènes est toutefois exhaustive.

En haut de la liste : l'entrée pour l'insuline humaine INS_HUMAN : P01308 Solution.

2° Afficher les données pertinentes

Cliquer "Customize display" et sélectionner les données dont on souhaite l'affichage : p. ex. Organism, Protein Names, Gene Names, Sequence.

3° Sélectionner la même protéine chez plusieurs organismes :

Sélectionner (cocher) dans cette liste les insulines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite former un alignement de séquences raisonnable.

Les séquences apparaissent dans le bandeau vert en bas, sur la gauche.

(N.B: si on avait sélectionné d'autres séquences avant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles restent sélectionnées.)

4° Produire un alignement

Cliquer le bouton Align à droite du bandeau vert en bas de l'écran.

cocher la case "Similarity" dans la colonne de droite

les séquences alignées sont affichées et on voit bien que certaines zones sont plus conservées.

Une étoile signifie identité ( dans la colonne) pour toutes les séquences alignées, : signifie acides aminées qui ont des propriétés physico-chimiques très similaires, "." signifie acides aminées qui ont des propriétés physico-chimiques similaires, un "-" signifie que le le programme d'alignement a introduit un espace ("gap") pour aligner avec des séquences plus longues

Les propriétés chimiques des différents a.a. sont décrites ici Un tableau des codes à 3 lettres et à1 lettre et codons.

Pour pouvoir retrouver les noms d'espèce (comme dans l'image ci-dessus où on a édité les données avant d'aligner) on peut imprimer ou copier-coller le tableau - plus haut dans la même page - donnant les noms des espèces en rapport avec le numéro d'accession.


Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

Scénarios pédagogiques où il peut s'intégrer

Retour à Bioinformatique : opportunités pour l’enseignement