« Preuve de l'évolution par la comparaison de protéines chez différentes espèces » : différence entre les versions
m (corrections syntaxes) |
(corrections de syntaxes 2) |
||
Ligne 1 : | Ligne 1 : | ||
== Preuve de l'évolution par comparaison des | == Preuve de l'évolution par comparaison des séquences de protéine chez différentes espèces == | ||
== Procédure == | == Procédure == | ||
==== Trouver les | ==== Trouver les séquences de la protéine CFTR chez plusieurs espèces dans la banque de données UniProtKB ==== | ||
''UniProtKB contient toutes les | ''UniProtKB est une banque de données qui contient toutes les séquences de protéine répertoriées à partir des données publiques (~180 millions de protéines - début 2020).'' | ||
N. B. : | N.B. : pour étudier l'évolution, on utilise souvent des séquences de protéine : elles sont plus pertinentes du point de vue évolutif (phénotype). | ||
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''CFTR.'' Il faut chercher par nom du gène ( | Ici nous travaillons avec la protéine CFTR, qui cause la mucoviscidose quand elle est défectueuse, mais d'autres protéines peuvent être employées (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) | ||
Aller sur [https://www.uniprot.org/ UniProtKB] dans Query taper ''CFTR.'' Il faut chercher les protéines par leur nom du gène (1) | |||
UniProt va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprot/?query=CFTR&sort=score solution] : la liste est énorme.'' | UniProt va chercher toutes les entrées dans lesquelles on trouve le terme ''CFTR [https://www.uniprot.org/uniprot/?query=CFTR&sort=score solution] : la liste est énorme.'' | ||
Cliquer Restrict term to ....Gene name et cliquer Filter by puis "reviewed" [http://www.uniprot.org/uniprot/?query=%28name%3Ainsulin%29+AND+reviewed%3Ayes solution (Insuline)] , [https://www.uniprot.org/uniprot/?query=cftr&columns=id%2Centry%20name%2Creviewed%2Cprotein%20names%2Cgenes%2Corganism%2Clength&sort=score solution CFTR] | |||
''N.B. Le nom de la'' protéine (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher par le nom | ''(1) N.B. : Le nom de la'' protéine (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]) ''diffère souvent du nom du'' gène''. Il vaut mieux chercher une protéine par le nom de son'' gène'', car les noms de gène sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences de protéine mais la liste des noms de gènes est exhaustive. Un même gène peut parfois avoir plusieurs noms. Exemple: le gène CFTR a un synonyme : abcc7''[[Fichier:Uniprot-selected-ins-div-sp.jpg|alt=sélection de protéines dans unprot KB|vignette| | ||
Exemple de résultats obtenu en cherchant 'insulin' comme nom de protéine. | |||
]] | |||
=== Sélectionner la même protéine chez plusieurs organismes === | === Sélectionner la même protéine chez plusieurs organismes === | ||
Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent. Un minimum de 5 est nécessaire si l'on veut ensuite construire un alignement de séquences qui fait du sens. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]). Vérifier que le nom de gène est correct et que les séquences de protéines sont de longueur similaire. | Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent. | ||
Un minimum de 5 est nécessaire si l'on veut ensuite construire un alignement de séquences qui fait du sens. (cf [http://education.expasy.org/cours/Outreach/FLO/Liste_prot_evol.html liste d'exemples]). | |||
Vérifier que le nom de gène est correct et que les séquences de protéines sont de longueur similaire. | |||
Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100) | Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100) | ||
Ligne 23 : | Ligne 31 : | ||
Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket, sinon la sélection est perdue. | Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket, sinon la sélection est perdue. | ||
(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer Clear dans ce bandeau pour éviter qu'elles restent sélectionnées.) | ''(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer 'Clear' dans ce bandeau pour éviter qu'elles restent sélectionnées.)'' | ||
=== | === Construire un alignement === | ||
Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Après un temps (plusieurs secondes, voire minutes) l'alignement apparait. | Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Après un temps (plusieurs secondes, voire minutes) l'alignement apparait. | ||
[[Fichier:Alignement-ins-similarity.jpg|alt=Alignement de quelques insulines de diverses espèces - similarité activée |vignette|Alignement de quelques CFTR de diverses espèces - similarité activée ]] | [[Fichier:Alignement-ins-similarity.jpg|alt=Alignement de quelques insulines de diverses espèces - similarité activée |vignette|Alignement de quelques séquences de protéine CFTR de diverses espèces - similarité activée ]] | ||
Les séquences alignées sont affichées sous forme de tableau avec 60 | Les séquences alignées sont affichées sous forme de tableau avec 60 acides aminés par ligne, | ||
une étoile "*" signifie '''identité''' ( dans la colonne) pour '''toutes les séquences alignées'''. | |||
":" signifie acides aminées qui ont des propriétés physico-chimiques '''très''' similaires, | |||
"." signifie acides aminées qui ont des propriétés physico-chimiques '''similaires''', | |||
un "-" signifie que le le programme d'alignement a introduit un espace ("gap") pour pouvoir aligner des séquences de différentes longueurs. | |||
Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> ouvre la fenêtre de cette protéine avec le nom complet de l'espèce. | Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> ouvre la fenêtre de l'entrée UniProtKB correspondant à cette protéine avec le nom complet de l'espèce. | ||
'''Pour aller plus loin''' | '''Pour aller plus loin''' | ||
Cocher la case "Similarity" dans la colonne de gauche : on peut observer que certaines | Cocher la case "Similarity" dans la colonne de gauche : on peut observer que certaines régions sont plus conservées que d'autres. | ||
Cocher la case "Transmembrane" : on peut observer des | Cocher la case "Transmembrane" : on peut observer des régions susceptibles d'être transmembranaires | ||
Cocher la case "Natural Variant" : on peut observer | Cocher la case "Natural Variant" : on peut observer les acides aminés susceptibles de différer dans la population humaine (SNP, … ) | ||
Cocher la case "DNA Binding" : | Cocher la case "DNA Binding" : si une telle région est présente dans la séquence de la protéine, on peut observer ces régions susceptibles de se lier à l'ADN | ||
'''Complément'''s | '''Complément'''s | ||
Les propriétés chimiques des différents a.a. sont décrites [http://tecfa.unige.ch/perso/lombardf/bist/ressources/proprietes-chimiques-des-aa.pdf ici] | Les propriétés physico chimiques des différents a.a. sont décrites [http://tecfa.unige.ch/perso/lombardf/bist/ressources/proprietes-chimiques-des-aa.pdf ici] | ||
Un tableau de correspondance des codes à 3 lettres et à1 lettre et codons accessible [https://tecfa.unige.ch/perso/lombardf/calvin/teaching/abbreviations-aa-1-lettre.html ici] . | Un tableau de correspondance des codes à 3 lettres et à1 lettre des acides aminés et des codons est accessible [https://tecfa.unige.ch/perso/lombardf/calvin/teaching/abbreviations-aa-1-lettre.html ici] . | ||
'''Un arbre phyogénétique ?''' | '''Un arbre phyogénétique ?''' | ||
L'arbre produit en dessous est un 'guided tree' utilisé par le programme pour construire l'alignement | L'arbre produit et visible en dessous de l'alignement est appelé un 'guided tree' . Il est utilisé par le programme pour construire l'alignement et est basé uniquement sur les différences observées entre les séquences. Il ne s'agit pas d'un arbre phylogénétique: un arbre phylogénétique est beaucoup plus complexe à établir ! | ||
== ''Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe '' == | == ''Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe '' == | ||
Version du 30 mars 2020 à 13:25
Preuve de l'évolution par comparaison des séquences de protéine chez différentes espèces
Procédure
Trouver les séquences de la protéine CFTR chez plusieurs espèces dans la banque de données UniProtKB
UniProtKB est une banque de données qui contient toutes les séquences de protéine répertoriées à partir des données publiques (~180 millions de protéines - début 2020).
N.B. : pour étudier l'évolution, on utilise souvent des séquences de protéine : elles sont plus pertinentes du point de vue évolutif (phénotype).
Ici nous travaillons avec la protéine CFTR, qui cause la mucoviscidose quand elle est défectueuse, mais d'autres protéines peuvent être employées (cf liste d'exemples)
Aller sur UniProtKB dans Query taper CFTR. Il faut chercher les protéines par leur nom du gène (1)
UniProt va chercher toutes les entrées dans lesquelles on trouve le terme CFTR solution : la liste est énorme.
Cliquer Restrict term to ....Gene name et cliquer Filter by puis "reviewed" solution (Insuline) , solution CFTR
(1) N.B. : Le nom de la protéine (cf liste d'exemples) diffère souvent du nom du gène. Il vaut mieux chercher une protéine par le nom de son gène, car les noms de gène sont 'standardisés' par des comités d'experts. UniProtKB est une banque de données sur les protéines : les informations sont focalisées sur les séquences de protéine mais la liste des noms de gènes est exhaustive. Un même gène peut parfois avoir plusieurs noms. Exemple: le gène CFTR a un synonyme : abcc7
Sélectionner la même protéine chez plusieurs organismes
Sélectionner (cocher) dans la liste les protéines des espèces qui vous intéressent.
Un minimum de 5 est nécessaire si l'on veut ensuite construire un alignement de séquences qui fait du sens. (cf liste d'exemples).
Vérifier que le nom de gène est correct et que les séquences de protéines sont de longueur similaire.
Afficher le plus grand nombre d'entrées possible sur la page en modifiant "Show" en bas du tableau (p. ex 50, voire 100)
Les séquences sélectionnées sont surlignées de jaune et leur nombre apparaît dans le bandeau jaune en haut. Avant de passer à la page suivante cliquer Add to basket, sinon la sélection est perdue.
(N.B: si on avait sélectionné d'autres séquences auparavant : il faut cliquer 'Clear' dans ce bandeau pour éviter qu'elles restent sélectionnées.)
Construire un alignement
Cliquer le bouton "Align" en-dessus du bandeau en haut de la liste. Après un temps (plusieurs secondes, voire minutes) l'alignement apparait.
Les séquences alignées sont affichées sous forme de tableau avec 60 acides aminés par ligne,
une étoile "*" signifie identité ( dans la colonne) pour toutes les séquences alignées.
":" signifie acides aminées qui ont des propriétés physico-chimiques très similaires,
"." signifie acides aminées qui ont des propriétés physico-chimiques similaires,
un "-" signifie que le le programme d'alignement a introduit un espace ("gap") pour pouvoir aligner des séquences de différentes longueurs.
Pour retrouver le nom de l'espèce, cliquer sur le numéro d'accession en bleu -> ouvre la fenêtre de l'entrée UniProtKB correspondant à cette protéine avec le nom complet de l'espèce.
Pour aller plus loin
Cocher la case "Similarity" dans la colonne de gauche : on peut observer que certaines régions sont plus conservées que d'autres.
Cocher la case "Transmembrane" : on peut observer des régions susceptibles d'être transmembranaires
Cocher la case "Natural Variant" : on peut observer les acides aminés susceptibles de différer dans la population humaine (SNP, … )
Cocher la case "DNA Binding" : si une telle région est présente dans la séquence de la protéine, on peut observer ces régions susceptibles de se lier à l'ADN
Compléments
Les propriétés physico chimiques des différents a.a. sont décrites ici
Un tableau de correspondance des codes à 3 lettres et à1 lettre des acides aminés et des codons est accessible ici .
Un arbre phyogénétique ?
L'arbre produit et visible en dessous de l'alignement est appelé un 'guided tree' . Il est utilisé par le programme pour construire l'alignement et est basé uniquement sur les différences observées entre les séquences. Il ne s'agit pas d'un arbre phylogénétique: un arbre phylogénétique est beaucoup plus complexe à établir !