« Etablir l'alignement et une phylogénie » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
 
(11 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== Etablir l'alignement et une phylogénie à partir de données authentiques d'une publication récente ==
== Etablir un alignement à partir de séquences authentiques : une étape vers la phylogénie. ==


== Procédure ==
== Procédure ==


Suite à une publication récente  (Lemopoulos & Montoya‐Burgos , 2021) sur l'évolution des écailles, des plaques osseuses ou une peau nue, des écailles, sur la base d'une phylogénie établie par la comparaison bioinformatique des séquences. Cf [https://jump-to-science.unige.ch Jump-To-Science] ''lien sur la publication a ajouter ici'' .  Juan Montoya‐Burgos a sélectionné pour le projet [https://jump-to-science.unige.ch/ Jump-To-Science] quelques séquences parmi les milliers utilisées dans la publication, pour un gène qui ne possède qu'une copie par espèce (single copy gene), qui montre suffisamment de variation et qui n'est pas trop difficile à aligner.  
Suite à une publication récente  ([https://doi.org/10.1002/evl3.219 Lemopoulos & Montoya‐Burgos , 2021]) sur l'évolution des écailles, des plaques osseuses ou d'une peau nue, sur la base d'une phylogénie établie par la comparaison bioinformatique des séquences. Cf [https://jump-to-science.unige.ch Jump-To-Science].  Juan Montoya‐Burgos a sélectionné pour le projet [https://jump-to-science.unige.ch Jump-To-Science] des séquences ADN d'un  gène afin de pouvoir refaire l'alignement avec les élèves. Le gène Cfap58 est un gène qui est présent à une seule copie chez toutes les espèces (single copy gene), qui montre suffisamment de variation et qui n'est pas trop difficile à aligner.  


Il vous a donc sélectionné chez plusieurs espèces de poissons la séquences du gène qui code pour: ''Cilia and flagella associated protein 5''8. On trouve cette protéine CFA58  pour de nombreuses espèces sur [https://www.uniprot.org/uniprot/?query=cilia+name%3Aflagella+associated+58&sort=score Uniprot : sélection ici] , même chez l'humain [https://www.uniprot.org/uniprot/Q5T655 Q5T655] (observer ou il est exprimé dans le schéma d'une cellule un peu plus bas)  
Le gène Cfap58 code pour: Cilia and flagella associated protein 58. On trouve cette protéine pour de nombreuses espèces sur [https://www.uniprot.org/uniprot/?query=gene%3Acfap58&sort=score Uniprot : sélection ici].
 
On peut noter qu'elle se trouve même chez l'humain [https://www.uniprot.org/uniprot/Q5T655 Q5T655] (observer dans quel compartiment subcellulaire la protéine est retrouvée dans le schéma d'une cellule un peu plus bas)  


===== Obtenir les séquences =====
===== Obtenir les séquences =====
* Downloader le [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58_poissons.txt fichier texte ici] qui content les séquences non-alignées pour quelques 21 poissons et le requin (groupe externe), en format FASTA   (Le code après le nom des espèces correspond à l'ID du gène dans la base de donnée [https://www.ncbi.nlm.nih.gov/genbank/ GenBank]  
* Downloader le [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58_poissons.txt fichier texte ici] qui contient les séquences pour quelques 8 espèces de poissons et le requin (groupe externe - ''ajouter un lien pour expliquer pk on a besoin de ce groupe ( rooted tree problem sauf erreur)''), au format FASTA (le code présent après le nom des espèces correspond au numéro d’accession dans la banque de donnée [https://www.ncbi.nlm.nih.gov/genbank/ GenBank]
[[Fichier:Alignment-22-especes-poisson-Uniprot-similarity.jpg|alt=Alignment de 22-espèces de poissons sur Uniprot similarity on|vignette|141x141px|Alignment de 22-espèces de poissons sur Uniprot similarity on]]
[[Fichier:Alignment-22-especes-poisson-Uniprot-similarity.jpg|alt=Alignment de 22-espèces de poissons sur Uniprot similarity on|vignette|141x141px|Alignment de 9-espèces de poissons sur Uniprot "similarity" on]]


===== Aligner ces séquences =====
===== Aligner ces séquences =====
* Ouvrir [https://uniprot.org UniProt]  
* Ouvrir [https://uniprot.org UniProt]
* Choisir [https://www.uniprot.org/align/ Align]  
* Choisir [https://www.uniprot.org/align/ Align] NB. Uniprot est aisé à utiliser pour produire des alignements et en visualiser le degré de similitude- mais il et conçu pour des protéines. C'est un choix d’accessibilité pédagogique plutôt que de rigueur méthodologique
* Coller toutes le [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58_poissons.txt texte avec les séquences]  dans le champ indiqué Protéin sequences (FASTA)  
* Coller depuis [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58_poissons.txt texte toutes les séquences]  dans le champ indiqué "Enter multiple protein or nucleotide sequences, separated by a FASTA header"
* Cliquer "Run align"
** Donner un nom à cet alignement ( il apparaitra comme titre sur la page de résultats)
* Après une attente variable de l'ordre de 1-3 minutes, on obtient un alignement (Exemple de résultat [https://www.uniprot.org/align/A20210505216DA2B77BFBD2E6699CA9B6D1C41EB200F9FCY ici]  (actif jusqu'à mi juin 21)  
** Cliquer "Align xx sequence"
** Cliquer la case "Similarity"
* Après une attente variable de l'ordre de 1-3 minutes, on obtient un alignement (Exemple de résultat [https://www.uniprot.org/align/A20210505216DA2B77BFBD2E6699CA9B6D1C41EB200F9FCY ici]  (actif jusqu'à mi juin 21)  
** Le ''highlight'' "Similarity" en dessus du tableau à gauche est activé par défaut :  les régions similaires sont mises en évidence (violet) - permettant de discuter celles qui sont évolutivement plus conservées.
** Observer le grand degré de similarité - visible dans l'image ci-contre et [https://edutechwiki.unige.ch/fr/Fichier:Alignment-22-especes-poisson-Uniprot-similarity.jpg ici]
** Observer le grand degré de similarité - visible dans l'image ci-contre et [https://edutechwiki.unige.ch/fr/Fichier:Alignment-22-especes-poisson-Uniprot-similarity.jpg ici]
Noter l'arbre en dessous de l'alignement : "Tree"  cf. pour une discussion de la validité de cet arbre cf ce scénario: [[Preuve de l'évolution par la comparaison de protéines chez différentes espèces]])  
** Remarque: cet outil d'alignement est prévu pour des séquences de protéines: le programme considère donc les 4 lettres A, T, C, G comme des acides aminés. Lorsque les acides aminés sont identiques, il y a un *. A et G sont des acides aminés 'similaires' : il y a un ..
Notez que  l'arbre ("guided tree") en-dessous de l'alignement : "Tree"  n'exprime pas réellement la phylogénie cf. pour une discussion de la validité de cet arbre cf ce scénario: [[Preuve de l'évolution par la comparaison de protéines chez différentes espèces]]). Voir plutôt  l'arbre phylogénétique obtenu avec ces séquences établi par Montoya‐Burgos montrant disponible  [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Arbre_ML_Cilia_associated_prote58_poissons_align-PhyML_tree.pdf ici(pdf)]. Il nous fait remarquer que le gène étudié (CFA58) a évolué plus rapidement chez les espèces Hippocampe et PoissonGlobe que chez les autres espèces .[https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Arbre_ML_Cilia_associated_prote58_poissons_align-PhyML_tree.jpg ici]
 
===== Pour aller plus loin =====


Un fichier PDF établi par Montoya‐Burgos montrant l'arbre que l'on obtient avec ce  gène et disponible  [https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Arbre_ML_Cilia_associated_prote58_poissons_align-PhyML_tree.pdf ici]
====== 1) Eprouver le degré de similitude de ces espèces et discuter de l'origine commune de ces espèces ======


Il est intéressant de voir que les espèces Hippocampe  et PoissonGlobe évoluent plus vite pour ce gène que les autres espèces).[https://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Arbre_ML_Cilia_associated_prote58_poissons_align-PhyML_tree.jpg ici]
===== (cf. [[Preuve de l'évolution par la comparaison de protéines chez différentes espèces]]) =====
* Reprendre l'alignement
* Ajouter les séquences d'autres espèces dans la case "You may add additional sequences to this alignment (FASTA format)


===== Pour aller plus loin =====
* Revenir dans Uniprot sur l'alignement 
Pour éprouver le degré de similitude de ces espèces et discuter de l'origine commune de ces espèces (cf. [[Preuve de l'évolution par la comparaison de protéines chez différentes espèces]])
* ajouter une séquence en plus par exemple une partie du gène chez l'humain [http://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58-homo-sap.txt ici]  
* Ajouter les séquences d'autres espèces  dans la case "You may add additional sequences to this alignment (FASTA format)
 
**[[Fichier:Alignement-Cilia associated prot58-22poissons+homo-similarity-on.jpg|alt=Alignement dans Uniprot des séquences pour Cilia_associated_prot58 pour 22 poissons+homo avec Similarity on|vignette|210x210px|Alignement dans Uniprot des séquences pour Cilia_associated_prot58 pour 22 poissons+homo avec Similarity on]]On les obtient par exemple depuis le nom de la protéine sur genbank : pour [https://www.ncbi.nlm.nih.gov/gene?Db=gene&Cmd=DetailsSearch&Term=159686 Homo sapiens] on trouve une visualisation du gène similaire à Gene Data Viewer sous  "Genomic regions, transcripts, and products"
* Cliquer "add sequence and align" pour refaire l’alignement : 
**Si on survole le nom du gène un menu offre l'accès - notamment [https://www.ncbi.nlm.nih.gov/protein/NP_001008723.1?report=fasta à la séquence en FASTA] ''ICI vérifier , ça n'a pas l'air facile''
* Résultat : Alignement [https://www.uniprot.org/align/clustalo-R20220930-100855-0835-6494284-p1m/overview mémorisé quelques temps ici] image d'un extrait avec la similarité activée  [http://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/alignement-simimilarity-poissons+homo.jpg ici]
* Rvenir dans Uniprot sur l'alignement et ajouter cette séquence en plus
 
* Cliquer "add sequence and align" pour refaire l’alignement : exemple avec l'humain [http://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/Cilia_associated_prot58-homo-sap.txt ici]  
====== 2) Voir la '''structure du gène''' humain Cfap58 ======
* Résultat : Alignemnt [https://www.uniprot.org/align/A2021050672FEB3358BE035486EE75ADE9E9177250045075 mémorisé quelques temps ici] image d'un extrait avec la similarité activée  [http://tecfa.unige.ch/perso/lombardf/projets/experimental/sequences-poissons-V21/alignement-simimilarity-poissons+homo.jpg ici]  
* Chez [https://www.ncbi.nlm.nih.gov/gene?Db=gene&Cmd=DetailsSearch&Term=159686 Homo sapiens]  trouver plus bas dans la page sous  "Genomic regions, transcripts, and products"
* On retrouve une représentation (similaire à Gene Data Viewer cf dans ce scénario [[Séquence du gène de protéines sur chromosomes]])
 
====== 3) Refaire les analyses avec des séquences de ''protéine'' ======
* Aller sur UniProt
* Chercher toutes les protéines avec le nom de gène '''Cfap58'''  [https://www.uniprot.org/uniprot/?query=gene%3Acfap58&sort=score Uniprot : sélection ici]
* Par défaut, 25 entrées UniProtKB sont affichées dans la table des résultats: cliquer  'Show 200'
* Sélectionner les espèces que vous souhaitez mettre dans votre alignement (choisir des séquences de longueurs similaires - si possible).
* Cliquer sur 'Align'.
* Cliquer sur la case 'Similarity' dans la colonne de gauche.
* Observer le degré de similitude
[[Catégorie: BioInfoScenarios]]
[[Catégorie: BioInfoScenarios]]



Dernière version du 30 septembre 2022 à 10:25

Etablir un alignement à partir de séquences authentiques : une étape vers la phylogénie.

Procédure

Suite à une publication récente (Lemopoulos & Montoya‐Burgos , 2021) sur l'évolution des écailles, des plaques osseuses ou d'une peau nue, sur la base d'une phylogénie établie par la comparaison bioinformatique des séquences. Cf Jump-To-Science. Juan Montoya‐Burgos a sélectionné pour le projet Jump-To-Science des séquences ADN d'un gène afin de pouvoir refaire l'alignement avec les élèves. Le gène Cfap58 est un gène qui est présent à une seule copie chez toutes les espèces (single copy gene), qui montre suffisamment de variation et qui n'est pas trop difficile à aligner.

Le gène Cfap58 code pour: Cilia and flagella associated protein 58. On trouve cette protéine pour de nombreuses espèces sur Uniprot : sélection ici.

On peut noter qu'elle se trouve même chez l'humain Q5T655 (observer dans quel compartiment subcellulaire la protéine est retrouvée dans le schéma d'une cellule un peu plus bas)

Obtenir les séquences
  • Downloader le fichier texte ici qui contient les séquences pour quelques 8 espèces de poissons et le requin (groupe externe - ajouter un lien pour expliquer pk on a besoin de ce groupe ( rooted tree problem sauf erreur)), au format FASTA (le code présent après le nom des espèces correspond au numéro d’accession dans la banque de donnée GenBank
Alignment de 22-espèces de poissons sur Uniprot similarity on
Alignment de 9-espèces de poissons sur Uniprot "similarity" on
Aligner ces séquences
  • Ouvrir UniProt
  • Choisir Align NB. Uniprot est aisé à utiliser pour produire des alignements et en visualiser le degré de similitude- mais il et conçu pour des protéines. C'est un choix d’accessibilité pédagogique plutôt que de rigueur méthodologique
  • Coller depuis texte toutes les séquences dans le champ indiqué "Enter multiple protein or nucleotide sequences, separated by a FASTA header"
    • Donner un nom à cet alignement ( il apparaitra comme titre sur la page de résultats)
    • Cliquer "Align xx sequence"
  • Après une attente variable de l'ordre de 1-3 minutes, on obtient un alignement (Exemple de résultat ici (actif jusqu'à mi juin 21)
    • Le highlight "Similarity" en dessus du tableau à gauche est activé par défaut : les régions similaires sont mises en évidence (violet) - permettant de discuter celles qui sont évolutivement plus conservées.
    • Observer le grand degré de similarité - visible dans l'image ci-contre et ici
    • Remarque: cet outil d'alignement est prévu pour des séquences de protéines: le programme considère donc les 4 lettres A, T, C, G comme des acides aminés. Lorsque les acides aminés sont identiques, il y a un *. A et G sont des acides aminés 'similaires' : il y a un ..

Notez que l'arbre ("guided tree") en-dessous de l'alignement : "Tree" n'exprime pas réellement la phylogénie cf. pour une discussion de la validité de cet arbre cf ce scénario: Preuve de l'évolution par la comparaison de protéines chez différentes espèces). Voir plutôt l'arbre phylogénétique obtenu avec ces séquences établi par Montoya‐Burgos montrant disponible ici(pdf). Il nous fait remarquer que le gène étudié (CFA58) a évolué plus rapidement chez les espèces Hippocampe et PoissonGlobe que chez les autres espèces .ici

Pour aller plus loin
1) Eprouver le degré de similitude de ces espèces et discuter de l'origine commune de ces espèces
(cf. Preuve de l'évolution par la comparaison de protéines chez différentes espèces)
  • Reprendre l'alignement
  • Ajouter les séquences d'autres espèces dans la case "You may add additional sequences to this alignment (FASTA format)
  • Revenir dans Uniprot sur l'alignement
  • ajouter une séquence en plus par exemple une partie du gène chez l'humain ici
  • Cliquer "add sequence and align" pour refaire l’alignement :
  • Résultat : Alignement mémorisé quelques temps ici image d'un extrait avec la similarité activée ici
2) Voir la structure du gène humain Cfap58
3) Refaire les analyses avec des séquences de protéine
  • Aller sur UniProt
  • Chercher toutes les protéines avec le nom de gène Cfap58 Uniprot : sélection ici
  • Par défaut, 25 entrées UniProtKB sont affichées dans la table des résultats: cliquer 'Show 200'
  • Sélectionner les espèces que vous souhaitez mettre dans votre alignement (choisir des séquences de longueurs similaires - si possible).
  • Cliquer sur 'Align'.
  • Cliquer sur la case 'Similarity' dans la colonne de gauche.
  • Observer le degré de similitude

Insertions possibles des activités de biologie numérique

Concepts et Scénarios pédagogiques où il peut s'intégrer

Références

Lemopoulos, A., & Montoya‐Burgos, J. I. (2021). From scales to armor : Scale losses and trunk bony plate gains in ray‐finned fishes. Evolution Letters, evl3.219. https://doi.org/10.1002/evl3.219

Retour à Bioinformatique : opportunités pour l’enseignement