« Estimer la taille minimale permettant de retrouver spécifiquement une séquence. » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
(création de la page à partir de http://tecfa.unige.ch/perso/lombardf/bist/scenario6/)
 
mAucun résumé des modifications
Ligne 10 : Ligne 10 :
2° Tester si elle peut être trouvée dans le génome humain
2° Tester si elle peut être trouvée dans le génome humain


Selectivité : Une similitude de plus de 25% d'aa et de plus de 70% des nucléotides est considérée comme homologue (Claverie & Notredame p 229) si on a des séquences de plus de 100 résidus. En dessous de 10 résidus même la similitude parfaite n'est pas signifiante
{|
!Selectivité : Une similitude de plus de 25% d'aa et de plus de 70% des nucléotides est considérée comme homologue (Claverie & Notredame p 229) si on a des séquences de plus de 100 résidus. En dessous de 10 résidus même la similitude parfaite n'est pas signifiante
Effectuer un Blast de cette séquence contre le génome humain solution
Effectuer un Blast de cette séquence contre le génome humain solution
 
|}
Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript


Ligne 23 : Ligne 24 :


     ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
     ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
 
[[Fichier:BLAST Trouve-insuline couleur.jpg|alt=BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases |vignette|BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de E-value]]
 
     Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
     Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :



Version du 28 septembre 2020 à 07:33

Éprouver que la séquence du gène de quelques protéines est repérable sur les chromosomes humains.

Procédure

1° Produire une séquence au hasard,

Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga Le copier 2° Tester si elle peut être trouvée dans le génome humain

Selectivité : Une similitude de plus de 25% d'aa et de plus de 70% des nucléotides est considérée comme homologue (Claverie & Notredame p 229) si on a des séquences de plus de 100 résidus. En dessous de 10 résidus même la similitude parfaite n'est pas signifiante

Effectuer un Blast de cette séquence contre le génome humain solution

Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript

et cliquer le bouton BLAST

La séquence fait apparaitre des similitudes notamment avec notamment un gène localisé sur le chromosome 20 (NM_022106.1) mais avec un facteur de coincidence E de 4.4 très élevé qui signifie en fait que la similitude est due à une coincidence et donc que cette séquence n'a pas réellement été trouvée. 3° Comparer le taux de précision avec une séquence cible connue.

3 a) Chercher une séquence connue :

   ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de E-value
   Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
   Cliquer la ligne verte pour obtenir les détails sur cette séquence
   Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...

3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG est une séquence de 127 bases sélectionnnées au milieu de celle de l'insuline on effectue un blast et on trouve effectivemetn l'insuline en premier avec un facteur e de coincidence est de 4e-06 ce qui est très bon. En réduisant progressivement on trouve : avec 127 bases : E = 4e-06 ce qui est très bon. avec 58 bases : E = 4e-06 ce qui est très bon. avec 27 bases : E = 4e-06 ce qui est très bon. avec 20 bases : E = 0.014 ce qui est limite. avec 15 bases : E = 9.3 ce qui à rejeter. avec 10 bases : No significant similarity found.

3c) Essayer avec l'insuline très modifiée

par exemple ici 9 mutations de rempacements + 2 bases insertion (l'insuline en bleu pour comparer)

   ctgggcgctg gccactggtgc agaagttgggtc
   ctgggcgggg gccctggtgc aggcagcctg
   No significant similarity found

Compléments

Ici on a choisi Blast contre le human genome: avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.

Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.

Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)

Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.

Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.

En conclusion, les amorces doivent avoirenviron 20 nucléotides pour que la PCR puisse copier correctement le bon gène. (groupe 2)

Scénarios pédagogiques où il peut s'intégrer

Retour à Bioinformatique : opportunités pour l’enseignement