Estimer la taille minimale permettant de retrouver spécifiquement une séquence.

De EduTech Wiki
Aller à la navigation Aller à la recherche

Éprouver la spécificité des séquences dans le génome humain, estimer la taille minimale permettant de retrouver une séquence déterminée

Procédure

1° Produire une séquence au hasard,
  • Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga
  • Le copier
2° Tester si elle peut être trouvée dans le génome humain
  • Effectuer un Blast (wikipedia) de cette séquence contre le génome humain solution
  • Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
  • Cliquer le bouton BLAST
  • La séquence soumise n'a aucune similitude significative avec le génome humain. "No significant similarity found. "
    • Un facteur de coïncidence E de plus de 1/100 (10 e-02) est très élevé, ce qui signifie en fait que la similitude est due à une coïncidence et donc que cette séquence n'a pas réellement été trouvée.
3 Comparer le taux de précision avec une séquence cible connue.
3 a) Chercher une séquence connue :
   ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de coïncidence E-value
   Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
   Cliquer la ligne verte pour obtenir les détails sur cette séquence
   Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...
3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :
  • Choisir par exemple cette séquence de 127 bases sélectionnées au milieu de celle de l'insuline
CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG 
  • Effectuer un blast et on trouve effectivement l'insuline en premier avec un facteur e de coïncidence de 4e-06 ce qui est très bon.
  • En réduisant progressivement (moitié chaque fois) on trouve :
    • avec 127 bases : E = 4e-06 ce qui est très bon.
    • avec 58 bases : E = 4e-06 ce qui est très bon.
    • avec 27 bases : E = 4e-06 ce qui est très bon.
    • avec 20 bases : E = 0.014 ce qui est limite.
    • avec 15 bases : E = 9.3 ce qui à rejeter.
    • avec 10 bases : No significant similarity found.
3c) Essayer avec l'insuline très modifiée
  • Choisir par exemple ici 9 mutations de remplacements + 2 bases insertion (l'insuline en dessous pour comparer)
   ctgggcgctg gccactggtgc agaagttgggtc
   ctgggcgggg gccctggtgc aggcagcctg
  • On trouve No significant similarity found
Compléments

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

"Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG

Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.

Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.

Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)

Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.

Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.

En conclusion, les amorces doivent avoir environ 20 nucléotides pour que la PCR puisse copier correctement le bon gène." (production d'élève)

Scénarios pédagogiques où il peut s'intégrer

Références

Scénario établi en partie sur la base des indications scientifiques de M.-C. Blatter du SIB

Retour à Bioinformatique : opportunités pour l’enseignement