Estimer la taille minimale permettant de retrouver spécifiquement une séquence.
Éprouver la spécificité des séquences dans le génome humain, estimer la taille minimale permettant de retrouver une séquence déterminée
Procédure
1° Produire une séquence au hasard,
- Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga
- Le copier
2° Tester si elle peut être trouvée dans le génome humain
- Effectuer un Blast (wikipedia) de cette séquence contre le génome humain solution
- Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
- Cliquer le bouton BLAST
- La séquence soumise n'a aucune similitude significative avec le génome humain. "No significant similarity found. "
- Un facteur de coïncidence E de plus de 1/100 (10 e-02) est très élevé, ce qui signifie en fait que la similitude est due à une coïncidence et donc que cette séquence n'a pas réellement été trouvée.
3 Comparer le taux de précision avec une séquence cible connue.
3 a) Chercher une séquence connue :
ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
Cliquer la ligne verte pour obtenir les détails sur cette séquence Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...
3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :
- Choisir par exemple cette séquence de 127 bases sélectionnées au milieu de celle de l'insuline
CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG
- Effectuer un blast et on trouve effectivement l'insuline en premier avec un facteur e de coïncidence de 4e-06 ce qui est très bon.
- En réduisant progressivement (moitié chaque fois) on trouve :
- avec 127 bases : E = 4e-06 ce qui est très bon.
- avec 58 bases : E = 4e-06 ce qui est très bon.
- avec 27 bases : E = 4e-06 ce qui est très bon.
- avec 20 bases : E = 0.014 ce qui est limite.
- avec 15 bases : E = 9.3 ce qui à rejeter.
- avec 10 bases : No significant similarity found.
3c) Essayer avec l'insuline très modifiée
- Choisir par exemple ici 9 mutations de remplacements + 2 bases insertion (l'insuline en dessous pour comparer)
ctgggcgctg gccactggtgc agaagttgggtc ctgggcgggg gccctggtgc aggcagcctg
- On trouve No significant similarity found
Compléments
- Ici on a choisi Blast contre le human genome: avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.
- Détermination de la taille optimale des amorces PCR @Supagro @INRA-Montpellier
- Cette activité permet de vérifier la grosse lacune méthodologique d'un article évoquant que certaines séquences de 6-10 bases du HIV se trouveraient dans le SARS-Cov2 Activité "Pour les experts" à la fin de l'atelier coronavirus du SIB
Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe
"Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG
Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.
Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.
Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)
Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.
Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.
En conclusion, les amorces doivent avoir environ 20 nucléotides pour que la PCR puisse copier correctement le bon gène." (production d'élève)
Scénarios pédagogiques où il peut s'intégrer
- Justifier la longueur des amorces PCR,
- longueur des séquence ARN guide crRNA dans le système CRISPR/Cas9
- longueur des sondes dans les micro-array Choisir les sondes pour tester SNP sur micro-array
- Recherche de séquences du HIV dans le génome de SARS-CoV2 pour discuter une fake news activité SIB
Références
Scénario établi en partie sur la base des indications scientifiques de M.-C. Blatter du SIB