Estimer la taille minimale permettant de retrouver spécifiquement une séquence.

Éprouver la spécificité des séquences dans le génome humain, estimer la taille minimale permettant de retrouver une séquence déterminée

Procédure

1° Produire une séquence au hasard,

Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga
Le copier

2° Tester si elle peut être trouvée dans le génome humain

Effectuer un Blast (wikipedia) de cette séquence contre le génome humain solution
Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
Cliquer le bouton BLAST
La séquence soumise n'a aucune similitude significative avec le génome humain. "No significant similarity found. "
- Un facteur de coïncidence E de plus de 1/100 (10 e-02) est très élevé, ce qui signifie en fait que la similitude est due à une coïncidence et donc que cette séquence n'a pas réellement été trouvée.

3 Comparer le taux de précision avec une séquence cible connue.

3 a) Chercher une séquence connue :

   ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.

   Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :

   Cliquer la ligne verte pour obtenir les détails sur cette séquence
   Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...

3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :

Choisir par exemple cette séquence de 127 bases sélectionnées au milieu de celle de l'insuline

CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG

Effectuer un blast et on trouve effectivement l'insuline en premier avec un facteur e de coïncidence de 4e-06 ce qui est très bon.
En réduisant progressivement (moitié chaque fois) on trouve :
- avec 127 bases : E = 4e-06 ce qui est très bon.
- avec 58 bases : E = 4e-06 ce qui est très bon.
- avec 27 bases : E = 4e-06 ce qui est très bon.
- avec 20 bases : E = 0.014 ce qui est limite.
- avec 15 bases : E = 9.3 ce qui à rejeter.
- avec 10 bases : No significant similarity found.

3c) Essayer avec l'insuline très modifiée

Choisir par exemple ici 9 mutations de remplacements + 2 bases insertion (l'insuline en dessous pour comparer)

   ctgggcgctg gccactggtgc agaagttgggtc
   ctgggcgggg gccctggtgc aggcagcctg

On trouve No significant similarity found

Compléments

Ici on a choisi Blast contre le human genome: avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.
Détermination de la taille optimale des amorces PCR @Supagro @INRA-Montpellier
Cette activité permet de vérifier la grosse lacune méthodologique d'un article évoquant que certaines séquences de 6-10 bases du HIV se trouveraient dans le SARS-Cov2 Activité "Pour les experts" à la fin de l'atelier coronavirus du SIB

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

"Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG

Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.

Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.

Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)

Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.

Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.

En conclusion, les amorces doivent avoir environ 20 nucléotides pour que la PCR puisse copier correctement le bon gène." (production d'élève)

Scénarios pédagogiques où il peut s'intégrer

Justifier la longueur des amorces PCR,
longueur des séquence ARN guide crRNA dans le système CRISPR/Cas9
longueur des sondes dans les micro-array Choisir les sondes pour tester SNP sur micro-array
Recherche de séquences du HIV dans le génome de SARS-CoV2 pour discuter une fake news activité SIB

Références

Scénario établi en partie sur la base des indications scientifiques de M.-C. Blatter du SIB

Retour à Bioinformatique : opportunités pour l’enseignement

Estimer la taille minimale permettant de retrouver spécifiquement une séquence.

Sommaire

Éprouver la spécificité des séquences dans le génome humain, estimer la taille minimale permettant de retrouver une séquence déterminée

Procédure

1° Produire une séquence au hasard,

2° Tester si elle peut être trouvée dans le génome humain

3 Comparer le taux de précision avec une séquence cible connue.

3 a) Chercher une séquence connue :

3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :

3c) Essayer avec l'insuline très modifiée

Compléments

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

Scénarios pédagogiques où il peut s'intégrer

Références

Menu de navigation

Estimer la taille minimale permettant de retrouver spécifiquement une séquence.

Éprouver la spécificité des séquences dans le génome humain, estimer la taille minimale permettant de retrouver une séquence déterminée

Procédure

1° Produire une séquence au hasard,

2° Tester si elle peut être trouvée dans le génome humain

3 Comparer le taux de précision avec une séquence cible connue.

3 a) Chercher une séquence connue :

3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :

3c) Essayer avec l'insuline très modifiée

Compléments

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

Scénarios pédagogiques où il peut s'intégrer

Références

Menu de navigation

Rechercher