« Estimer la taille minimale permettant de retrouver spécifiquement une séquence. » : différence entre les versions

De EduTech Wiki
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
m (mise à jour du scénario)
Ligne 3 : Ligne 3 :
== Procédure ==
== Procédure ==


1° Produire une séquence au hasard,
===== 1° Produire une séquence au hasard, =====
* Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga
* Le copier


Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex :
===== 2° Tester si elle peut être trouvée dans le génome humain =====
attatacgtatataattccgataatcgcgctga
* Effectuer un Blast de cette séquence contre le génome humain [https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome solution]
Le copier
* Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
2° Tester si elle peut être trouvée dans le génome humain
* et cliquer le bouton BLAST
 
* La séquence fait apparaitre des similitudes notamment avec notamment un gène localisé sur le chromosome 20 (NM_022106.1) mais avec un facteur de coincidence E de 4.4 très élevé qui signifie en fait que la similitude est due à une coïncidence et donc que cette séquence n'a pas réellement été trouvée. 3° Comparer le taux de précision avec une séquence cible connue.
Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
 
et cliquer le bouton BLAST
 
La séquence fait apparaitre des similitudes notamment avec notamment un gène localisé sur le chromosome 20 (NM_022106.1) mais avec un facteur de coincidence E de 4.4 très élevé qui signifie en fait que la similitude est due à une coincidence et donc que cette séquence n'a pas réellement été trouvée.
3° Comparer le taux de précision avec une séquence cible connue.
 
3 a) Chercher une séquence connue :


===== 3 a) Chercher une séquence connue : =====
     ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
     ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
[[Fichier:BLAST Trouve-insuline couleur.jpg|alt=BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases |vignette|BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de E-value]]
[[Fichier:BLAST Trouve-insuline couleur.jpg|alt=BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases |vignette|BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de coïncidence E-value]]
     Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
     Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :


Ligne 26 : Ligne 21 :
     Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...
     Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...


3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :
===== 3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance : =====
CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG est une séquence de 127 bases sélectionnnées au milieu de celle de l'insuline
* Choisir par exemple cette séquence de 127 bases sélectionnées au milieu de celle de l'insuline
on effectue un blast et on trouve effectivemetn l'insuline en premier avec un facteur e de coincidence est de 4e-06 ce qui est très bon. En réduisant progressivement on trouve :
CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG
avec 127 bases : E = 4e-06 ce qui est très bon.
* Effectuer un blast et on trouve effectivement l'insuline en premier avec un facteur e de coïncidence  de 4e-06 ce qui est très bon.  
avec 58 bases : E = 4e-06 ce qui est très bon.
* En réduisant progressivement (moitié chaque fois) on trouve :
avec 27 bases : E = 4e-06 ce qui est très bon.
** avec 127 bases : E = 4e-06 ce qui est très bon.
avec 20 bases : E = 0.014 ce qui est limite.
** avec 58 bases : E = 4e-06 ce qui est très bon.
avec 15 bases : E = 9.3 ce qui à rejeter.
** avec 27 bases : E = 4e-06 ce qui est très bon.
avec 10 bases : No significant similarity found.
** avec 20 bases : E = 0.014 ce qui est limite.
** avec 15 bases : E = 9.3 ce qui à rejeter.
** avec 10 bases : No significant similarity found.


3c) Essayer avec l'insuline très modifiée
===== 3c) Essayer avec l'insuline très modifiée =====
 
* Choisir par exemple ici 9 mutations de remplacements + 2 bases insertion (l'insuline en bleu pour comparer)
par exemple ici 9 mutations de rempacements + 2 bases insertion (l'insuline en bleu pour comparer)
     ctgggc'''gc'''tg gc'''ca'''ctggtgc ag'''a'''ag'''ttggg'''tc
 
     ctgggcgctg gccactggtgc agaagttgggtc
     ctgggcgggg gccctggtgc aggcagcctg
     ctgggcgggg gccctggtgc aggcagcctg
    No significant similarity found
* On trouve No significant similarity found


Compléments
===== Compléments =====
Ici on a choisi Blast contre le ''human genome'': avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.


Ici on a choisi Blast contre le human genome: avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.
Détermination de la taille optimale des amorces PCR @[https://www.supagro.fr/ress-tice/PCR/2/co/exercice_taille_amorces.html Supagro]  @[http://www1.montpellier.inra.fr/biochimie/td/UB/exo7.html INRA-Montpellier]


== ''Ce qu'on peut obtenir :  p. ex,  synthèse par un élève des résultats avec une classe ''  ==
== ''Ce qu'on peut obtenir :  p. ex,  synthèse par un élève des résultats avec une classe ''  ==
Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.
"''Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG''
 
''Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.''


Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.
''Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.''


Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)
''Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)''


Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.
''Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.''


Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.
''Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.''


En conclusion, les amorces doivent avoirenviron 20 nucléotides pour que la PCR puisse copier correctement le bon gène. (groupe 2)
''En conclusion, les amorces doivent avoir environ 20 nucléotides pour que la PCR puisse copier correctement le bon gène."'' (production d'élève)
== Scénarios pédagogiques où il peut s'intégrer ==
== Scénarios pédagogiques où il peut s'intégrer ==


Retour à  [[Bioinformatique : opportunités pour l’enseignement]]
Retour à  [[Bioinformatique : opportunités pour l’enseignement]]
[[Catégorie: BioInfoScenarios]]
[[Catégorie: BioInfoScenarios]]

Version du 28 septembre 2020 à 08:48

Éprouver que la séquence du gène de quelques protéines est repérable sur les chromosomes humains.

Procédure

1° Produire une séquence au hasard,
  • Taper dans un texteur quelconque (e.g. OpenOffice) une séquence au hasard, P. ex : attatacgtatataattccgataatcgcgctga
  • Le copier
2° Tester si elle peut être trouvée dans le génome humain
  • Effectuer un Blast de cette séquence contre le génome humain solution
  • Coller la séquence dans le champ indiqué "Enter accession number, gi, or FASTA sequence" , vérifier que la base de données utilisée est bien Human genomic + transcript
  • et cliquer le bouton BLAST
  • La séquence fait apparaitre des similitudes notamment avec notamment un gène localisé sur le chromosome 20 (NM_022106.1) mais avec un facteur de coincidence E de 4.4 très élevé qui signifie en fait que la similitude est due à une coïncidence et donc que cette séquence n'a pas réellement été trouvée. 3° Comparer le taux de précision avec une séquence cible connue.
3 a) Chercher une séquence connue :
   ctgggcgggg gccctggtgc aggcagcatg est celle de l'insuline mais avec une seule point-mutation en rouge.
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases
BLAST trouve la séquence de l'insuline à partir d'une séquence de 30 bases le code couleur vert indique un bon score de coïncidence E-value
   Blast de cette séquence : on trouve l'insuline avec E = 4e-06 la ligne verte est l'insuline humaine :
   Cliquer la ligne verte pour obtenir les détails sur cette séquence
   Le facteur de coincidence est de 4e-06 ce qui signifie qu'on a une chance sur un million que ce soit dû au hasard...
3 b) Chercher une séquence connue de taille diminuant progressivement jusqu'à non-reconaissance :
  • Choisir par exemple cette séquence de 127 bases sélectionnées au milieu de celle de l'insuline
CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG 
  • Effectuer un blast et on trouve effectivement l'insuline en premier avec un facteur e de coïncidence de 4e-06 ce qui est très bon.
  • En réduisant progressivement (moitié chaque fois) on trouve :
    • avec 127 bases : E = 4e-06 ce qui est très bon.
    • avec 58 bases : E = 4e-06 ce qui est très bon.
    • avec 27 bases : E = 4e-06 ce qui est très bon.
    • avec 20 bases : E = 0.014 ce qui est limite.
    • avec 15 bases : E = 9.3 ce qui à rejeter.
    • avec 10 bases : No significant similarity found.
3c) Essayer avec l'insuline très modifiée
  • Choisir par exemple ici 9 mutations de remplacements + 2 bases insertion (l'insuline en bleu pour comparer)
   ctgggcgctg gccactggtgc agaagttgggtc
   ctgggcgggg gccctggtgc aggcagcctg
  • On trouve No significant similarity found
Compléments

Ici on a choisi Blast contre le human genome: avec le Blast contre toutes les espèces http://www.ncbi.nlm.nih.gov/BLAST/, les résultats pourraient être différents.

Détermination de la taille optimale des amorces PCR @Supagro @INRA-Montpellier

Ce qu'on peut obtenir : p. ex, synthèse par un élève des résultats avec une classe

"Prenons l’exemple de l’insuline, avec une amorce de 117 nucléotides, cela donne : CCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAG

Afin de ne sélectionner que le gène qui nous intéresse, il est nécessaire que la longueur des amorces soit suffisante pour que l'on soit certain qu'elle ne puisse se lier uniquement à la séquence spécifique de l'insuline. En testant cette amorce dans un logiciel (appelé Blast), nous retrouvons un coefficient de E= 4e-06, ce qui signifie qu’on a une chance sur un million que l’attribution de cette séquence soit due au hasard.

Avec des amorces de 58 bases, on trouve : E = 4e-06 ce qui est très bon. Les amorces sont donc assez longues et propres au gène de l'insuline.

Avec des amorces de 20 nucléotides : CCTGACCCAGCCGCAGCCTT Le premier gène coïncidant est toujours l’insuline mais la part de hasard de l’attribution de cette séquence à l’insuline est de 1,4 %. Cela est encore acceptable. (E=0,014)

Avec des amorces de 15 nucléotides : CCTGACCCAGCCGCA L’insuline est toujours le premier gène qui correspond mais le E=9,3. Ce qui alors totalement à rejeter car le hasard joue ici un trop grand rôle: en utilisant ces amorces de 15 bases, on pourrait affecter et modifier d'autres gènes codants.

Avec des amorces de 10 nucléotides : CCTGACCCAG Avec cette longueur d’amorce, aucun gène ne coïncide. Les amorces sont donc trop courtes et sont présentes chez plusieurs autres gènes.

En conclusion, les amorces doivent avoir environ 20 nucléotides pour que la PCR puisse copier correctement le bon gène." (production d'élève)

Scénarios pédagogiques où il peut s'intégrer

Retour à Bioinformatique : opportunités pour l’enseignement