1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret :...
-
Upload
nathalie-bourgoin -
Category
Documents
-
view
103 -
download
0
Transcript of 1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret :...
1
Analyse in silico de génomes, protéomes et transcriptomes
D. Gautheret : [email protected]. Toffano-Nioche : [email protected]
Plan de l’UE
• Partie 1: annotation des gènes– Annotation structurale (analyse séq ADN)– Annotation fonctionnelle (analyse séq Protéique)
• Partie 2: génomique comparative– Initiation à Linux/Blast sous Linux– Extraction de gènes de génomes bactériens– Outils de comparaison de génomes– Comparaison de génomes / gènes communs
Annotation « structurale » : identifier les gènes et leurs éléments (features »)• CDS, ARN, …• Repeats• Signaux de régulation
Annotation « fonctionnelle » : attribution de fonctions Produits de gènes Motifs structuraux, ...
E.Talla, http://biologie.univ-mrs.fr/upload/p211/CM_Master_AnnotGenomes_2007.pdf
Niveaux d'annotation d'un génome
Détection par contenu
Généralement par similarité
Objets
individuels
BD
Annotation « relationnelle » : relation entre entitésAu sein d'un génome : - Voies métaboliques - Réseaux d'interactions géniques
- Familles de paraloguesPlusieurs génomes, génomique comparative :
- Groupes de synténie (ordre des gènes)- Groupes d'orthologues, ...
Objets
relationnels
En pratique, le plus souvent, positionner les gènes et leurs produits : transcrits, protéines ..
mais aussi – quelquefois – d’autres objects, comme les éléments transposables, les motifs de régulation, les domaines protéiques, etc…
En général, implicitement, les gènes codants pour les protéines
mais aussi – souvent - les gènes codant pour les ARNt, les ARNr, et - quelquefois - d’autres ARNs (snRNAs, snoRNAs, miRNAs, ...)
Annotation Structurale
Positionner les éléments génétiques sur la séquence génomique
… de manière précise, complète et exhaustive
P.Rouzé, Carry Le Rouet, 2006
Rappel: caractéristiques des génomes eucaryotes
• Dans le noyau• Taille 10Mb à > 10Gb• Plusieurs chromosomes (homme 23, cheval 32,
levure 16, drosophile 4…) • Plusieurs origines de réplication par
chromosome• Gènes « disloqués » (exons, introns)• Grandes régions intergéniques
5
Rappel: le gène eucaryote
6
transcription
maturation
traduction
coiffeARNm mature
Pré ARNm
Protéine
AAAAAAAAAAAAAAAAAAAA
7
Densité des gènes eucaryotes
Densité moyenne: – S. Cerevisiae: 1 gène/2kb.– Drosophile: 1gène/10kb– Maïs: 1 gène tous les
70kb– Humain: 1 gène tous
les 100kb From « Genomes 2 », T.A. Brown
8
Annotation...agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt
agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgctaatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctatgcgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttttctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaagccagggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgaaagatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttgttcgctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacgagtactggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctgcc
ggaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgcgtgcgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtctggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggcacaaatgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtgataccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatcctctatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaatatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcaggcgtttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacatcagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgcaggagacgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcgggtctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtgaacgataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgacgttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttgttccgccgcaaaatctggcaactgaaagagctgggttattaagccgtggatgatgaaaccacgcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgccgtagcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggatctgccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctcaatcaggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcggagaataacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcaccgctaaatgacaaatgccgggtaacaatccggcattcagcgcctgatgcgacgctggcgcgtcttatcaggcctacgttaattctgcaatatattgaatctgcatgcttttgtaggcaggataaggcgttcacgccgcatccggcattgactgcaaacttaacgctgctcgtagcgtttaaacaccagttcgccattgctggaggaatcttcatcaaagaagtaaccttcgctattaaaaccagtcagttgctctggtttggtcagccgattttcaataatgaaacgactcatcagaccgcgtgctttcttagcgtagaagctgatgatcttaaatttgccgttcttctcatcgaggaacaccggcttgataatctcggcattcaatttcttcggcttcaccgatttaaaatactcatctgacgccagattaatcaccacattatcgccttgtgctgcgagcgcctcgttcagcttgttggtgatgatatctccccagaattgatacagatctttccctcgggcattctcaagacggatccccatttccagacgataaggctgcattaaatcgagcgggcggagtacgccatacaagccggaaagcattcgcaaatgctgttgggcaaaatcgaaatcgtcttcgctgaaggtttcggcctgcaagccggtgtagacatcacctttaaacgccagaatcgcctggcgggcattcgccggcgtgaaatctggctgccagtcatgaaagcgagcggcgttgatacccgccagtttgtcgctgatgcgcatcagcgtgctaatctgcggaggcgtcagtttccgcgcctcatggatcaactgctgggaattgtctaacagctccggcagcgtatagcgcgtggtggtcaacgggctttggtaatcaagcgttttcgcaggtgaaataagaatcagcatatccagtccttgcaggaaatttatgccgactttagcaaaaaatgagaatgagttgatcgatagttgtgattactcctgcgaaacatcatcccacgcgtccggagaaagctggcgaccgatatccggataacgcaatggatcaaacaccgggcgcacgccgagtttacgctggcgtagataatcactggcaatggtatgaaccacaggcgagagcagtaaaatggcggtcaaattggtaatagccatgcaggccattatgatatctgccagttgccacatcagcggaaggcttagcaaggtgccgccgatgaccgttgcgaaggtgcagatccgcaaacaccagatcgctttagggttgttcaggcgtaaaaagaagagattgttttcggcataaatgtagttggcaacgatggagctgaaggcaaacagaataaccacaagggtaacaaactcagcaccccaggaacccattagcacccgcatcgccttctggataagctgaataccttccagcggcatgtaggttgtgccgttacccgccagtaatatcagcatggcgcttgccgtacagatgaccagggtgtcgataaaaatgccaatcatctggacaatcccttgcgctgccggatgcggaggccaggacgccgctgccgctgccgcgtttggcgtcgaacccattcccgcctcattggaaaacatactgcgctgaaaaccgttagtaatcgcctggcttaaggtatatcccgccgcgccgcctgccgcttcctgccagccaaaagcactctcaaaaatagaccaaatgacgtggggaagttgcccgatattcattacgcaaattaccaggctggtcagtacccagattatcgccatcaacgggacaaagccctgcatgagccgggcgacgccatgaagaccgcgagtgattgccagcagagtaaagacagcgagaataatgcctgtcaccagcgggggaaaatcaaaagaaaaactcagggcgcgggcaacggcgttcgcttgaactccgctgaaaattatgccataggcgatgagcaaaaagacggcgaacagaacgcccatccagcgcatccccagcccgcgcgccatataccatgccggtccgccacgaaactgcccattgacgtcacgttctttataaagttgtgccagagaacattcggcaaacgaggtcgccatgccgataaacgcggcaacccacatcca
Exon 1
Exon 2
Exon 3
Exon 4
Start
Stop polyA
TF binding site
TATA Box
Expérimentaleson aligne la séquence génomique et la séquence du transcrit associé (ADNc), complet, isolé
sur le même organisme (méthode la + sûre mais la + longue)
Comparatives (extrinsèques) on compare la séquence génomique aux séquences des ESTs dont on dispose on compare la séquence génomique à la séquence génomique d’autres espèces on traduit la séquence génomique en protéine sur ses 6 phases que l'on compare aux
séquences des protéines contenues dans les banques de données
Ab initio (intrinsèques)on apprend à reconnaître les particularités communes à plusieurs gènes connus du génome,
puis on recherche ces particularités sur la séquence génomique
Intégratives combinaison de ces méthodes (ex. Eugène)
MéthodesP.Rouzé, Carry Le Rouet, 2006
ADNgénomique
transcription
épissage
traduction
ARNpré-messager
ARNmessager
protéine
Lac ZAmpR
Ori
Banque de vecteurs
Alignement = positionnement
EST 5'
En rouge : séquences accessibles dans les bases de données de séquences
Insert
cDNAEST 3'
Méthodes comparatives : Alignements de séquences
très semblable à l'approche expérimentale, les ESTs étant des fragments d’ADNc isolés à partir de cellules de l’organisme étudié.moins biaisée, puisque les ESTs sont séquencés de manière systématique : les transcrits alternatifs seront séquencés … s’ils sont exprimés.
Les problèmes de l’emploi d’ESTs :
• qualité médiocre et peuvent contenir des erreurs de séquence
• contaminés par des copies d’ADN génomique
• ne recouvrent qu’une partie du transcrit, normalement l’extrémité à partir de laquelle le séquençage a été amorcé (souvent 3’)
• reflètent l’expression du génome : les gènes non (peu) exprimés dans les conditions où les transcrits ont été isolés n’y figurent pas
• peuvent être attribuées à des paralogues du gène
Les avantages (sous-estimés) : les paires d’ESTs 5’-3’, la directionalité ..
Méthodes comparatives : ESTs
P.Rouzé, Carry Le Rouet, 2006
12
Blast génome contre dbEST
Dans l'exemple ci-contre, on a réalisé un Blastn d'un contig de 5 kb contenant un gène unique contre la banque dbEST. Le premier hit est clairement un artefact (séquences répétées).
At5g11170
EST
AGI
BACEugene
Un cas trompeur : quand l'EST commence dans l'intron
Comparaison ADN génomique - ADN génomique
Méthode basée sur l’évolution des génomes : les séquences codantes sont les régions les plus conservées entre génomes apparentésLa comparaison de deux, ou mieux plusieurs génomes apparentés entre eux conduit à trouver les régions conservées qu’on attribue aux exons codants.
Avantages : ne dépend ni de l’annotation préalable des génomes (les gènes absents des bases de données peuvent donc être trouvés) ni de l’expressivité des gènes.
Inconvénients : davantage un prédicteur d’exons qu’un prédicteur de gènes, ne fonctionne que dans une « fenêtre » évolutive assez étroite (le signal disparaît entre génomes trop distants et est très brouillé dans les génomes trop proches)
Méthodes comparatives : ADN génomique
P.Rouzé, Carry Le Rouet, 2006
Recherche dans les bases de données protéiques : principe
La logique de cette approche est basée sur l’existence de bases de données et sur l’évolution : si un gène GX a été décrit dans l’espèce X, on le retrouvera dans l’espèce Y apparentée … et la séquence du produit de ce gène, GY (sur lequel agit la sélection) sera similaire à la séquence de la protéine codée par GX
Si les espèces X et Y sont vraiment très proches, la seule connaissance de la séquence protéique d’un gène GX de l’espèce X peut permettre la modélisation de son orthologue GY (et dans une moindre mesure de ses paralogues) sur le génome de Y
Si X et Y sont plus distants, ou si le gène G évolue rapidement, alors on aura la trace que ce gène existe chez Y, mais on ne pourra pas bâtir de manière sûre un modèle (complet) du gène GY sur la séquence génomique
Et si GY est un gène orphelin, on ne verra même pas qu’il existe par ce moyen…
Méthodes comparatives : protéines
P.Rouzé, Carry Le Rouet, 2006
Recherche dans les bases de données protéiques : problèmes
Les bases de données de séquences protéiques : traduction automatique de séquences nucléiques annotées (en majorité)
Si les séquences des BD sont incomplètes, ou ont été mal annotées alors les séquences protéiques déduites seront partielles ou erronées.
Types d’erreurs : • modestes : absence ou mauvaise frontière d’exon, • sérieuses : frameshifts, fusion ou rupture de gènes, • graves : gène inexistant. => intérêt de BD de protéines validées par des experts (ex: SwissProt)
Si les programmes d’annotation utilisent ces bases de données (ex: TrEMBL) les erreurs sont récursives et on finit par bâtir des familles entières de gènes imaginaires …
Méthodes comparatives : protéines
P.Rouzé, Carry Le Rouet, 2006
Toute séquence d’ADN n’est pas celle d’un gène.Les séquences codantes pour des gènes ont une particularité forte : codons. La probabilité de voisinage de deux codons n’est pas non plus le fait du hasard.
Chaque (groupe de) génome(s) a un style qui lui est propre : usage du code, typologie des motifs, fréquence, taille et contenu des introns, nature et taille des régions non-traduites et des régions intergéniques …Reconnaître l’usage du code génétique propre à chaque organisme permet de l’utiliser en retour pour trouver quel segment d’ADN a tendance à suivre cet usage particulier.La prédiction du « potentiel codant » se fait par la recherche de distribution des hexanucléotides, ou par des méthodes d’analyse markovienne. En pratique, on utilise des chaînes de Markov phasées d’ordre 4, 5 ou 6 (GeneMark) ou « interpolées » d’ordre 1 & 2 & 3.. (Glimmer).
Autres méthodes : FFT, codant/intergénique : corrélations à petites/grandes échellesZ-curve : représentation 3D de 3 caratéristiques des nucléotides
L’annotation structurale des génomes bactériens (pas ou peu d’introns) fonctionne très bien avec ces méthodes
Méthodes ab initio
P.Rouzé, Carry Le Rouet, 2006
exon intron exon
97.5%
2.5%
Site accepteurSite donneur
P.Rouzé, Carry Le Rouet, 2006
Exemple issus du génome de Laccaria bicolor (champignon basidiomycète)
Motifs des sites d'épissage
Processus en deux phases :Apprentissage : rassembler des gènes bien documentés, en extraire
les données informatives et entraîner les algorithmes à les reconnaître individuellement
Prédiction : chaque algorithme élémentaire reconnaît une caractéristique, et la combinaison des éléments prédits conduit à la prédiction globale des gènes
Limite de l’usage du code : il n’est pas uniforme.• Certains gènes (souvent les plus exprimés) ont un biais de codon très
fort, et d’autres beaucoup plus faible, voire neutre• Composition particulière (ex. GC% élevé) ou origine phylogénétique
distincte (Transfert horizontal)• Certains gènes ont un biais de composition en acides aminés (par
exemple les protéines membranaires intrinsèques) • A l’intérieur même des gènes :
• aller en se dégradant de l’ATG initiateur au Stop. • séquences d’adressage N-terminales
P.Rouzé, Carry Le Rouet, 2006
Méthodes ab initio
At3g01540
EST
AGI
BACEugene
Limites des méthodes- ATG initiateur toujours virtuel, - cDNAs « pleine longueur » souvent incomplets, - extrémités 3’ et 5’ rarement bien positionnées, - il peut même manquer des exons, - transcrits alternatifs sont (souvent) ignorés, - la modélisation automatique des gènes par positionnement des transcrits n’est pas sûre à 100% : cas des petits exons ou des petits introns oubliés
Maintenant que tout est répertorié dans les bases de données, est-il utile
d'apprendre à réaliser les annotations ?
Estimation :
si 1 % de la diversité connue (~100 000 espèces nommées)
alors <<< 0,1% est séquencé !
→ Reste donc beaucoup à faire …
Comment l'annotation se fait-elle ?
Beaucoup avec aide automatique mais toujours intervention des
biologistes
→ Sujet de cette première partie :
annotation d'une famille de gènes chez la plante Arabidopsis thaliana
Utilité de l'annotation ?
Espèce eucaryote
→ Arabidopsis thaliana
Annotation d'une famille de gènes
→ la famille des gènes Wox
Cible fonctionnelle
→ rôles dans les méristèmes
Cas d'étude
Objectif 1 : annotation structurale des gènes Wox
1.1 Annotation du gène Wuschel
1.2 Annotaion des membres de la famille WOX
Identification des membres de la famille
Extraction des séquences génomiques
Annotation structurale
Objectif 2 : annotation fonctionnelle et évolution
2.1 Evolution des gènes WOX
Arbre phylogénique
2.2 Etude de l'homéodomaine
Plan
Introns : annotation structuraleavant annotation fonctionnelle
Les gènes d’une même famille partagent souvent leur structure intron-exon
?
Arabidopsis thaliana
http://mips.gsf.de/proj/thal/ens/index.html
AK118405
AJ270310
AJ270309
AJ270308
AJ270307
AJ270306
AJ270305AJ270304
AJ270302
AJ270301
AJ270300AJ270299
AJ270297
AJ270298
ex. gènes de la famille des β-galactosidase
• Cellules peu différenciées des plantes :
multiplication continue (cf. cellules
souches), genèse des tissus et organes.
• Plusieurs chez Arabidopsis thaliana :
– Méristème apical (tige, feuille)
– Méristème floral (transition florale)
– Méristème racinaire
http://mips.gsf.de/proj/thal/ens/index.html
Les Méristèmes
chez A.thalianaBowman and Eshed, 2000
L1 : épidermeL2 : tissus fondamentauxL3 : tissus vasculaires
CZ : zone centrale → cellules souchesPZ : zone périphérique → initiation des organes latéraux (feuilles, pièces florales, bourgeons axillaires)RZ : zone de nervure → différenciation des cellules de la tige en croissance
WUS : wuschelSTM : shootmeristemless CUC2 : cupshapedcotyledonsANT : aintagumentaCLV1 : clavata 1
Génèse du méristème apical
Maintenance du méristème apical
Bowman and Eshed, 2000
acide
WUS box LELXL
N C1 292
Motifs de la protéine AtWUS :
Homéodomaine
WUSCHEL : gène très étudié rôle dans le méristème des angiospermes
(plantes à fleurs)
impliqué dans le développement de la fleur : régulateur de l’auto-maintien du méristème
boucle de régulation CLAVATA3 – WUSCHEL : la signalisation CLV3 régule négativement la taille de la population de cellules souches en réprimant WUSCHEL
• WUSCHEL : rôle dans l’initiation et l'auto-maintien du méristème, développement de l'ovule
• WOX1 : initiation de la vascularisation du primordium• WOX2 : développement zygote, spécification de la cellule apicale• WOX3 : développement des primordia latéraux• WOX4 : développement du procambium• WOX5 : maintien du méristème racinaire, prévient la différenciation• WOX6 : ovule patterning et différenciation • WOX8 : régulation de la croissance embryonnaire précoce• WOX9 : contrôle du cycle cellulaire, maintien de cellule en division ou
prévention de différenciation prémature
les gènes WOX joueraient un rôle dans la régulation de la division et dans la prévention de la différenciation
WOX : Wuschel related homeobOX
Objectif 1 : annotation structurale des gènes Wox
1.1 Annotation du gène Wuschel
1.2 Annotaion des membres de la famille WOX
Identification des membres de la famille
Extraction des séquences génomiques
Annotation structurale
Objectif 2 : annotation fonctionnelle et évolution
2.1 Evolution des gènes WOX
Arbre phylogénique
2.2 Etude de l'homéodomaine
Plan
Annotation structurale
Objectif : - Annoter la structure du gène présent sur la région
chromosomique proposée :
Exons – Introns – UTRs - Produit
Moyens : - Identifier les ESTs associés à la région : fouille dans les DB
- Aligner les ESTs sur la séquence génomique
=> l'alignement indique les positions (UTRs, exons)
- Traduction pour obtenir la séquence protéique
Recherche des ESTs :
Blastn au NCBI dédié à Arabidopsis thaliana
BD ESTs, query génomique wuschel,
Donnée : génomique wushel
1.1 Annotation structuraledu gène wuschel
Sélection des ESTs pertinents
Reconstruction manuelle de la structure du gène :
EMBOSS, sixpack, génomique wuschel
Résultat : séquence protéique au format Fasta
8 ESTs dont 3 à rejetter (83%id)
Aide pour identifier le CDS :
Blastx au NCBI, BD nr,
query génomique wuschel
NCBI (National Center for Biotechnology Information) :
http://www.ncbi.nlm.nih.gov/
EMBOSS (European Molecular Biology Open Software Suite) :
http://bips.u-strasbg.fr/EMBOSS/
WebLogo (generation of sequence logos) :
http://weblogo.berkeley.edu/logo.cgi
Prosite (Database of protein domains, families and functional sites) :
http://www.expasy.ch/prosite/
Phylogeny « one click mode » (robust phylogenetic analysis for the non-specialist) :
http://phylogeny.lirmm.fr/phylo_cgi/simple_phylogeny.cgi
URL des sites référencés
1.2 Annotation structurale des membres de la famille Wox
Objectifs
Identifier et annoter tous les membres d’une famille dans un génome
Moyens
- Recherche des paralogues par similarité avec WUS
- Identification et alignement des ESTs
- Annotation structurale des gènes
33
Donnée : protéine wuschel (cf.1)
Identification des gènesde la famille Wox
Répartir les gènes
entre les étudiants
Recherche des gènes de la famille :
tblastn au NCBI, BD NCBI Genomes (Chromosomes),
Query protéine Wuschel, Filtre organisme Arabidopsis thaliana
Chr2 :- 7809601 : WUS- 12262130 : 1- 225751 : 2- 14343350 : 3
Chr5 :- 23934597 : 4- 1334571 : 5- 18649409 : 6- 5882545 : 7
Chr3 :- 6162864 : 8- 3527675 : 9- 892069 : 10
Chr1 :- 17237470 : 11- 7183426 : 12- 7184831 : 13
Chr4 :- 16876464 : 14
Filtre des hits selon le domaine
protéique conservé dans la famille
Récupérer coordonnées +/- 2000 bp pour inclure protéine complète + UTR + n° chr
Attention au sens du gène
NCBI : « Popular Ressources », « Genome » (à gauche)
« Browse by organism groups » « Eukaryota » (au centre)
Chercher « Arabidopsis thaliana », cliquer sur « M »
Choisir le chromosome
« Download/ViewSequence/Evidence » (à droite)
remlpir le formulaire (coordordonnées : « from » « to »), « Save to Disk »
Résultat : fichier du génomique en Fasta
Vérifier que c'est la bonne région (blastx)
Récupération des séquences génomiquesdes paralogues
Recherche ESTs :
Blastn au NCBI, dédié à Arabidopsis thaliana
BD ESTs, query génomique
Alignement ESTs / génomique :
EMBOSS, est2genome, ESTs + génomique
Donnée : génomique du gène d'intérêt
Annotation structurale des gènes Wox
Sélection des ESTs pertinents
(si pas d'EST, prendre le gène suivant)
Reconstruction manuelle de la structure du gène
Vérification avec : EMBOSS, sixpack
Résultat : séquence protéique au format fasta
(à envoyer par mail à [email protected])
Attention : la ligne de commentaire fasta est transformée en plusieurs lignes lors d'un copier coller manuel
Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378
Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378
Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378
Type de fragment e-value pos. début-fin séq.génomiqueScore d'alignement pos. début-fin seq.EST
Commentaire orientation des séquences
4 types de fragments : 1- chaque Exon 2- chaque Intron :
un ? Indique qu'il ne commence ni par un GT ni se termine par un AG, un + sens direct, sites d'épissage GT/AG, un – pour le sens reverse, sites d'épissage CT/AC
3- l'alignement complet (Span) dont le score inclus le coût des introns 4- chaque segments individuel, sans gap. Les coordonnées de la séquence génomique se réfèrent toujours au brin + mais sont inversées si l'EST s'aligne dans l'autre sens
Sortie de « est2genome »Ath Chr2, de 7807871 à 7811795 et EST DR750378
Interprétation de la sortie est2genome
Reconstruction manuelle du modèle de gène (1) :
CT AC1230 152315241614
1615CT AC1703 1704 2305
2306 2680
89 bp294 bp 375 bp91 bp 602 bp
Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378
Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378
Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378
DR750378
DR750378
Exon 281 100.0 2666 2946 NC_003071_7807871-7811795 1 281 DR349756
29462666
281 bp
DR349756
DR750378 + DR349756
CT AC1230 152315241614
1615CT AC1703 1704 2305
2306 2680
89 bp294 bp 375 bp91 bp 602 bp
DR750378
CT AC1230 152315241614
1615CT AC1703 1704 2305
2306
89 bp294 bp 641 bp91 bp 602 bp
2946
Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 ...
DR750378 + DR349756 + DR381589 ...
Reconstruction manuelle du modèle de gène (2) :
Régulation tissus-spécifique :Évolution séquences
régulatrices ?
Structuration :Nouvelles fonctions
Polyploïdie ? Spéciation ?
Acquisitionidentité méristématique ?
La lignée verte
Bryophytes
Ptéridophytes
Gymnospermes
Angiospermes
Prasinophytes
Evolution du méristème
41
O.tauri
P.patens
A.thaliana, O.sativa
S.smollendorfii
Evolution des gènes WOX : Choix des espèces modèles
Objectif 1 : annotation structurale des gènes Wox
1.1 Annotation du gène Wuschel
1.2 Annotaion des membres de la famille WOX
Identification des membres de la famille
Extraction des séquences génomiques
Annotation structurale
Objectif 2 : annotation fonctionnelle et évolution
2.1 Evolution des gènes WOX
Arbre phylogénique
2.2 Etude de l'homéodomaine
Plan
Utiliser les données de l'annotation
Evolution du méristème par le biais de l'étude de l'évolution des gènes Wox ?
→ identifier les gènes Wox dans d'autres espèces
2.1 – Evolution des gènes WOXObjectif
Etudier l’évolution de la famille en utilisant d’autres espèces
Retracer les origines des gènes WOX
Moyen
réaliser un arbre phylogénétique
observer les événements de duplication ayant donné naissance aux différents gènes WOX
Choix des espèces : algue + mousse + riz– possèdent un génome annoté
– sont réparties dans l'arbre des espèces 44
Phylogénie : phylogeny.fr « one click mode »
Alignement muscle + phyML
Evolution de la famille des gènes WOX chez les plantes
Donnée : Fichier fasta protéine WOX (cf. 2)
Résultat : discuter l'arbre obtenu
Blastp, NCBI, DB : Non-redondant protein sequences (nr)
Pour 3 organismes : Oryza sativa Indica (riz)
Physcomitrella patens (mousse)Ostreococccus tauri (algue)
Sélection des séquences protéiques conservées (E<10-4)
(renommer les séquences pour la clarté de l'arbre)
Interprétation de l’arbre
Quels sont les plus anciens Wox?
Quelles sont les duplications récentes?
Scénario d’apparition des gènes Wox chez les plantes?
46
2.2 – Etude de l'homéodomaine
47
ObjectifIdentifier le(s) domaine(s) protéique(s)
conservé(s) dans la famille WOX
Moyen
Rechercher la séquence consensus de l'homéodomaine dans l'alignement multiple
Séquence Consensus
Donnée : alignement obtenu avec phylogeny.fr
Résultat : représentation en séquence logo du domaine
Extraction de la séquence consensus
(conservé dans toutes les séquences)
48
Attention : l'étape « 4-curation » (cured alignement in FASTA format) ne conserve pas l'alignement
Visualisation avec WebLogo
49
Deveaux et al, 2008Motif homéodomaine des WOX
Motif homéodomaine dans Prosite
Comparaison des homéodomaines
Discuter les différences avec l'homéodomaine « générique »Motif Prosite : PS50071
Données : Gènes / protéines dans différentes espèces (5 espèces, 35 gènes sélectionnés)
recherche dans les BD de séquences, parfois contigage+annotation ou ré-annotation
Analyses : 1- Conservation de la structure intron-exon des gènes ? → annotation structurale
2- Conservation de domaines protéiques ? → études des séquences protéiques
3- Evolution de la famille de gènes ? → Alignement multiple sur l'homéodomaine
Intégration visuelle des résultats :1- Introns : « phase » 0, 1 ou 2 + conservation des aa au « point d'insertion »
2- Visualisation des domaines sur les séquences protéiques (à l'échelle)
3- Arbre phylogénétique sur l'homéodomaine
Cet ensemble d'analyses conforte l'abre obtenu
Evolution des gènes Wox : synthèse
51Deveaux et al, 2008
homéodomainewox1wus LELxLwox8 LQxGwox8 VFINwox13 MTeeQ
intron phase 0
phase 1phase 2
aa conservés
O.tauri
P.patens
S.smollendorfii
O.sativa
A.thaliana