1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret :...

1

Analyse in silico de génomes, protéomes et transcriptomes

D. Gautheret : [email protected]. Toffano-Nioche : [email protected]

Plan de l’UE

• Partie 1: annotation des gènes– Annotation structurale (analyse séq ADN)– Annotation fonctionnelle (analyse séq Protéique)

• Partie 2: génomique comparative– Initiation à Linux/Blast sous Linux– Extraction de gènes de génomes bactériens– Outils de comparaison de génomes– Comparaison de génomes / gènes communs

Annotation « structurale » : identifier les gènes et leurs éléments (features »)• CDS, ARN, …• Repeats• Signaux de régulation

Annotation « fonctionnelle » : attribution de fonctions Produits de gènes Motifs structuraux, ...

E.Talla, http://biologie.univ-mrs.fr/upload/p211/CM_Master_AnnotGenomes_2007.pdf

Niveaux d'annotation d'un génome

Détection par contenu

Généralement par similarité

Objets

individuels

BD

Annotation « relationnelle » : relation entre entitésAu sein d'un génome : - Voies métaboliques - Réseaux d'interactions géniques

- Familles de paraloguesPlusieurs génomes, génomique comparative :

- Groupes de synténie (ordre des gènes)- Groupes d'orthologues, ...

Objets

relationnels

En pratique, le plus souvent, positionner les gènes et leurs produits : transcrits, protéines ..

mais aussi – quelquefois – d’autres objects, comme les éléments transposables, les motifs de régulation, les domaines protéiques, etc…

En général, implicitement, les gènes codants pour les protéines

mais aussi – souvent - les gènes codant pour les ARNt, les ARNr, et - quelquefois - d’autres ARNs (snRNAs, snoRNAs, miRNAs, ...)

Annotation Structurale

Positionner les éléments génétiques sur la séquence génomique

… de manière précise, complète et exhaustive

P.Rouzé, Carry Le Rouet, 2006

Rappel: caractéristiques des génomes eucaryotes

• Dans le noyau• Taille 10Mb à > 10Gb• Plusieurs chromosomes (homme 23, cheval 32,

levure 16, drosophile 4…) • Plusieurs origines de réplication par

chromosome• Gènes « disloqués » (exons, introns)• Grandes régions intergéniques

5

Rappel: le gène eucaryote

6

transcription

maturation

traduction

coiffeARNm mature

Pré ARNm

Protéine

AAAAAAAAAAAAAAAAAAAA

7

Densité des gènes eucaryotes

Densité moyenne: – S. Cerevisiae: 1 gène/2kb.– Drosophile: 1gène/10kb– Maïs: 1 gène tous les

70kb– Humain: 1 gène tous

les 100kb From « Genomes 2 », T.A. Brown

8

Annotation...agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttt

agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttaggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggtaacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggtacatcagtggcaaatgcagaacgttttctgcgtgttgctaatattctggaaagcaatgccaggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtggcgatgattgaaaaaaccattagcggccaggatgctttacccaatatcagcgatgccgaacgtatttttgccgaacttttgacgggactcgccgccgcccagccggggttcccgctggcgcaattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgagaaaatgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattgctgagtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccgactactctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagtcgatgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatcctcaagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaagggatggtcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgactgtgtgcgagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtatgcgcaccttgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatgcgaccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagcaaagctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaagccaaagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttcctgcgcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacaccaacgttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttagacgaaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctcgtgaaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctatgcgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatctctttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgctgttcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttgctgatctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacctgttgatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttatcagtgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcgctgatggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgttttctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaagccagggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatgaaagatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttgttcgctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacgagtactggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctgcc

ggaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgcgtgcgcgcggcgtttgccttcccggctccggtcgccaatgttgaaagcgatgtcggttgtctggaattgttccacgggccaacgctggcatttaaagatttcggcggtcgctttatggcacaaatgctgacccatattgcgggtgataagccagtgaccattctgaccgcgacctccggtgataccggagcggcagtggctcatgctttctacggtttaccgaatgtgaaagtggttatcctctatccacgaggcaaaatcagtccactgcaagaaaaactgttctgtacattgggcggcaatatcgaaactgttgccatcgacggcgatttcgatgcctgtcaggcgctggtgaagcaggcgtttgatgatgaagaactgaaagtggcgctagggttaaactcggctaactcgattaacatcagccgtttgctggcgcagatttgctactactttgaagctgttgcgcagctgccgcaggagacgcgcaaccagctggttgtctcggtgccaagcggaaacttcggcgatttgacggcgggtctgctggcgaagtcactcggtctgccggtgaaacgttttattgctgcgaccaacgtgaacgataccgtgccacgtttcctgcacgacggtcagtggtcacccaaagcgactcaggcgacgttatccaacgcgatggacgtgagtcagccgaacaactggccgcgtgtggaagagttgttccgccgcaaaatctggcaactgaaagagctgggttattaagccgtggatgatgaaaccacgcaacagacaatgcgtgagttaaaagaactgggctacacttcggagccgcacgctgccgtagcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggatctgccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctcaatcaggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcggagaataacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctggtcgctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggctggtggaaacaacattatgaatggcgaggcaatcgctggcacctacacggaccgccgccaccgccgcgccaccataagaaagctcctcatgatcatcacggcggtcatggtccaggcaaacatcaccgctaaatgacaaatgccgggtaacaatccggcattcagcgcctgatgcgacgctggcgcgtcttatcaggcctacgttaattctgcaatatattgaatctgcatgcttttgtaggcaggataaggcgttcacgccgcatccggcattgactgcaaacttaacgctgctcgtagcgtttaaacaccagttcgccattgctggaggaatcttcatcaaagaagtaaccttcgctattaaaaccagtcagttgctctggtttggtcagccgattttcaataatgaaacgactcatcagaccgcgtgctttcttagcgtagaagctgatgatcttaaatttgccgttcttctcatcgaggaacaccggcttgataatctcggcattcaatttcttcggcttcaccgatttaaaatactcatctgacgccagattaatcaccacattatcgccttgtgctgcgagcgcctcgttcagcttgttggtgatgatatctccccagaattgatacagatctttccctcgggcattctcaagacggatccccatttccagacgataaggctgcattaaatcgagcgggcggagtacgccatacaagccggaaagcattcgcaaatgctgttgggcaaaatcgaaatcgtcttcgctgaaggtttcggcctgcaagccggtgtagacatcacctttaaacgccagaatcgcctggcgggcattcgccggcgtgaaatctggctgccagtcatgaaagcgagcggcgttgatacccgccagtttgtcgctgatgcgcatcagcgtgctaatctgcggaggcgtcagtttccgcgcctcatggatcaactgctgggaattgtctaacagctccggcagcgtatagcgcgtggtggtcaacgggctttggtaatcaagcgttttcgcaggtgaaataagaatcagcatatccagtccttgcaggaaatttatgccgactttagcaaaaaatgagaatgagttgatcgatagttgtgattactcctgcgaaacatcatcccacgcgtccggagaaagctggcgaccgatatccggataacgcaatggatcaaacaccgggcgcacgccgagtttacgctggcgtagataatcactggcaatggtatgaaccacaggcgagagcagtaaaatggcggtcaaattggtaatagccatgcaggccattatgatatctgccagttgccacatcagcggaaggcttagcaaggtgccgccgatgaccgttgcgaaggtgcagatccgcaaacaccagatcgctttagggttgttcaggcgtaaaaagaagagattgttttcggcataaatgtagttggcaacgatggagctgaaggcaaacagaataaccacaagggtaacaaactcagcaccccaggaacccattagcacccgcatcgccttctggataagctgaataccttccagcggcatgtaggttgtgccgttacccgccagtaatatcagcatggcgcttgccgtacagatgaccagggtgtcgataaaaatgccaatcatctggacaatcccttgcgctgccggatgcggaggccaggacgccgctgccgctgccgcgtttggcgtcgaacccattcccgcctcattggaaaacatactgcgctgaaaaccgttagtaatcgcctggcttaaggtatatcccgccgcgccgcctgccgcttcctgccagccaaaagcactctcaaaaatagaccaaatgacgtggggaagttgcccgatattcattacgcaaattaccaggctggtcagtacccagattatcgccatcaacgggacaaagccctgcatgagccgggcgacgccatgaagaccgcgagtgattgccagcagagtaaagacagcgagaataatgcctgtcaccagcgggggaaaatcaaaagaaaaactcagggcgcgggcaacggcgttcgcttgaactccgctgaaaattatgccataggcgatgagcaaaaagacggcgaacagaacgcccatccagcgcatccccagcccgcgcgccatataccatgccggtccgccacgaaactgcccattgacgtcacgttctttataaagttgtgccagagaacattcggcaaacgaggtcgccatgccgataaacgcggcaacccacatcca

Exon 1

Exon 2

Exon 3

Exon 4

Start

Stop polyA

TF binding site

TATA Box

Expérimentaleson aligne la séquence génomique et la séquence du transcrit associé (ADNc), complet, isolé

sur le même organisme (méthode la + sûre mais la + longue)

Comparatives (extrinsèques) on compare la séquence génomique aux séquences des ESTs dont on dispose on compare la séquence génomique à la séquence génomique d’autres espèces on traduit la séquence génomique en protéine sur ses 6 phases que l'on compare aux

séquences des protéines contenues dans les banques de données

Ab initio (intrinsèques)on apprend à reconnaître les particularités communes à plusieurs gènes connus du génome,

puis on recherche ces particularités sur la séquence génomique

Intégratives combinaison de ces méthodes (ex. Eugène)

MéthodesP.Rouzé, Carry Le Rouet, 2006

ADNgénomique

transcription

épissage

traduction

ARNpré-messager

ARNmessager

protéine

Lac ZAmpR

Ori

Banque de vecteurs

Alignement = positionnement

EST 5'

En rouge : séquences accessibles dans les bases de données de séquences

Insert

cDNAEST 3'

Méthodes comparatives : Alignements de séquences

très semblable à l'approche expérimentale, les ESTs étant des fragments d’ADNc isolés à partir de cellules de l’organisme étudié.moins biaisée, puisque les ESTs sont séquencés de manière systématique : les transcrits alternatifs seront séquencés … s’ils sont exprimés.

Les problèmes de l’emploi d’ESTs :

• qualité médiocre et peuvent contenir des erreurs de séquence

• contaminés par des copies d’ADN génomique

• ne recouvrent qu’une partie du transcrit, normalement l’extrémité à partir de laquelle le séquençage a été amorcé (souvent 3’)

• reflètent l’expression du génome : les gènes non (peu) exprimés dans les conditions où les transcrits ont été isolés n’y figurent pas

• peuvent être attribuées à des paralogues du gène

Les avantages (sous-estimés) : les paires d’ESTs 5’-3’, la directionalité ..

Méthodes comparatives : ESTs


12

Blast génome contre dbEST

Dans l'exemple ci-contre, on a réalisé un Blastn d'un contig de 5 kb contenant un gène unique contre la banque dbEST. Le premier hit est clairement un artefact (séquences répétées).

At5g11170

EST

AGI

BACEugene

Un cas trompeur : quand l'EST commence dans l'intron

Comparaison ADN génomique - ADN génomique

Méthode basée sur l’évolution des génomes : les séquences codantes sont les régions les plus conservées entre génomes apparentésLa comparaison de deux, ou mieux plusieurs génomes apparentés entre eux conduit à trouver les régions conservées qu’on attribue aux exons codants.

Avantages : ne dépend ni de l’annotation préalable des génomes (les gènes absents des bases de données peuvent donc être trouvés) ni de l’expressivité des gènes.

Inconvénients : davantage un prédicteur d’exons qu’un prédicteur de gènes, ne fonctionne que dans une « fenêtre » évolutive assez étroite (le signal disparaît entre génomes trop distants et est très brouillé dans les génomes trop proches)

Méthodes comparatives : ADN génomique


Recherche dans les bases de données protéiques : principe

La logique de cette approche est basée sur l’existence de bases de données et sur l’évolution : si un gène GX a été décrit dans l’espèce X, on le retrouvera dans l’espèce Y apparentée … et la séquence du produit de ce gène, GY (sur lequel agit la sélection) sera similaire à la séquence de la protéine codée par GX

Si les espèces X et Y sont vraiment très proches, la seule connaissance de la séquence protéique d’un gène GX de l’espèce X peut permettre la modélisation de son orthologue GY (et dans une moindre mesure de ses paralogues) sur le génome de Y

Si X et Y sont plus distants, ou si le gène G évolue rapidement, alors on aura la trace que ce gène existe chez Y, mais on ne pourra pas bâtir de manière sûre un modèle (complet) du gène GY sur la séquence génomique

Et si GY est un gène orphelin, on ne verra même pas qu’il existe par ce moyen…

Méthodes comparatives : protéines


Recherche dans les bases de données protéiques : problèmes

Les bases de données de séquences protéiques : traduction automatique de séquences nucléiques annotées (en majorité)

Si les séquences des BD sont incomplètes, ou ont été mal annotées alors les séquences protéiques déduites seront partielles ou erronées.

Types d’erreurs : • modestes : absence ou mauvaise frontière d’exon, • sérieuses : frameshifts, fusion ou rupture de gènes, • graves : gène inexistant. => intérêt de BD de protéines validées par des experts (ex: SwissProt)

Si les programmes d’annotation utilisent ces bases de données (ex: TrEMBL) les erreurs sont récursives et on finit par bâtir des familles entières de gènes imaginaires …

Méthodes comparatives : protéines


Toute séquence d’ADN n’est pas celle d’un gène.Les séquences codantes pour des gènes ont une particularité forte : codons. La probabilité de voisinage de deux codons n’est pas non plus le fait du hasard.

Chaque (groupe de) génome(s) a un style qui lui est propre : usage du code, typologie des motifs, fréquence, taille et contenu des introns, nature et taille des régions non-traduites et des régions intergéniques …Reconnaître l’usage du code génétique propre à chaque organisme permet de l’utiliser en retour pour trouver quel segment d’ADN a tendance à suivre cet usage particulier.La prédiction du « potentiel codant » se fait par la recherche de distribution des hexanucléotides, ou par des méthodes d’analyse markovienne. En pratique, on utilise des chaînes de Markov phasées d’ordre 4, 5 ou 6 (GeneMark) ou « interpolées » d’ordre 1 & 2 & 3.. (Glimmer).

Autres méthodes : FFT, codant/intergénique : corrélations à petites/grandes échellesZ-curve : représentation 3D de 3 caratéristiques des nucléotides

L’annotation structurale des génomes bactériens (pas ou peu d’introns) fonctionne très bien avec ces méthodes

Méthodes ab initio


exon intron exon

97.5%

2.5%

Site accepteurSite donneur


Exemple issus du génome de Laccaria bicolor (champignon basidiomycète)

Motifs des sites d'épissage

Processus en deux phases :Apprentissage : rassembler des gènes bien documentés, en extraire

les données informatives et entraîner les algorithmes à les reconnaître individuellement

Prédiction : chaque algorithme élémentaire reconnaît une caractéristique, et la combinaison des éléments prédits conduit à la prédiction globale des gènes

Limite de l’usage du code : il n’est pas uniforme.• Certains gènes (souvent les plus exprimés) ont un biais de codon très

fort, et d’autres beaucoup plus faible, voire neutre• Composition particulière (ex. GC% élevé) ou origine phylogénétique

distincte (Transfert horizontal)• Certains gènes ont un biais de composition en acides aminés (par

exemple les protéines membranaires intrinsèques) • A l’intérieur même des gènes :

• aller en se dégradant de l’ATG initiateur au Stop. • séquences d’adressage N-terminales


Méthodes ab initio

At3g01540

EST

AGI

BACEugene

Limites des méthodes- ATG initiateur toujours virtuel, - cDNAs « pleine longueur » souvent incomplets, - extrémités 3’ et 5’ rarement bien positionnées, - il peut même manquer des exons, - transcrits alternatifs sont (souvent) ignorés, - la modélisation automatique des gènes par positionnement des transcrits n’est pas sûre à 100% : cas des petits exons ou des petits introns oubliés

Maintenant que tout est répertorié dans les bases de données, est-il utile

d'apprendre à réaliser les annotations ?

Estimation :

si 1 % de la diversité connue (~100 000 espèces nommées)

alors <<< 0,1% est séquencé !

→ Reste donc beaucoup à faire …

Comment l'annotation se fait-elle ?

Beaucoup avec aide automatique mais toujours intervention des

biologistes

→ Sujet de cette première partie :

annotation d'une famille de gènes chez la plante Arabidopsis thaliana

Utilité de l'annotation ?

Espèce eucaryote

→ Arabidopsis thaliana

Annotation d'une famille de gènes

→ la famille des gènes Wox

Cible fonctionnelle

→ rôles dans les méristèmes

Cas d'étude

Objectif 1 : annotation structurale des gènes Wox

1.1 Annotation du gène Wuschel

1.2 Annotaion des membres de la famille WOX

Identification des membres de la famille

Extraction des séquences génomiques

Annotation structurale

Objectif 2 : annotation fonctionnelle et évolution

2.1 Evolution des gènes WOX

Arbre phylogénique

2.2 Etude de l'homéodomaine

Plan

Introns : annotation structuraleavant annotation fonctionnelle

Les gènes d’une même famille partagent souvent leur structure intron-exon

?

Arabidopsis thaliana

http://mips.gsf.de/proj/thal/ens/index.html

AK118405

AJ270310

AJ270309

AJ270308

AJ270307

AJ270306

AJ270305AJ270304

AJ270302

AJ270301

AJ270300AJ270299

AJ270297

AJ270298

ex. gènes de la famille des β-galactosidase

• Cellules peu différenciées des plantes :

multiplication continue (cf. cellules

souches), genèse des tissus et organes.

• Plusieurs chez Arabidopsis thaliana :

– Méristème apical (tige, feuille)

– Méristème floral (transition florale)

– Méristème racinaire

http://mips.gsf.de/proj/thal/ens/index.html

Les Méristèmes

chez A.thalianaBowman and Eshed, 2000

L1 : épidermeL2 : tissus fondamentauxL3 : tissus vasculaires

CZ : zone centrale → cellules souchesPZ : zone périphérique → initiation des organes latéraux (feuilles, pièces florales, bourgeons axillaires)RZ : zone de nervure → différenciation des cellules de la tige en croissance

WUS : wuschelSTM : shootmeristemless CUC2 : cupshapedcotyledonsANT : aintagumentaCLV1 : clavata 1

Génèse du méristème apical

Maintenance du méristème apical

Bowman and Eshed, 2000

acide

WUS box LELXL

N C1 292

Motifs de la protéine AtWUS :

Homéodomaine

WUSCHEL : gène très étudié rôle dans le méristème des angiospermes

(plantes à fleurs)

impliqué dans le développement de la fleur : régulateur de l’auto-maintien du méristème

boucle de régulation CLAVATA3 – WUSCHEL : la signalisation CLV3 régule négativement la taille de la population de cellules souches en réprimant WUSCHEL

• WUSCHEL : rôle dans l’initiation et l'auto-maintien du méristème, développement de l'ovule

• WOX1 : initiation de la vascularisation du primordium• WOX2 : développement zygote, spécification de la cellule apicale• WOX3 : développement des primordia latéraux• WOX4 : développement du procambium• WOX5 : maintien du méristème racinaire, prévient la différenciation• WOX6 : ovule patterning et différenciation • WOX8 : régulation de la croissance embryonnaire précoce• WOX9 : contrôle du cycle cellulaire, maintien de cellule en division ou

prévention de différenciation prémature

les gènes WOX joueraient un rôle dans la régulation de la division et dans la prévention de la différenciation

WOX : Wuschel related homeobOX









Arbre phylogénique


Plan


Objectif : - Annoter la structure du gène présent sur la région

chromosomique proposée :

Exons – Introns – UTRs - Produit

Moyens : - Identifier les ESTs associés à la région : fouille dans les DB

- Aligner les ESTs sur la séquence génomique

=> l'alignement indique les positions (UTRs, exons)

- Traduction pour obtenir la séquence protéique

Recherche des ESTs :

Blastn au NCBI dédié à Arabidopsis thaliana

BD ESTs, query génomique wuschel,

Donnée : génomique wushel

1.1 Annotation structuraledu gène wuschel

Sélection des ESTs pertinents

Reconstruction manuelle de la structure du gène :

EMBOSS, sixpack, génomique wuschel

Résultat : séquence protéique au format Fasta

8 ESTs dont 3 à rejetter (83%id)

Aide pour identifier le CDS :

Blastx au NCBI, BD nr,

query génomique wuschel

NCBI (National Center for Biotechnology Information) :

http://www.ncbi.nlm.nih.gov/

EMBOSS (European Molecular Biology Open Software Suite) :

http://bips.u-strasbg.fr/EMBOSS/

WebLogo (generation of sequence logos) :

http://weblogo.berkeley.edu/logo.cgi

Prosite (Database of protein domains, families and functional sites) :

http://www.expasy.ch/prosite/

Phylogeny « one click mode » (robust phylogenetic analysis for the non-specialist) :

http://phylogeny.lirmm.fr/phylo_cgi/simple_phylogeny.cgi

URL des sites référencés

1.2 Annotation structurale des membres de la famille Wox

Objectifs

Identifier et annoter tous les membres d’une famille dans un génome

Moyens

- Recherche des paralogues par similarité avec WUS

- Identification et alignement des ESTs

- Annotation structurale des gènes

33

Donnée : protéine wuschel (cf.1)

Identification des gènesde la famille Wox

Répartir les gènes

entre les étudiants

Recherche des gènes de la famille :

tblastn au NCBI, BD NCBI Genomes (Chromosomes),

Query protéine Wuschel, Filtre organisme Arabidopsis thaliana

Chr2 :- 7809601 : WUS- 12262130 : 1- 225751 : 2- 14343350 : 3

Chr5 :- 23934597 : 4- 1334571 : 5- 18649409 : 6- 5882545 : 7

Chr3 :- 6162864 : 8- 3527675 : 9- 892069 : 10

Chr1 :- 17237470 : 11- 7183426 : 12- 7184831 : 13

Chr4 :- 16876464 : 14

Filtre des hits selon le domaine

protéique conservé dans la famille

Récupérer coordonnées +/- 2000 bp pour inclure protéine complète + UTR + n° chr

Attention au sens du gène

NCBI : « Popular Ressources », « Genome » (à gauche)

« Browse by organism groups » « Eukaryota » (au centre)

Chercher « Arabidopsis thaliana », cliquer sur « M »

Choisir le chromosome

« Download/ViewSequence/Evidence » (à droite)

remlpir le formulaire (coordordonnées : « from » « to »), « Save to Disk »

Résultat : fichier du génomique en Fasta

Vérifier que c'est la bonne région (blastx)

Récupération des séquences génomiquesdes paralogues

Recherche ESTs :

Blastn au NCBI, dédié à Arabidopsis thaliana

BD ESTs, query génomique

Alignement ESTs / génomique :

EMBOSS, est2genome, ESTs + génomique

Donnée : génomique du gène d'intérêt

Annotation structurale des gènes Wox

Sélection des ESTs pertinents

(si pas d'EST, prendre le gène suivant)

Reconstruction manuelle de la structure du gène

Vérification avec : EMBOSS, sixpack

Résultat : séquence protéique au format fasta

(à envoyer par mail à [email protected])

Attention : la ligne de commentaire fasta est transformée en plusieurs lignes lors d'un copier coller manuel

Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378

Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378

Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378

Type de fragment e-value pos. début-fin séq.génomiqueScore d'alignement pos. début-fin seq.EST

Commentaire orientation des séquences

4 types de fragments : 1- chaque Exon 2- chaque Intron :

un ? Indique qu'il ne commence ni par un GT ni se termine par un AG, un + sens direct, sites d'épissage GT/AG, un – pour le sens reverse, sites d'épissage CT/AC

3- l'alignement complet (Span) dont le score inclus le coût des introns 4- chaque segments individuel, sans gap. Les coordonnées de la séquence génomique se réfèrent toujours au brin + mais sont inversées si l'EST s'aligne dans l'autre sens

Sortie de « est2genome »Ath Chr2, de 7807871 à 7811795 et EST DR750378

Interprétation de la sortie est2genome

Reconstruction manuelle du modèle de gène (1) :

CT AC1230 152315241614

1615CT AC1703 1704 2305

2306 2680

89 bp294 bp 375 bp91 bp 602 bp

Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 -Intron -20 0.0 1704 2305 NC_003071_7807871-7811795Exon 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378

Span 714 99.7 1230 2680 NC_003071_7807871-7811795 100 857 DR750378

Segment 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 Segment 89 100.0 1615 1703 NC_003071_7807871-7811795 394 482 DR750378 Segment 375 100.0 2306 2680 NC_003071_7807871-7811795 483 857 DR750378

DR750378

DR750378

Exon 281 100.0 2666 2946 NC_003071_7807871-7811795 1 281 DR349756

29462666

281 bp

DR349756

DR750378 + DR349756

CT AC1230 152315241614

1615CT AC1703 1704 2305

2306 2680

89 bp294 bp 375 bp91 bp 602 bp

DR750378

CT AC1230 152315241614

1615CT AC1703 1704 2305

2306

89 bp294 bp 641 bp91 bp 602 bp

2946

Note Best alignment is between forward est and forward genome, but splice sites imply REVERSED GENEExon 290 99.3 1230 1523 NC_003071_7807871-7811795 100 393 DR750378 -Intron -20 0.0 1524 1614 NC_003071_7807871-7811795Exon 89 100.0 ...

DR750378 + DR349756 + DR381589 ...

Reconstruction manuelle du modèle de gène (2) :

Régulation tissus-spécifique :Évolution séquences

régulatrices ?

Structuration :Nouvelles fonctions

Polyploïdie ? Spéciation ?

Acquisitionidentité méristématique ?

La lignée verte

Bryophytes

Ptéridophytes

Gymnospermes

Angiospermes

Prasinophytes

Evolution du méristème

41

O.tauri

P.patens

A.thaliana, O.sativa

S.smollendorfii

Evolution des gènes WOX : Choix des espèces modèles









Arbre phylogénique


Plan

Utiliser les données de l'annotation

Evolution du méristème par le biais de l'étude de l'évolution des gènes Wox ?

→ identifier les gènes Wox dans d'autres espèces

2.1 – Evolution des gènes WOXObjectif

Etudier l’évolution de la famille en utilisant d’autres espèces

Retracer les origines des gènes WOX

Moyen

réaliser un arbre phylogénétique

observer les événements de duplication ayant donné naissance aux différents gènes WOX

Choix des espèces : algue + mousse + riz– possèdent un génome annoté

– sont réparties dans l'arbre des espèces 44

Phylogénie : phylogeny.fr « one click mode »

Alignement muscle + phyML

Evolution de la famille des gènes WOX chez les plantes

Donnée : Fichier fasta protéine WOX (cf. 2)

Résultat : discuter l'arbre obtenu

Blastp, NCBI, DB : Non-redondant protein sequences (nr)

Pour 3 organismes : Oryza sativa Indica (riz)

Physcomitrella patens (mousse)Ostreococccus tauri (algue)

Sélection des séquences protéiques conservées (E<10-4)

(renommer les séquences pour la clarté de l'arbre)

Interprétation de l’arbre

Quels sont les plus anciens Wox?

Quelles sont les duplications récentes?

Scénario d’apparition des gènes Wox chez les plantes?

46

2.2 – Etude de l'homéodomaine

47

ObjectifIdentifier le(s) domaine(s) protéique(s)

conservé(s) dans la famille WOX

Moyen

Rechercher la séquence consensus de l'homéodomaine dans l'alignement multiple

Séquence Consensus

Donnée : alignement obtenu avec phylogeny.fr

Résultat : représentation en séquence logo du domaine

Extraction de la séquence consensus

(conservé dans toutes les séquences)

48

Attention : l'étape « 4-curation » (cured alignement in FASTA format) ne conserve pas l'alignement

Visualisation avec WebLogo

49

Deveaux et al, 2008Motif homéodomaine des WOX

Motif homéodomaine dans Prosite

Comparaison des homéodomaines

Discuter les différences avec l'homéodomaine « générique »Motif Prosite : PS50071

Données : Gènes / protéines dans différentes espèces (5 espèces, 35 gènes sélectionnés)

recherche dans les BD de séquences, parfois contigage+annotation ou ré-annotation

Analyses : 1- Conservation de la structure intron-exon des gènes ? → annotation structurale

2- Conservation de domaines protéiques ? → études des séquences protéiques

3- Evolution de la famille de gènes ? → Alignement multiple sur l'homéodomaine

Intégration visuelle des résultats :1- Introns : « phase » 0, 1 ou 2 + conservation des aa au « point d'insertion »

2- Visualisation des domaines sur les séquences protéiques (à l'échelle)

3- Arbre phylogénétique sur l'homéodomaine

Cet ensemble d'analyses conforte l'abre obtenu

Evolution des gènes Wox : synthèse

51Deveaux et al, 2008

homéodomainewox1wus LELxLwox8 LQxGwox8 VFINwox13 MTeeQ

intron phase 0

phase 1phase 2

aa conservés

O.tauri

P.patens

S.smollendorfii

O.sativa

A.thaliana

1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret :...

Documents

Transcript of 1 Analyse in silico de génomes, protéomes et transcriptomes D. Gautheret :...