Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations...

46
Génomique comparative Nadia El- Mabrouk

Transcript of Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations...

Page 1: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Génomique comparative

Nadia El- Mabrouk

Page 2: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

I. Introduction

Les génomes évoluent par:

– Mutations locales: Au niveau de la séquence; substitutions, insertions, suppressions de nuc.

– Mutations globales: Au niveau du génome; insertions, suppressions, duplications, déplacements de gènes ou de fragments de chromosomes

Page 3: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Pour étudier les mutations globales:

•Exploiter l’information contenue dans tout le génome.•Considérer la structure générale du génome (linéaire/circulaire, uni-chromosomique/multichromosomique).•Représenter un chromosome par un ordre de gènes (ou autres éléments constitutifs, ou blocs conservés).•Comparer deux génomes revient à comparer des ordres de gènes (ou des ordres de blocs).

Page 4: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Conserved synteny blocks from the mouse genome (MGSCv. 3.0) are overlaid on human chromosomes (April 2003, assembly). All conserved sytenic blocks >10 kb are shown.

Figure: Eichler et Sankoff, Science (2003)

Mutations globales

Page 5: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,
Page 6: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,
Page 7: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

A nc2 7 (before)

Inversion:

Transposition inversée:

Page 8: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Types de génomes

1. Génome circulaire1. Ordre des gènes signé

2. Non signé

2. Génome linéaire1. 1 ou plusieurs

chromosomes

2. Signé

3. Non signé

a

ec

g

d

f

+a -b -c +d +e -f -g

b

Page 9: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Types de mutations génomiques• Réarrangements Intra-chromosomales:

- Inversion: a b c d e f g h i j

a b -e -d -c f g h i j

Origine possible: Erreur de réplication

Page 10: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Transposition: Segment supprimé et réinséré à un autre endroit dans le génome

Page 11: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

• Translocation, fusion, fission

Translocation réciproque:

Fusion:

Fission:

Réarrangements inter-chromosomiques:

Page 12: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Translocation

http://smabiology.blogspot.com/

Page 13: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Duplications (en tandem ou transposées)

Pertes (inactivation, dégradation, élimination). Origine possible: cross-over inégal –> duplication locale et suppression

a b c d e

a b a b a b c d e

a b c d e f g h

a b c d e f b c d g h

Opérations modifiant le contenu

Page 14: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

http://www.daviddarling.info/encyclopedia/D/duplication.html

Duplication,Délétion

Page 15: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Model of WGD followed by massive gene loss predicts gene interleaving in sister regions. From Manolis Kellis, Bruce W. Birren and Eric S. Lander; Nature 428, 617-624, 2004

Duplication de génome

Page 16: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Duplication de génome

BromeChro num. 5

WeatChro num. 7

SorghumChro num. 10

MaizeChro num. 10

RiceChro num. 12

Page 17: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

http://www-etud.iro.umontreal.ca/~lafonman/MAGE2013/program.php

Page 18: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

II. Distances de réarrangement• Distance naturelle: Distance de points de

cassures (Breakpoints)

G: 1 5 6 3 2 4 7H: 7 2 3 4 5 6 1

Génomes circulaires non signés

G: +1 +5 +6 +3 +2 +4 +7 H: +7 +2 +3 +4 +5 +6 +1

Génomes circulaires signés

G: +1 +5 +6 +3 +2 +4 +7 H: +7 +2 +3 +4 +5 +6 +1

Génomes linéaires signés

Page 19: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Réarrangement par inversions

Problème: Deux génomes G et H contenant les mêmes gènes mais dans un ordre différent. Nombre minimal d’inversions pour passer de G à H?

Page 20: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Bibliographie:

• Kececioglu et Sankoff, 1993: Première heuristique, gènes non signés

• Caprara 1997: Problème NP-difficile pour les gènes non signés

• Hannenhalli et Pevzner, 1995: Algo polynomial pour les gènes signés

• Kaplan, Shamir, Tarjan,1999; Bader, Moret, Yan, 2001: optimisations, algo linéaire pour calculer la distance et quadratique pour trouver un scénario d’inv.

• Bergeron 2001; Bergeron, Mixtacki, Stoye 2005: Représentations plus simples du problème, plus combinatoires

• …

Page 21: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

8 7 6 5 4 3 2 1 11 10 9 8 7 1 2 3 4 5 6 11 10 9 4 3 2 1 7 8 5 6 11 10 9 4 3 2 8 7 1 5 6 11 10 9

Réduction: Comment transformer une permutation en l’identité?

Gènes non signés: Problème NP-difficile

Page 22: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Graphe de points de cassure,gènes non signés

• Décomposition maximale en c cycles alternés d’arcs disjoints

• d(G,H): distance d’inversion; b: nb d’arcs noirs (gènes)

d(G,H) ≥ b – c

• Problème de la décomposition d’un graphe en un maximum de cycles disjoints: NP-difficile

Page 23: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Gènes signés – Hannenhalli et Pevzner (1995)

G = +1 +4 -6 +9 -7 +5 -8 +10 +3 +2 +11 -12

H = +1 +2 +3 +4 +5 +6 +7 +8 +9 +10 +11 +12

+a

t h

-a

h t

Si génome non-circulaire, rajouter des bornes fictives

Page 24: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Nombre de cycles maximal lorsque les deux génomes sont identiques

Inversions possibles:

(A) Inversion sur deux arêtes de deux cycles différents

(B) Inversion sur une paire non-orientée (ou convergentes) d’ arêtes

(c) Inversion sur une paire d’arêtes orientées (ou divergentes)

Page 25: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Cycle non-orientéCycle orienté

{B,C,D} , {F} : Composantes orientées (bonne composante)

{A,E} : Composante non-orientée

Cas général: d(G,H) ≥ b-c

Si que des bonnes composantes: d(G,H) = b-c

Page 26: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Bonnes composantes: peuvent être résolues par b-c ``bonnes inversions’’

Bonne inversion (safe): Inversion sur deux arêtes orientées, qui ne crée pas de mauvaise composante.

Page 27: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Mauvaises composantes

• Composante B sépare A et C.

• Non-obstacle: Mauvaise composante qui sépare deux mauvaises composantes

• Obstacle (hurdle): Mauvaise composante qui ne sépare pas deux mauvaises composantes

AB C

Page 28: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Forteresse• Un obstacle A protège un non-obstacle B si la

suppression de A transforme B en obstacle.• Super-obstacle: Obstacle A qui protège un non-

obstacle B

BA

Forteresse: Graphe qui contient un nb impair d’obstacles, tous des super-obstacles.

Page 29: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Résultat de Hannenhalli et Pevzner

• d(G,H): distance d’inversions

• b(G,H): nb de gènes

• c(G,H): nb de cycles du graphe

• h(G,H): nb d’obstacles

• f(G,H): 1 si le graphe est une forteresse, 0 sinon.

d(G,H) = b(G,H)-c(G,H)+h(G,H)+f(G,H)

Page 30: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Résolution des obstacles:

Deux opérations:• Fusion:

Un cycle de moins, mais un obstacle de moins• Coupure:

Même nb de cycles, mais un obstacle de moins.

Page 31: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Algorithme HP:

1. Si G contient h(G,H) obstacles

2. Si h(G,H) est pair

3. Considérer des paires d’obstacles non consécutifs,

et les fusionner deux à deux;

4. Si h(G,H) est impair et il existe un obstacle simple O

5. Couper O;

6. Fusionner deux à deux les obstacles restants;

7. Sinon (forteresse)

8. Fusionner deux à deux les obstacles non-consécutifs

9. (si possible), et couper le dernier obstacle restant;

10. Pour chaque bonne composante C faire

11. Résoudre C en choisissant une inversion sûre à chaque étape.

Page 32: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

• Une inversion est bonne si (b-c+h+f)=-1• L’algorithme n’effectue que des bonnes

inversions:– Inversion sure:

(c)=1; (h)=0; (f)=0; donc (b-c+h+f)=-1 – Fusion de deux obstacles:

(c)=-1; (h)=-2; (f)=0; donc (b-c+h+f)=-1 – Coupure d’un obstacle:

(c)=0; (h)=-1; (f)=0; donc (b-c+h+f)=-1 – Coupure du dernier obstacle de la forteresse:(c)=0; (h)=0; (f)=-1; donc (b-c+h+f)=-1

Page 33: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Complexité

• Construire la structure, trouver les cycles et les composantes, déterminer leurs orientations: temps O(n2)

=> trouver la distance d’inversion en O(n2)• La partie la plus coûteuse: résolution des

bonnes composantes.

Méthode brutale: Essayer toutes les inversions (n2) et vérifier le graphe obtenu. Effectuer ce travail d(G,H) fois => O(n5)

Page 34: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Toutes les solutions optimales

• Résoudre les obstacles de toutes les façons possibles• Trouver toutes les inversions sûres à chaque étape (pas

de méthode efficace pour le faire)

Certaines inversions sont plus probables que d’autres:• Petites inversions• Inversions autour de l’axe de réplication• Sites préférentiels de cassure

Pour choisir une solution parmi les plus probables:• Pondérer les inversions selon leur taille, position.• Trouver une solution de poids minimal

Page 35: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Distance de translocation

G={ 1: 1 3 9; 2: 7 8 4 5 6; 3: 10 2 11 12 13}

H = {1: 1 2 3 4 5 6; 2: 7 8 9; 3: 10 11 12 13}

1h 3t 3h 9t

7h 8t 8h 4t 4h 5t 5h 6t

10h 2t 2h 11t 11h 12t 12h 13t

1:

2:

3:

Formule HP: d(G,H) = b(G,H)-c(G,H)+s(G,H)+f(G,H)

Graphe de points de cassures

s: Nombre de “minimal subpermutations” de G et H.

En fait l’ensemble des hurdles est un sous-ensemble des minSP

Page 36: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Distance d’inversion+ translocation (incluant fusion, fission)

• Génomes linéaires, multichromosomiques signés. (Hannenhalli, Pevzner 1995, Bourque, Tesler 2002, Ozery, Shamir 2003)

• Idée générale (HP 1995) : Réduire le problème à la comparaison, par inversion de deux génomes linéaires unichromosomiques

X1 X2 -Y2 - Y1

X1 Y2 -X2 - Y1inversion

translocation

Page 37: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

• Ajouter des bornes (gènes fictifs) aux extrémités des chromosomes de G.

• Concaténer les chromosomes de G• Construire le graphe de BP pour G et H. Les arêtes grises

représentent uniquement les adjacences entre les gènes de H (les extrémités restent libres). Le graphe ainsi obtenu se décompose en cycles et chemins.

• HP montrent que le problème se ramène à refermer les chemins de façon optimale

Résultat de HP:

d(G,H) = b(G,H)-c(G,H)+p(G,H)+r(G,H)+(s(G,H)-gr(G,H)+fr(G,H))/2

• p(G,H): nb de chemins joignant 2 bornes;• r(G,H) et s(G,H): nb de hurdles intrachromosomiques particuliers;• gr(G,H) et fr(G,H): 0 ou 1.

Page 38: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Distance de Transposition• Deux permutations non signées

• Introduite par Bafna et Pevzner, 1998

• Complexité inconnue

• Meilleure approximation: 11/8 (Elias, Hartman, 2006)

• Deux bornes inférieures immédiates:– Une translocation peut supprimer au max. 3 bp

d(G,H) ≥ b(G,H)/3– Une transposition peut augmenter au max de 2 cycles le graphe

des bp

d(G,H) ≥ [b(G,H) – c(G,H)]/2• Une borne supérieure immédiate: On peut toujours augmenter d’au

moins 1 le nombre de cycles

d(G,H) ≤ b(G,H)-c(G,H)

Page 39: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Distance DCJ

• Double Cut-and-Join• Introduite par Yancopoulos et al. (2005)• Définie uniquement pour les génomes signés. S’applique

à des génomes linéaires ou circulaires.• Toutes les autres opérations (inversion, translocation

réciproque, fusion, fission, transposition, block interchange) sont des cas particuliers de DCJ.

• Inclu des opérations supplémentaires. • Possibilité de former des génomes circulaires.• Algorithme linéaire, autant pour trouver la distance qu’un

scénario de réarrangement optimal (Bergeron et al. 2006)

Page 40: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Définition: Une opération DCJ coupe deux adjacences ab et cd d’un génome G, et les transforme en T1: ac et bd ou T2: ad et bc.

a b

c d

a c

b d

a d

b c

a b c d

a bc d

a d

b c

a b

c d

a d

c b

a c d b

=Translocations

= Inversion

= Inversion

T1

T2

T1

T1

T2

T2

Page 41: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

a, b, c ou d peuvent être des télomères

Formation de chromosomes circulaires

7h 8t 8h 4t 4h 5t 5h 6t7tT 6h Ta b c d

T2

7h 8t 8h T7tTa d

4t 4h 5t 5h 6t 6hb c

Page 42: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

• Distance DCJ entre deux génomes G et H: Nombre minimum de DCJ à effectuer pour transformer G en H.

• Yancopoulos 2005:

D(G,H) = n-(c(G,H)+pe(G,H)/2)

• n: nb de gènes;• c(G,H): Nb de cycles dans le graphe des BP; • pe(G,H): Nb de chemins de taille paire dans le

graphe BP.

Page 43: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

• DCJ: Opération “artificielle’’ modélisant toutes les opérations de réarrangement connues.

• Se calcule en temps linéaire.• Relation aux autre distances de réarrangement:

inversion, transloc., inv+transloc (Bergeron, Stoye,

Mixtacki 2005)

d(G,H)= dDCJ(G,H) + t

où t représente le coût additionel de ne pas passer par des opérations DCJ. Bergeron, Stoye, Mixtacki 2005: Formule simple pour t.

Page 44: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Problèmes des distances de réarrangement:

1. Nombre exponentiel de scénarios de réarrangement possibles

2. Pour des espèces assez éloignées, sous estime le nombre réel de réarrangements

3. Aucune méthode exacte considérant tous les réarrangements en même temps

4. Très difficile de déterminer un modèle probabiliste, paramètres pour inversions/transpositions/translocations??

Page 45: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Méthodes alternatives: mesures de synthénieMesures de la conservation de l’ordre, sans considérer

des opérations particulières• Nb d’adjacences

a b c j e -h -g -f i

• Nb de points de cassure (breakpoints)

a b c j e -h -g -f i

Page 46: Génomique comparative Nadia El- Mabrouk. I. Introduction Les génomes évoluent par: –Mutations locales: Au niveau de la séquence; substitutions, insertions,

Blocs communs

• Blocs communs irréductibles

a -b c j e -h g -f i