APPRENTISSAGE ET BIOINFORMATIQUE Action · PDF fileAPPRENTISSAGE ET BIOINFORMATIQUE Action...
Transcript of APPRENTISSAGE ET BIOINFORMATIQUE Action · PDF fileAPPRENTISSAGE ET BIOINFORMATIQUE Action...
APPRENTISSAGE ET BIOINFORMATIQUEAction spécifique du STIC-CNRS 2003
Groupe de travail « Apprentissage et séquence"
Y. GUERMEURLORIA
Campus scientifiqueBP 239
54 506 Vandoeuvre les Nacy cedexEmail : [email protected]
C. GEOURJONPôle Rhône-Alpins de BioInformatique
Institut de Biologie et Chimie des Protéines7, Passage du Vercors69 367 Lyon cedex 07
Email : [email protected]
Objectifs du groupe
Principaux problèmes d’apprentissage abordés :Traitement de données séquentiellesPrise en compte d’interactions à distance
Couplage localisation / caractérisationIntégration de sources de connaissances hétérogènes
Approches privilégiées :Apprentissage de machines de reconnaissance probabilistesConception et mise en œuvre de machines à noyau
Conception et mise en œuvre de réseaux de neurones récurrents
Equipes impliquées
Projet Symbiose de l’IRISA, à RennesGroupe de Bioinformatique de l’Ecole des Mines de Paris, à
FontainebleauGroupe de recherche de Pierre Baldi, à l’UCI, aux USAEquipe MODBIO du LORIA, à NancyLaboratoire de Bioinformatique et RMN structurales de l’IBCP
(Insitut de Biologie et Chimie des Protéines), à Lyon
Plan de travail et calendrier des réunions
Calendrier prévisionnel :Réunion de travail fin février / début mars (à Nancy?)Deuxième réunion en septembre
… puis en moyenne une réunion par semestre
Ressources mises à disposition :Une base de séquences protéiques et une liste de références
bibliographiques seront bientôt disponibles à partir de la pageWeb du groupe
Présentation du contexte biologique
La révolution génomique - Une stratégie revisitée
Etude biochimique
Séquenceprotéine
GèneActivité
biologique(Phénotype)
Avant
Aujourd’hui
Gènome Séquenceprotéine
Activité biologique
Etude biochimique
Prédiction d’ORF
Prédiction sites/signaturesPrédiction de structure
(2D et 3D)Modélisation moléculairePrédiction de fonctions
Etude relation structure-activité
Criblage virtuel
Génomes séquencéshttp://wit.integratedgenomics.com/GOLD/
Génomes entièrement séquencés81 génomes procaryotes
Bacillus subtilisBacillus anthracisEscherichia coliHaemophilus influenzaePseudomonas aeruginosa
12 génomes eucaryotesSaccharomyces cerevisiaeCaenorhabditis elegansPlasmodium falciparumDrosophila melanogasterMus musculus
Génomes en cours de séquençage306 génomes procaryotes195 génomes eucaryotes
Nombreux génomes de virus
Géométrie du squelette protéique et des AA Degrés de liberté dans la chaîne principale
i-1O’
χi2
iχ1αC i-1
N i
N Hi
α Ci
αH i
O i
Ni + 1
NH i+1
αC i+1
βC i
γC i
C i-1’
Ci’
ωiΦi
Ψ i
Angle Phi ψ (C’i-1,Ni, αCi)/(Ni,αCi,C’i)
Angle Psi Φ (Ni,αCi,C’i)/(αCi,C’i,Ni+1)
NH2 αC COOH
R
Une protéine : des acides aminés liés entre eux de manière linéaire et répétée par une liaison chimique covalente : la liaison peptidique.
Ces acides aminés ont une structure chimique commune et une chaîne latérale (R) spécifique de l’acide aminé concerné :
R R RR
Phényle
HydroxyleCα
Exemple de la tyrosine :
Les 20 Acides aminés …
Non polaire
Non polaire
Non polaire
Non polaire
Non polaire
Non polaire
Non polaire
Non polaire
Chargé -
Chargé -
Chargé +
Chargé +
Chargé +
Polaire non chargé
Polaire non chargé
Polaire non chargé
Polaire non chargé
Polaire non chargé
Polaire non chargé
Polaire non chargé
Degrés de liberté dans la chaîne principaleDu faite essentiellement de contraintes stériques (en particulier au niveau des Cβ qui est le carbone de la chaîne latérale directement lié au Cα) les paires d’angles Φ et ψne peuvent pas prendre toutes les valeurs possibles.
Carte de Ramachandran : Les régions roses sont les zones permises. Les régions rouges sont les zones préférentielles pour des structures particulières, les éléments de structure secondaires comme les hélices α et les brins β :1 Feuillet β anti-parallèle (-139, 135)2 Feuillet β parallèle (-119, 113)3 Hélice α gauche4 Hélice 310 (-49, -26)5 Hélice α droite (-57, -47)6 Chaîne complètement étirée
Eléments de structure secondaire régulière : a-b Hélice αc-d Feuillet β à 2 brin βL’hélice α est une structure locale dont les liaisons hydrogène se forment, de proche en proche, au sein de la même hélice (O du carbonyle AA i, H de l’amide AA i+4), le brin β n’existe que s’il interagit avec au moins un autre brin β et 2 au plus.
Organisation hiérarchique des protéines
Hélice α
Structure secondaireBrins β
CCHHHHHHHHHHHCCCEEEETTTTEEEEECCCCHHHHHHHHHHHCCHHHHHHHHHGCCCCStructure secondaire = mot alphabet de 3 à 10 lettres
MKLDEIARLAGVSRTTASYVINGKAKQYRVSDKTVEKVMAVVREHNYHPNAVAAGLRAGRStructure primaire ou séquence = mot alphabet à 20 lettres
AAACGTGGCTACGAGTCCTGACGATGCCCAGCTCGAGTCCTGACGATGCCCCGATGCCCAGSéquence génomique = mot alphabet à 4 lettres
Structure quaternaire(notion d’oligomères)
Structure tertiaire (accessible par Xray-RMN)
De la séquence à la structure 3D …Un grand nombre de protéines avec des séquences
différentes (succession d’acides aminés). Actuellement on connaît entre 600 000 et 1 000 000 de séquences protéiques. On connaît près de 20 000 000 de séquences nucléiques.
Mais un nombre restreint de repliement dans l’espace (entre 700 et 10 000). Actuellement on en connaît entre 600 et 1 200selon les méthodes de comparaison utilisées. Au total près de 20 000 structures 3D (mais avec beaucoup de redondance).
Importance de connaître la structure 3D car elle permet à la protéine d’être biologiquement active.
Difficulté d’obtenir expérimentalement la structure 3D d’une protéine. Deux méthodes :
CristallographieRésonance Magnétique Nucléaire (RMN)
Intérêt de pouvoir attribuer à une séquence un repliement donné ou de pouvoir prédire sa structure 3D.
Conservation de la structure 1D, 2D et 3D
10 20 30 40 .........|.........|.........|.........|..1.pdb1ajj.ent P--CSAFEFHC-LSGECIHSSWRCDGGPDCKDKSDEENCA-- 372.pdb1cr8.ent PGGCHTDEFQCRLDGLCIPLRWRCDGDTDCMDSSDEKSCEGV 42Primary cons. PGGC222EF2CRL2G2CI222WRCDG22DC2D2SDE22C2GVHomology * * : **:* *.* ** *****..** *.***:.*
1AJJ : LDL receptor1CR8 : Low Density Lipoprotein Receptor Related Protein
50 % d’identité de séquence
Ecart quadratique moyen (CA des résidus conservés) : 1,6A
Conservation de la structure 2D et 3D
16 % d’identité de séquenceet
une topologie conservée
En dessous de 30% d’identité, la structure est plus conservée que la séquence, ceci est vraie également des structures secondaires. Mais ceci n’est pas systématique …
Interactions 3D impliquant des acides aminés distant séquentiellement
Interactions hydrophobes : Fondamentales pour le repliement des protéines.Les atomes ou groupements non polaires ont tendance à fuir le
milieu aqueux environnant pour des raisons thermodynamiques. Cette fuite permet aux éléments hydrophobes de se regrouper au cœur de la structure de la protéine et donc de diminuer leur surface de contact avec le solvant. A l’inverse les chaînes latérales polaires sont plutôt à la surface de la protéine.
Energie d’interaction varie de façon inversement proportionnelle à la distance entre les atomes élevée à la puissance 6.
Faible énergie
Interactions électrostatiques ou ioniques :L’énergie d’interaction varie de manière inverse à la distance (rij)
entre les charges (qi et qj) : Eij=332.qi.qj/(D.rij).Interaction entre acides aminés chargés de charge opposée :
R (Arg), K (Lys), H (His) chargé positivementD (Asp), E (Glu) chargé négativement
Interactions 3D impliquant des acides aminés distant séquentiellement
Liaisons hydrogène :Impliquées dans la stabilisation des éléments de structure secondaire
(au niveau de la chaîne principale)Liaison de faible énergie entre un donneur et un accepteur
d’hydrogène (D-H … A).Distance entre 2.7 et 3.1 Å
Pont disulfure ou cystine : Entre les groupements thiol (-SH) de 2 cystéines (C) (dist. : 2.2 Å).La seule liaison covalente entre des acides aminés distants dans la
séquence mais proche dans l’espace.Peuvent être impliqués dans des phénomènes de multimérisation
(formation d’un dimère entre 2 chaînes peptidiques)
Expérience de dénaturation-renaturation (Anfinsen)
+ UREE etβ Mercaptoethanol
Ribonucléase native, active,thermodynamiquement stable
ms-48h- UREE et
β Mercaptoethanol
Structure instablePlus d’activitéInformation de séquenceAttention exceptions
Ribonucléase, renaturée active,thermodynamiquement stable
Loi des nombres
Soit une petite protéine (100 aa)20100 séquences différentesSupposons 10 conformations par aa (10100 conformations)même si 2 conformations par aa
hélice ou non hélice2100 soit environ 1030 conformations
Durée de vie d'une conformation 0,1 psceci donne 1017s pour que la protéine se replie
Durée par simulation (ordinateur réalisant 1010
opérations/s)1020 s pour simuler par minimisation d'énergie en admettant le calcul d ’une énergie/seconde
Nombre d'atomes dans l'univers 10 100...
Un exemple d’objectifs biologiques …
gues.
des interactions électrostatiques disulfures dans les structures
Cette corrélation doit permettre de mettre en place une
méthode prédictive de ces interactions.
Ces prédictions guideront les approches de prédictions de la
structure 3D des protéines.
Exploiter les séquences de protéines et la notion de famille de protéines homolo
Pour cela établir la corrélation entre la présence et hydrophobes ainsi que des pontstridimensionnelles et leur conservation dans les alignements multiples.
Analyse statistique des structures tridimensionnelles des protéines
(une partie du travail de thèse de Mounir Errami)
Stratégie d’analyse
Recherche de séquences similaires
AlignementMultiple
Sous-base de séquences
Extractblast &Extractfasta
Ponts disulfures Interactions HydrophobesPonts Salins
Base de données d’intéractions
Protéine de S3D connue
Analyse de la conservation
des interactions
Relation?
DSSP modifié
Processus automatique
Intérêts :
Exhaustif
Objectif
Liaisons hydrogènes
Réseaux réguliers Localisation des éléments de SS
DSSPm
S3D
DSSPm (modifié) = DSSP (Kabsch & Sander, 1983)
Détection d’interactions électrostatiques (RHK/DE) :
2 résidus de charges opposées distants de moins de 3 Å.
Détection d’interactions hydrophobes (ILAVMWF) :
2 résidus distants de moins de 3,3 Å.Détection de ponts disulfures (C) :
2 cystéines distantes de moins de 3 Å. Récupération de l’accessibilité des acides aminés.
Sélection des séquences pour calculer un alignement multiple
S
CYS 80 CYS 220CYS 35 CYS 172Séquence pdb
SSS
Longueur minimum entre 2 bornes
E-Value seuil E≤1e-6
Échantillon, représentativité
Significativitéforte
Significativitéfaible
sous-base de séquences apparentées, non redondantes et qui constituent un échantillon représentatif des protéines similaires.
Nombre de séquences
∑−=
=
+
−−=
1
1
)()1(
1)log()log(p
ni
i
ii
nEE
1e-20 1e-19 1e-18 1e-17 …0 …
E-valuep
Conservation des interactions
fp(i)q(j)= np(i)q(j)/N
La conservation f (ou fréquence) d’une interaction entre l’aa p à la position i et l’aa q à la position j pour un alignement de N séquences :
séquence pdb ALTERTHTPRTLKMIEVAGIPVVELMDSKSPCLDIAVGFDNFEAARséquence 2 DATGATNPDKISALCQQAGVPTVNLDLPGS--LSPSVISDNYGGAKséquence 3 IFTDTQGQIKISKHANECGLPTIHTPSKTK--LQPSVFYCVFPGSKséquence 4 KDDAGPCDINILGECNLSGEFWLVKPLLER--LGIRVRADIPGDAR
| | | | |
numérotation 1 10 20 30 40
ici, fR(10)D(40)=0,5
On considère les propriétés biochimiques (ACIDE, BASE, HYDROPHOBE, CYS) :
R10-D40 équivalent à K10-E40 ; ou encore V-L I-W
Dans le cas des ponts salins (asymétriques), les permutations sont acceptées :
R10-D40 équivalent à D10-R40
Validation de la stratégie et de l’architecture : ponts disulfures
Postulat : les cystéines impliquées dans des ponts dissulfures sont plus conservées que celles qui ne le sont pas.Expérience : comparaison conservation ponts disulfures / conservation de paires témoins : une paire témoin = 2 Cys réduites, appariées de façon aléatoire.
0
10
20
30
40
50
60
70
80
90
100
Tous lesalignements
alignements demoins de 10séquences
alignements de plusde 10 séquences
Con
serv
atio
n (%
)
Résultats :
Effectifs :720 alignements
1300 ponts disulfures
280 paires témoins
Application aux interactions électrostatiques et hydrophobes
Les témoins :
- DSSPm (tag FALSE) : distants de 15 à 16 Å (arbitraire);
- appariement aléatoire (= brassage) des résidus avec les même propriétes biochimiques qui ne sont pas impliqués dans une interaction.
0
10
20
30
40
50
60
70
80
Tous les alignements
Moins de 10 séquences
Plus de 10 séquences
Conservation (%) Interactions électrostatiques
0
10
20
30
40
50
60
70
80
Tous les alignements
Moins de 10 séquences
Plus de 10 séquences
Interactions hydrophobesConservation (%)
Les interactions sont plus conservées que les paires témoinsLa différence est plus importante dans les alignements les plus grands
Relation identité / conservation
0 10 20 30 40 50 60 70 80 90
100
0 10 20 30 40 50 60 70 80 90
100
Id≤5% Id ≤ 5% 5%<Id ≤ 50%5%<Id ≤ 50% Id>50% Id>50%
Conservation (%) Conservation (%)Interaction électrostatiques Interaction hydrophobes
La conservation préférentielle des interactions est plus marquée dans les alignements les plus divergents.
Ceci a été confirmé avec l’étude de l’effet de la similarité globale sur la conservation des interactions.
Taux de permutation des résidus chargésQuestion : Est ce que la permutation (corrélée) des résidus chargés est signe de la présence d’une interaction?
Taux de permutation =Nombre de permutations observées
Nombre de paires étudiées
Taux de permutations Ponts salins Témoins Différence
Tous alignements 12,41 8,07 4,33
Alignements de moins de 10 séquences 4,62 3,03 1,59
Alignements de plus de 10 séquences 26,16 17,44 8,72
Les permutations sont plus fréquentes dans le cas des interactions électrostatiques, mais elles n’offrent pas un moyen de distinction suffisamment puissant.
Relation accessibilité / conservationL’accessibilité obtenue avec DSSPm. La valeur limite d’accessibilité est vérifiée par les deux acides aminés de l’interaction ou de la paire témoin.
Accessibilité ≤ 10 Å2 Analyse globaleConservation
(%) Ponts salins Témoins Différence Ponts salins Témoins Différence
Tous alignements 79,40 59,04 20,36 64,37 54,28 10,09
Moins de 10 séquences 82,50 71,23 11,27 71,20 62,00 9,20
Plus de 10 séquences 72,59 41,57 31,02 55,05 42,76 12,29
Accessibilité < 10 Å2 Accessibilité > 30 Å2 Analyse globale Conservation
(%) Int. Hyd Témoins Diff Int. Hyd Témoins Diff Int. Hyd Témoins Diff
Tous les alignements 78,85 75,27 3,58 64,60 54,47 10,13 76,38 66,66 9,71
Moins de 10 séquences 82,58 80,66 1,92 71,05 65,00 6,04 80,13 73,68 6,45
Plus de 10 séquences 77,60 73,47 4,13 62,46 50,96 11,49 75,12 64,32 10,80
L’accessibilité a un effet important et spécifique à chaque type d’interaction.
Laboratoire de Bioinformatique et RMN structurales
MéthodologiesPrédiction de structures secondaires de protéines
DPM, SOPM, SOPMA, MLRCRecherches combinées de motifs dégénérés dans les banques (protéomique)
ProScan (une séquence versus PROSITE)PattinProt (un motif face à une banque)
Modélisation moléculaireAutomatique Geno3D (disponible sur Internet)A faible taux d’identité (PROCSS pour l’identification d’empreinte potentielle)Prédiction des sites 3D protéiques fonctionnels (SUrf on the Molecule) SuMo
Développements de logiciels intégrésANTHEPROT (Analyze THE PROTeins=> ANNOtate THE PROTeins) ANTHENUC (Analyse de séquences nucléiques) MPSA (Multiple Protein Sequence Analysis)DICROPROT
Webiciel (partie protéine du PBIL) NPS@ (Network Protein Sequence @nalysis) (http://npsa-pbil.ibcp.fr) Geno3D (http://geno3d-pbil.ibcp.fr) SuMO (http://sumo-pbil.ibcp.fr)
Applications biologiques
Congrès annuel de la Société Française de Biochimie et Biologie Moléculaire(4 et 5 novembre 2003 – Lyon)
Thème :«Post-génome : des protéines aux molécules Bio-actives»
Organisateurs :Christophe Geourjon ([email protected])Michel Desmadril ([email protected])
Comité scientifique :Michel Desmadril (Insitut de Biochimie - Orsay) Christophe Geourjon (IBCP - Lyon)Arnaud Ducruix (IFR Sciences du médicament – Paris) Muriel Delepierre (Institut Pasteur)Hervé GoudonnetUniversité de Dijon) Philippe Dessen (IGR – Villejuif)Philippe Minard (Laboratoire Léon Brillouin - Gif) David Perahia (CEA - Gif sur Yvette)Roger Lahana (Société Synt:em – Nimes) Olivier Poch (IGBMC – Strasbourg)
Congrès annuel de la Société Française de Biochimie et Biologie Moléculaire(4 et 5 novembre 2003 – Lyon)
Conférenciers invités : Christian Cambillau : Du génome a la molécule activeHerman van Tilbeurgh : Genomique structuraleMichel Caron : : Protéomique : de l'identification à la fonctionMarcel Hibert : Récepteurs orphelins : architecture fonctionnelle et criblage par
fluorescenceAnnick Dejaegere : Drug design et dockingLaurent Daviet : Interactions protéine-protéine et identification de nouvelles cibles
therapeutiquesSite web :
http://www.ibcp.fr/SFBBM/ (ouverture fin février)