Target Selection and Deselection at the BSGC - …predrag/classes/2006springi690/dl.pdf · Target...

35
Target Selection and Deselection at the BSGC J.M. Chandonia, S.H. Kim, and S. E. Brenner Debin Liu Ph.D Informatics Indiana University

Transcript of Target Selection and Deselection at the BSGC - …predrag/classes/2006springi690/dl.pdf · Target...

Target Selection and Deselectionat the BSGC

J.‐M. Chandonia, S.‐H. Kim, and S. E. Brenner

Debin LiuPh.D InformaticsIndiana University

Structural Genomics• an international effort• to determine the 3‐dimensional shapes of all important biological macromolecules

• aiming to provide one structure from each family

• allowing folds of all family members to be recognized by homology

• involving coarse‐grained sampling of protein family

• therefore strategies for selecting proteins as targets is important 

NIH PSI• NIH: National Institutes of Health is supporting 

structural genomics projects• at 9 pilot centers• through PSI: Protein Structure Initiative: a national effort 

to assemble a large collection of protein structures in a high‐throughput operation

• to develop new approaches and tools needed to streamline and automate the steps of protein structure determination

• to incorporate those methods into high‐throughput pipelines that use DNA sequence information to generate three‐dimensional protein structure models 

BSGC

• Berkeley Structural Genomics Center• began in September 2000• focused on two bacterial species to study proteins essential for independent life 

• to obtain a near‐complete structural complement of two minimal genomes

•Mycoplasma genitalium and Mycoplasmapneumoniae

M. genitalium and M. pneumoniae

• first sequenced members of Mollicutes• wall‐less prokaryotes• small genome sizes• minimal organisms• possible to identify the minimal complement of genes necessary for life

Target Selection

• a structural genomics target is a protein whose structure is selected for experimental characterization

• BSGC targets include Mycoplasma and their homologs

• potential target sets: 687 M. pneumoniae. ORFs + homologs

• three selection steps

Target SelectionThree selection steps

• remove target sets which were recognizably homologous to proteins of known structure

• eliminate target sets which were predicted to be unsuitable for high‐throughput study

• specific targets were chosen

Target SelectionSix rounds of selection

1. ad hoc methods2. basic standardized method3. more sophisticated methods of detecting 

currently known structures; increasing thresholds of HT study

4. more HT experimental methods thus more HT tractable targets

5. some targets, hard to clone automatically but can’t be ignored because of unidentified homologs

6. identifying domain targets using a domain identification procedure

Target SelectionSix rounds of selection

Target SelectionIdentifying known structures‐‐‐knownstr

• 1st step of selection• assembling a database of known proteins structures, the ‘knownstr’ database

• update prior to each target selection round• including 

‐ sq. released by PDB‐ sq. deposited in PDB while structure is on 

hold‐ sq. from TargetDB solved by other centers‐ sq. of BSGC targets which will soon be 

completed

Target SelectionIdentifying known structures‐‐‐tools

• sequences of all M. pneumoniae ORFs were compared to the knowstr database

• PSI‐BLAST (2‐6)• PSSMs: position‐specific scoring matrices• constructed for each ORF using 10 rounds of searching ‘snr’ database

• snr: sequences in ‘swissprot, trembl, trembl_new’ files

• PSSMs searching the knownstr database• targets with qualified hit labeled

Target SelectionIdentifying targets intractable for HT study‐‐‐proteins

• 2nd step of selection• regions of amino acids predicted to be in transmembrane segment, coiled coils

• regions of low complexity• too long to be targets, (1‐2) 400, (3‐6) 700• ribosomal components, unstable in the absence of binding partners

Target SelectionIdentifying targets intractable for HT study‐‐‐programs

• SEG: low complexity regions, (3‐6) 20% could be allowed

• CCP: coiled coil regions , (3‐6) 20% could be allowed

• TMHMM, PHDhtm: transmembraneregions, eliminated (2‐5), assign domain boundaries (6)

Target SelectionIdentifying domains

• some multidomain proteins• tractable domains of unknown structure• homology to domain of known structure• round 6 is trying to pick them back• Mycoplasma ORFs were divided into domains in advance

Target SelectionIdentifying domains‐‐‐procedure

• same as to identify domains in the ASTEROIDS data set of the ASTRAL database

• Hidden Markov models with using the HMMER tool• BLAST, to compare ASTRAL sq. to all M. pnermoniae

ORFs• regions of Mycoplasma sequence matching one or more 

ASTRAL sq. or hidden Markov models were annotated as belonging to the same SCOP superfamily: eliminated

• >20 residues• remaining regions annotated using Pfam, Pfam_ls model 

library and the ‘trusted cutoff’: significant hit • >50 residues

Target SelectionIdentifying particular proteins as targets

• homologous proteins from other prokaryotes were also chosen

• to find these homologs, PSI‐BLAST (2‐6)• PSSMs constructed for each ORF using 10 rounds of searching ‘snr’ database

• snr: sequences in ‘seissprot, trembl, trembl_new’ files

• PSSMs searching the knownstr database• targets with qualified hit selected

Target SelectionIdentifying particular proteins as targets

• (2‐3) 4 targets per protein• (4‐6) 10 targets per protein• UGA: a stop codon in E. coli• UGA is a problem: causing cut in the protein• (1‐4) maximum of 1 internal UGA codon• (5) 2‐4 internal UGA codons: > 4 too many to mutate

• (6) no internal UGA codon; clone targets using a fully automated protocol

Target Selection

Target Deselection

• stop targets for which strutures of similar proteins have been solved

• similar to 1st step of selection• stop targets according to new developments on structures every week

• automated analysis and manual review 

Target Deselectionautomated analysis

• BLAST and PSI‐BLAST• similar as step 1 of selection• PSSMs constructed for each ORF using 10 rounds of searching ‘snr’ database

• PSSMs searching the knownstr database• knownstr database is updated weekly• targets with qualified hit labeled

Target Deselectionmanual review

• double check• decision made by experimentalists• targets been crystallized: not deselected• targets not been purified: stopped• targets in the medium: stopped only if model can be constructed and crystallization trials are proceeding poorly

Quantifying Coverage• coverage: the fraction of sequences or residues in a set 

for which structural information is available or can be inferred

• fine level: at least 30% SID to a protein of known structure

• coarse level: detectable homology regardless of SID• per‐sequence coverage: measured as the fraction of 

sequences in the proteome that have at least one region covered

• per‐residue coverage: calculated by dividing the number of residues covered by the total number of residues

• the per‐residue coverage of regions predicted to be ‘HT‐tractable and interesting’

Resultsexperimentally difficult regions

• 687 M. pneumoniae ORFs; 201 intractable to HT study

• 486 M. genitalium ORFs; 136 intractable to HT study

Resultscoverage

• before: 20%‐‐accurately modeled43%‐‐reliably assigned to a fold

• 1st round: great incremental increases in coverage1 or 2 targets selected for each protein

• 2nd – 3rd round: incremental improvements in coverageup to 4 targets chosen for each protein

• 4th round: up to 10 targets chosen per protein• therefore nearly all available homologs had been chosen• 5th round: 33 of 46 kicked targets in round 4 selected• 6th round: individual predicted domains selected instead 

of full length targets

Resultscoverage

Resultscurrent structural coverage

Resultscurrent structural coverage

Resultsimpact of target deselection

Resultsimpact of target deselection

• 49 of 178 stopped after purified

• 86 of 178 stopped—parallel targets

• 87 of 178 stopped—solved structures

• 5 of 178 stopped—experimental difficulty

Resultsimpact on coverage of other proteomes

Resultsimpact on coverage of other proteomes

Resultscellular functions of targets

Conclusion

• this is a report on progress to date• a way to optimize the arrangement of experiments

• a good show off paper• an idea + simple method + show off paper = FUNDING!! 

Acknowledgment

• Great thanks to Amrita and Pavan.

• Thanks for your patience.

The End

Thanks again.&

Have a nice little 500 weekend!