С.А.Спирин, 13 .11.20 12

110
Алгоритмы обработки пространственных структур макромолекул Поверхность макромолекул Гидрофобное ядро Выделение доменов С.А.Спирин, 13.11.2012

description

Алгоритмы обработки пространственных структур макромолекул Поверхность макромолекул Гидрофобное ядро Выделение доменов. С.А.Спирин, 13 .11.20 12. I. Поверхность белковой молекулы. Миоглобин свиньи (1MNO)‏. Поверхность РНК-зависимой РНК-полимеразы полиовируса. Product RNA. Fingers. - PowerPoint PPT Presentation

Transcript of С.А.Спирин, 13 .11.20 12

Page 1: С.А.Спирин,  13 .11.20 12

Алгоритмы обработки пространственных структур макромолекул

Поверхность макромолекулГидрофобное ядро

Выделение доменов

С.А.Спирин, 13.11.2012

Page 2: С.А.Спирин,  13 .11.20 12

I. Поверхность белковой молекулы

Page 3: С.А.Спирин,  13 .11.20 12

Миоглобин свиньи (1MNO)

Page 4: С.А.Спирин,  13 .11.20 12

Fingers

Palm

Thumb

Template RNA

Product RNA

NTP

Поверхность РНК-зависимой РНК-полимеразы полиовируса

Page 5: С.А.Спирин,  13 .11.20 12

Зачем нужна поверхность как отдельный объект?

• Для вычисления площади поверхности. Площадь поверхности контакта двух молекул позволяет оценить их взаимодействие и, следовательно, стабильность комплекса.

• Для визуализации на поверхности электростатического потенциала, гидрофобных областей и других характеристик.Помогает предсказывать области белка, взаимодействующие с другими молекулами, проверять корректность моделей.

• Для выявления полостей, каналов в белке, карманов и т.п.

Page 6: С.А.Спирин,  13 .11.20 12

Зачем нужна поверхность как отдельный объект?

(продолжение)

• Для выявления остатков, экспонированных на поверхности белка.Следовательно, доступных для воды, ионов, лигандов.

• Для поиска сходных областей поверхности.Если в одном белке область важна для взаимодействия с другой молекулой, то для похожей области в другом белке можно предсказать подобное же взаимодействие.

• Для много другого (расчет энергии сольватации, симуляция молекулярной динамики, докинг, …)

Page 7: С.А.Спирин,  13 .11.20 12

Три поверхности макромолекулы

• ван-дер-ваальсова поверхность (VdW)

• поверхность, доступная для растворителя (SAS)

• поверхность Конноли

Page 8: С.А.Спирин,  13 .11.20 12

Что такое “поверхность”?

Ван-дер-ваальсова поверхность (схема)

Page 9: С.А.Спирин,  13 .11.20 12

Ван-дер-Ваальсовы радиусы (Å) для атомов некоторых элементов (по Ли и Ричардсу)

S 1,80

P 1,80

O 1,52

N 1,55

C 1,70

H 1,20

(в литературе можно найти и другие значения)

Page 10: С.А.Спирин,  13 .11.20 12

1MNO: миоглобин свиньи, натуральная модель (spacefill); видны сквозные просветы

Page 11: С.А.Спирин,  13 .11.20 12

В геометрии поверхность тела – это граница между ним и внешней средой

В микромире “твердых тел” не бывает!

Нужно указывать для каких частиц непроницаема молекула – нейтрино? фотонов? электронов? протонов? других молекул (каких)?

Page 12: С.А.Спирин,  13 .11.20 12

Поверхность фонтана (!?)

Page 13: С.А.Спирин,  13 .11.20 12

Концепция поверхности белка (Lee, Richards, JMB 1971)

1. Ван-дер-Ваальсова поверхность

2. Поверхность, доступная для растворителя (воды) (SAS, solvent accessible surface)

SAS — это поверхность области допустимых положений центров молекул воды

Page 14: С.А.Спирин,  13 .11.20 12

VdW поверхность и поверхность, доступная для воды

Page 15: С.А.Спирин,  13 .11.20 12

Поверхность, доступная для воды, определяется аналогично VdW поверхности, но для условных радиусов (вместо ван-дер-ваальсовых):

усл. радиус = VdW радиус + радиус молекулы воды (1,4 Å)

Поэтому “для математика” поверхности VdW и SAS одинаковы (строятся по одному правилу)

Page 16: С.А.Спирин,  13 .11.20 12

Поверхность, доступная для воды, используется, например, для того, чтобы показать, какие аминокислотные остатки чаще экспонированы – доступны для воды.

SAS не всегда применима, так как «раздувает» молекулу. Например, при контакте двух белков их SAS пересекаются:

Белок 1

Белок 2

SAS 1

SAS 2

Page 17: С.А.Спирин,  13 .11.20 12

3. Молекулярная поверхность (MS, moleculare surface или Connolly surface)

(Richards, 1977; Connolly, 1983)

Поверхность контакта (contact surface) – зеленая

Дополнительная поверхность (reentrant surface) – синяя

Page 18: С.А.Спирин,  13 .11.20 12

Три поверхности молекулы:- ван-дер-Ваальсова (vdWS)- доступная для воды (SAS)- поверхность молекулы (MS) или поверхность Конолли (Conolly surface)

Page 19: С.А.Спирин,  13 .11.20 12

Поверхность молекулы (Connolly surface)

• Делится на две части:

– поверхность контакта с водой;

– дополнительная поверхность.

• Поверхность контакта образована точками ван-дер-ваальсовых сфер атомов белка, которых может коснуться ван-дер-ваальсова сфера молекулы воды

• Дополнительная поверхность образована поверхностью молекул воды, касающихся белка в двух или трех точках

Page 20: С.А.Спирин,  13 .11.20 12

Молекулярная поверхностьсостоит из кусков трёх видов:

• кусок “выпуклой” сферы (жёлтая)

• кусок “вогнутой” сферы (синяя)

• тороидальная часть (зеленая)

Все куски соединяются гладким образом – без

углов

Page 21: С.А.Спирин,  13 .11.20 12

Тороидальная поверхность заметается подвижным шариком (H2O), который вращается между двумя фиксированными шарами (CH3), все время касаясь обоих

CH3 CH3

H2O

H2O

Page 22: С.А.Спирин,  13 .11.20 12

Вогнутая сфера получается в том случае, когда шар H2O касается одновременно трёх атомов белка

CH3

CH3

CH3

Точки касания

H2O

Page 23: С.А.Спирин,  13 .11.20 12

Основные алгоритмы построения поверхности и вычисления её

площади

• Приближённые аналитические методы

(Richards&Lee, 1971; Wodak and Janin, 1980)

• Представление поверхности точками (Shrake&Rupley, 1973; Connolly, 1983)

• Точные аналитические методы (Gibson&Scheraga, 1987; Richmond, 1984)

Page 24: С.А.Спирин,  13 .11.20 12

Метод срезов Ли – Ричардса для вычисления площади SAS

• Структура режется на «ломтики» фиксированной толщины

• Для каждого «ломтика» находятся круги от «срезов» атомов

• Вычисляется длина границы

• Умножается на толщину дольки

• Берется сумма по всем срезам

Page 25: С.А.Спирин,  13 .11.20 12

Молекулярная поверхность: “Connolly dot surface algorithm”

• Контактная поверхность – на поверхности каждой VdW сферы

атома белка строится равномерная сеть точек;

– для каждой точки проверяется, что молекула воды, касающаяся этой точки, не пересекается с белком;

– если пересекается, то точка удаляется.

Page 26: С.А.Спирин,  13 .11.20 12

Продолжение

• Дополнительная поверхность – тороидальная– Каждая пара соседних атомов определяет тороидальную

поверхность между ними– На этой поверхности строится равномерная сеть точек– Далее – как для контактной поверхности

• Дополнительная поверхность – сферическая – Каждая тройка соседних атомов определяет сферическую

дополнительную поверхность – ван-дер-ваальсову поверхность молекулы воды, касающейся этих атомов

– Если эта молекула воды не пересекается с белком, то на подходящей части этой поверхности строится равномерная сеть точек

Page 27: С.А.Спирин,  13 .11.20 12

• Оставшиеся точки представляют поверхность молекулы белка

• Их число пропорционально площади поверхности. На этих точках может быть построена триангуляция поверхности для визуализации (или более точного подсчета площади)

Продолжение

Page 28: С.А.Спирин,  13 .11.20 12

• Площадь SA ван-дер-ваальсовой сферы атома A равна 4πr2

• Нужно найти площадь (SA)0 области, не попадающей внутрь

сфер других атомов; тогда S=∑A(SA)0

• Для двух пересекающихся сфер площадь области на первой сфере, попадающей внутрь второй, вычисляется (в зависимости от радиусов и расстояния между центрами)

• Примерно так же может быть вычислена площадь более сложных пересечений и, следовательно, (SA)0

Аналитический метод определения площади

поверхности S (Kratky, 1981)

Page 29: С.А.Спирин,  13 .11.20 12

Поверхность контакта двух молекул A и B

• Scont = (S(A) + S(B) – S(AB))/2

S – площадь молекулярнойповерхности или же SAS белка

Вклад взаимодействия макромолекул (или частей макромолекул) в энергию системы примерно пропорционален площади, «скрывающейся» при взаимодействии.

Page 30: С.А.Спирин,  13 .11.20 12

Экспонированность аминокислотного остатка белка

• Для каждого остатка считается площадь, выходящая на молекулярную поверхность (дополнительная площадь делится между соседями)

• Эта площадь сравнивается с максимально возможной – при полностью раскрытой боковой цепи остатка того же типа в составе трипептида Gly – X – Gly

• Вычисляется процент экспонированности

Page 31: С.А.Спирин,  13 .11.20 12

Экспонированность боковой цепи Leu(похожие графики у Val, Ile, Met)

0,%

10,%

20,%

30,%

40,%

50,%

60,%

70,%

80,%

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

Accessibility of Leu side chain (square A)

Fre

qu

en

cy

Frequency(%)

Integral (%)

Max=48Å2

90% Leu экспонированы на 38% или менее

Page 32: С.А.Спирин,  13 .11.20 12

Экспонированность боковой цепи Lys (похожие графики у Arg, Gln, Glu, Asn, Asp)

Max=55Å2

0,%

10,%

20,%

30,%

40,%

50,%

60,%

70,%

80,%

90,%

100,%

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58

Accessibility of Lys side chain (square A)

Fre

qu

en

cy

Frequency(%)

Integral (%)

90% Lys экспонированы на 76% или менее

Page 33: С.А.Спирин,  13 .11.20 12

Экспонированность боковой цепи Trp(похожие графики у Tyr, His, Phe, Pro)

Max=72Å2

0,%

10,%

20,%

30,%

40,%

50,%

60,%

70,%

80,%

90,%

100,%

0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72

Accessibility of Trp side chain (square A)

Fre

qu

en

cy

Frequency(%)

Integral (%)

90% Trp экспонированы на 36% или менее

Page 34: С.А.Спирин,  13 .11.20 12

Экспонированность боковой цепи Cys

0,%

10,%

20,%

30,%

40,%

50,%

60,%

70,%

80,%

90,%

100,%

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38

Accessibility of Cys side chain (square A)

Fre

qu

en

cy

Frequency(%)

Integral (%)

Max=37Å2

90% Cys экспонированы на 22% или менее

Page 35: С.А.Спирин,  13 .11.20 12

Ссылки

“Molecular Surfaces: A Review”, by Michael L. Connollyhttp://www.netsci.org/Science/Compchem/feature14.html

Page 36: С.А.Спирин,  13 .11.20 12

II. Гидрофобные кластеры в структурах белков

Page 37: С.А.Спирин,  13 .11.20 12

Гидрофобный эффект

Межмолекулярный уровень

Неполярные молекулы в полярном растворителе (воде) стремятся агрегировать так, чтобы минимизировать поверхность контакта с растворителем

Page 38: С.А.Спирин,  13 .11.20 12

Неполярные молекулы (зелёные) в полярном

растворителе (оранжевый)

Page 39: С.А.Спирин,  13 .11.20 12

вакуум

Гидрофобный эффект (наивное объяснение)

«Поверхностное натяжение» вытягивает воду из области между двумя гидрофобными поверхностями

Page 40: С.А.Спирин,  13 .11.20 12

Вот что случается с гидро-фобными субъектами,которые не пожелали объединиться в гидрофильном окружении

Пабло Пикассо

Page 41: С.А.Спирин,  13 .11.20 12

Гидрофобный эффект в белках

(и других макромолекулах)Внутримолекулярный уровень

Неполярные атомные группы (CH3 и др.) белка стремятся собраться внутри молекулы, чтобы минимизировать контакт с полярными группами и полярным растворителем (водой)

Page 42: С.А.Спирин,  13 .11.20 12

4Ǻ срез структуры белка

Зелёные шарики = неполярные группы Красные = атомы кислорода Синие = атомы азота

Белые = углерод, связанный с полярным атомом Атомы водорода не показаны

Page 43: С.А.Спирин,  13 .11.20 12

Гидрофобный эффект в белках

• Т.н. гидрофобное ядро дает существенный вклад в стабильность глобулы большинства белков

• Гидрофобные “ядрышки” могут служить зародышами в процессе правильной укладки полипептидной цепи

• Гидрофобный эффект важен для белок-белкового взаимодействия, взаимодействия белок-ДНК и других межмолекулярных взаимодействий

Page 44: С.А.Спирин,  13 .11.20 12

Как измерять гидрофобный эффект in silico?

Page 45: С.А.Спирин,  13 .11.20 12

Для межмолекулярного взаимодействия

Расчет площади поверхности (SAS), скрытой при взаимодействии, отражает вклад гидрофобного эффекта – это только число ( Å2), нет описания деталей!

Симуляция молекулярной динамики, конечно, отражает гидрофобный эффект…… но не локализует его. Кроме того, это вычислительно дорогая процедура.

Page 46: С.А.Спирин,  13 .11.20 12

Подходы к локализации гидрофобного эффекта в белках и макромолекулярных комплексах

• Kannan & Vishveshwara, 1999

• Tsai & Nussinov, 1997

• Swindells, 1995

• Zehfus, 1995

• Heringa & Argos, 1991

• Plochocka et al., 1988

• Наша группа: Alexeevski et al,. 2003

Page 47: С.А.Спирин,  13 .11.20 12

Swindells: группировка гидрофобно взаимодействующих неэкспонированных

остатков

• Отбираются остатки, которые– Слабо экспонированы (<7%)– Принадлежат спиралям или тяжам– Более 75% контактов их атомов с другими атомами

классифицируются как гидрофобные

Контактом считается сближение “тяжелых” атомов на сумму ван-дер-ваальсовых радиусов + 1Å

Гидрофобным контактом считается контакт атомов

углерода

Page 48: С.А.Спирин,  13 .11.20 12

Два остатка из отобранных считаются взаимодействующими гидрофобно, если число гидрофобных межатомных контактов превосходит число иных межатомных контактов.

Page 49: С.А.Спирин,  13 .11.20 12

Строится граф:

• Вершина – отобранный остаток

• Ребро соединяет вершины, если соответствующие остатки гидрофобно взаимодействуют

• Связные компоненты графа, содержащие 5 или более остатков, называются гидрофобными ядрами

Page 50: С.А.Спирин,  13 .11.20 12

Граф гидрофобных контактов (пример)

Page 51: С.А.Спирин,  13 .11.20 12

Zehfus: компактные группы боковых цепей остатков

• Вводится мера Z компактности набора остатков (отношение SAS к минимальной возможной поверхности)

• Выращиваются группы путем наращивания остаток за остатком (жадным алгоритмом)

• С помощью Z-score (который здесь назван ζ) по статистике кластеров из данного числа остатков выбираются наиболее компактные группы.

• Часто они состоят, в основном, из гидрофобных остатков

Page 52: С.А.Спирин,  13 .11.20 12

Кластеры неполярных атомных группAlexeevski et al

• Элементарной единицей служат неполярные атомные группы (CH3 и т.п.) вместо аминокислотных остатков

• Алгоритм основан на делении целого, а не на наращивании из элементов

Page 53: С.А.Спирин,  13 .11.20 12

В чем задача:

• Для данной структуры найти области пространства, заполненные только или преимущественно неполярными группами

Page 54: С.А.Спирин,  13 .11.20 12

Неполярные группы в белках:• —CH

3

• —CH2—

• —CH<• —SH, —S —

не связанные ковалентно с полярными (N и O) атомами

Назовем такие группы ‘NP-атомами’

Page 55: С.А.Спирин,  13 .11.20 12

“Гидрофобная область” в структуре (NP-область):

• NP-область заполнена преимущественно NP-атомами

• Каждый NP-атом в области имеет несколько гидрофобных контактов с другими NP-атомами из той же области

• Гидрофобное взаимодействие между разными NP-областями слабое

Page 56: С.А.Спирин,  13 .11.20 12

Конфигурация HF-атомов на плоскости и что хотим в ней найти

Page 57: С.А.Спирин,  13 .11.20 12

Шаги алгоритма (k,l)-разрезов

• Создание графа NP-атомов

• Нахождение всех (k,l)-разрезов графа

• Удаление всех (k,l)-разрезов из графа

• Нахождение кластеров, т.е. связных компонент полученного графа

Page 58: С.А.Спирин,  13 .11.20 12

Граф контактов NP-атомов

• Вершина – один NP-атом

• Ребро соединяет два атома, если они контактируют

Page 59: С.А.Спирин,  13 .11.20 12

• Ковалентные связи и, более обще, пары атомов на фиксированном расстоянии в силу форсмажора – стереохимических ограничений

• Гидрофобные контакты

Два типа ребер

C C C

Page 60: С.А.Спирин,  13 .11.20 12

Критерии контакта

dm

d d0 ,

(d0 – порог, 4,5–5,4Ǻ)

m m0

(m0=d0/2)

Page 61: С.А.Спирин,  13 .11.20 12

Что такое (k,l)-разрез графа?

• Определение: (k,l)-разрез графа – это k ребер, образующих связный подграф G такой , что l-реберная окрестность подграфа G после удаления его ребер распадается на две или более связных компоненты

Page 62: С.А.Спирин,  13 .11.20 12

Подграф G1 (красные ребра) является (2,1)-разрезом

Подграф G2 (красные ребра) не является (2,1)-разрезом

G1 G2

Page 63: С.А.Спирин,  13 .11.20 12

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 3

Cluster 4

Cluster 1

Cluster 2

Cluster 1’

Cluster 2

Cluster 3

Cluster 4

Cluster 1’’

Nonpolar atomsGraph of nonpolar atoms(1,1)-cuts (red edges)Clusters after (1,1)-cutting(2,1)-cut (red edges)Clusters after (2,1)-cutting

Page 64: С.А.Спирин,  13 .11.20 12

Программа ‘ClusterDetector’ (CluD)

http://mouse.belozersky.msu.ru/npidb/cgi-bin/hftri.pl

(реализованы k=l=1)

Page 65: С.А.Спирин,  13 .11.20 12

Each HF cluster is also presented as a list of atoms (.xls), rasmol script and whole cluster parameters (center of gravity, ellipsoid half-axis, etc.)

Пример результата программы CluD

Page 66: С.А.Спирин,  13 .11.20 12

III. Домены белков

Page 67: С.А.Спирин,  13 .11.20 12

Что такое “домен”?

Три определения:• По функции (функциональный домен)• По сравнению последовательностей (эволюционный домен)• По структуре (структурный домен)

Page 68: С.А.Спирин,  13 .11.20 12

Функциональный домен (биохимия/биоинженерия)

Минимальная часть полипептидной цепи, которая:

• может автономно свернуться в правильную, нативную структуру

• сохраняет (in vitro) как минимум одну из активностей полного белка

Page 69: С.А.Спирин,  13 .11.20 12

Derbyshire et al., PNAS, 94, 11466-11471(1997)“Genetic definition of a protein-splicing domain: Functional mini-inteins support structure predictions and a model for intein evolution”(http://www.pnas.org/cgi/content/full/94/21/11466)

Рекомбиназа A из Mycobacterium tuberculosis (790 а.о.) содержит интеин (440 а.о.), белок, обладающий способностью автономно вырезаться из полипептидной цепи белка-предшественника (явление белкового сплайсинга). Это – первая активность интеина.

интеин экстеин 2экстеин 1

экстеин 1 экстеин 2 интеин

Page 70: С.А.Спирин,  13 .11.20 12

Этот интеин обладает также эндонуклеазной активностью (вторая активность).

По сходству последовательности этого белка с последовательностями других, более изученных интеинов, в т.ч. интеина с расшифрованной РСА структурой (1VDE), была высказана гипотеза о том, что за две разные активности отвечают разные домены.

При этом за белковый сплайсинг отвечает домен, который составлен из N-концевого и C-концевого участков полипептидной цепи

Page 71: С.А.Спирин,  13 .11.20 12

Для проверки гипотезы авторы создали 21 конструкт генов интеина, в которых удалены разные внутренние участки полипептидной цепи.

Конструкты были встроены в ген другого белка (тимидилатсинтазы, TS) и экспрессировались в E.coli

Активность проверялась по наличию нативного белка TS (без вставки интеина)

Page 72: С.А.Спирин,  13 .11.20 12

Результат: белковый сплайсинг сохранялся в тех случаях, когда удаленный участок не затрагивал первые 96 и последние 35 а.о.

Вывод авторов: функциональный домен автономного белкового сплайсинга состоит из остатков 1–96 и 406–440 (всего 131 из полных 440)

Page 73: С.А.Спирин,  13 .11.20 12

Структура гомологичного белка PI-SceI – хоминг эндонуклеазы из дрожжей (PDB код 1VDE)

Интеин1–181,416–454

Эндонуклеаза186–405 Гидрофобные ядра доменов

Page 74: С.А.Спирин,  13 .11.20 12

Последовательность интеина консервативна.

Об этом свидетельствуют доменные архитектуры трех белков из разных грибов, описанные в Pfam

Доменная структура полноразмерного белка PI-SceI

Доменная структура белка TFP1(аннотирован по сходству)

Доменная структура белка VMA1

Фрагмент, для которого решена структура

Page 75: С.А.Спирин,  13 .11.20 12

Эволюционный домен (биоинформатика:

последовательности)

Достаточно длинный участок полипептидной цепи, который:

• эволюционно консервативен — существуют достоверно сходные участки в других белках

• замечен в перемешивании доменов (domain shuffling),то есть имеются примеры белков, где есть достоверно сходные с ним участки, но есть также несходные между собой (но эволюционно консервативные) участки

Page 76: С.А.Спирин,  13 .11.20 12

Белки, содержащие два эволюционных домена: гомеодомени OAR домен (N-концевые участки не показаны)

Page 77: С.А.Спирин,  13 .11.20 12

Гомеодомены активно перемешивались в эволюции.

Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam

Гомеодомен

Парный домен и гомеодомен

Lim домены и гомеодомен

Гомеодомен, продолженный лейциновой молниейPOU домен и гомеодомен

Два гомеодомена

PBX-домен и гомеодомен

Page 78: С.А.Спирин,  13 .11.20 12

Структурный домен(биоинформатика 3D структур)

Обособленная в пространстве часть молекулы белка

Page 79: С.А.Спирин,  13 .11.20 12

Пример

Транскрипционный фактор – пуриновый репрессор из E.coli (PDB код 1WET)

Page 80: С.А.Спирин,  13 .11.20 12

Пуриновый репрессор димеризуется ….

Page 81: С.А.Спирин,  13 .11.20 12

… связывает две молекулы гуанина, после чего связывается с ДНК.

Сайт связывания – палиндром.

Весь комплекс обладает симметрией 2-го порядка.

ACGAAAACGT TTTCGT

гуанин

Page 82: С.А.Спирин,  13 .11.20 12

Очевидно выделяется домен, связанный с остальным белком гибким линкером.

ДНК-связывающий домен

Регуляторный домен

Page 83: С.А.Спирин,  13 .11.20 12

То, что обычно называется регуляторным доменом – это один структурный домен или два?

Page 84: С.А.Спирин,  13 .11.20 12

Если судить по гидрофобным ядрам, то два… Но обособлены они гораздо слабее.

Page 85: С.А.Спирин,  13 .11.20 12

Структурный домен(биоинформатика: 3D структуры)

Обособленная в пространстве часть белка, его структурная единица, имеющая:

• сравнительно мало контактов с другими частями белка

• собственное гидрофобное ядро

Page 86: С.А.Спирин,  13 .11.20 12

Домен белка XXX(жизнь)

Часть белка, названная доменом:

• Субъективизм• Образность• Традиция

Page 87: С.А.Спирин,  13 .11.20 12

В полимеразах обычно выделяют три домена: fingers, palm, thumb

Fingers

Palm

Thumb

Template RNA

Product RNA

NTP

Page 88: С.А.Спирин,  13 .11.20 12

Три определения доменов часто дают похожие

результаты!

Но не всегда…

Page 89: С.А.Спирин,  13 .11.20 12

19–81

82–9091–142

«Парный» (“Paired”) домен из транскрипционного фактора PAX5 человека (PDB 1K78) – очевидно, два структурных домена

Эволюционный домен (PAX в Pfam)включает оба структурных домена(126 а.о.)

Page 90: С.А.Спирин,  13 .11.20 12

Последовательности PAX/prd доменов консервативны по всей длине

Page 91: С.А.Спирин,  13 .11.20 12

Забавно, что полипептидные цепи обоих структурных доменов имеют общую топологию (- одинаковое число спиралей, - одинаковые межспиральные взаимодействия, - одинаковый порядок следования спиралей вдоль цепи; * минорные элементы вторичной структуры не в счет!)

Page 92: С.А.Спирин,  13 .11.20 12

N-концевой структурный домен парного домена хорошо совмещается с C-концевым

Синий – N-концевой

Зеленый – C-концевой

Совмещение – по двумспиралям, всего по 14 C атомам

Rmsd = 0.5 Å

Но достоверного сходства последовательностей не наблюдается

Page 93: С.А.Спирин,  13 .11.20 12

Два структурных домена парного домена одинаково расположены на ДНК

Page 94: С.А.Спирин,  13 .11.20 12

Структурные домены

Алгоритмы детектирования

Page 95: С.А.Спирин,  13 .11.20 12

На чем основаны методы• Домен имеет собственное гидрофобное

ядро (пример: алгоритм DETECTIVE Swindells, 1995)

• Домен – это часть белка, внутри которой много контактов аминокислотных остатков, а между доменами – мало контактов (пример: алгоритм DOMAK, Siddiqui&Barton, 1995)

Page 96: С.А.Спирин,  13 .11.20 12

Siddiqui&Barton, 1995: DOMAK

• Предпосылки: домен состоит из одного или двух непрерывных участков полипептидной цепи

• Число контактов между остатками внутри домена больше, чем число междоменных контактов

Сверху – вниз, от целого – к части!

Page 97: С.А.Спирин,  13 .11.20 12

Формализация• Два остатка контактируют, если расстояние

между ними меньше 5Å• Если белок разбит на две части, A и B, то

определяется индекс разделенности:

SplitValue=(intA/extAB)∙(intB/extAB)

intA – число пар контактирующих остатков из A;intB – число пар контактирующих остатков из B;extAB – число пар контактирующих остатков, один из A, а другой – из B

Page 98: С.А.Спирин,  13 .11.20 12

Пример. Структура 1CD4. Часть A: N-конец полипептидной цепи до остатка i; часть B – от (i+1) до C-конца

График зависимостииндекса разделенностиот номера граничногоостатка

Page 99: С.А.Спирин,  13 .11.20 12

Деление по остатку 97 (пик на графике)

Page 100: С.А.Спирин,  13 .11.20 12

В алгоритме DOMAK проверяются следующие разделения на части A и B

(1)

(2)

(3)

Page 101: С.А.Спирин,  13 .11.20 12

Алгоритм• К полной цепи применяются методы 1 и 2. Выбирается

разделение с лучшим индексом• К полученным двум доменам применяется та же

процедура. В случае, когда домен состоит из двух сегментов, применяется также метод 3.

• Алгоритм останавливается в зависимости от пороговых значений:– MDS – минимальный размер домена (в числе остатков)– MSS – минимальный размер сегмента

• Отдельная процедура предусмотрена для сегментов, длина которых между MDS и MSS

• Найденные домены проверяются на “компактность”; некомпактные – сливаются в один

Page 102: С.А.Спирин,  13 .11.20 12

Swindells, 1995DETECTIVE

Снизу – вверх, наращивание частей!

Предпосылка: каждый домен имеет свое гидрофобное ядро.

Этапы:1. выявление гидрофобных ядер в структуре2. «натягивание» доменов на гидрофобные ядра

Page 103: С.А.Спирин,  13 .11.20 12

Гидрофобные ядра – еще не домены!

Для получения доменов применяетсямногоходовая процедура чистки-слияния

Page 104: С.А.Спирин,  13 .11.20 12

Алгоритм демонстрируется на примере (см. рис.) (1) найдено 3 кластера – 1-й, 2-й и 3-й (2) остатки, окруженные “чужими” вычищаются (3) кластеры, включающие меньше пяти остатков, вычищаются (4) заливка некластеризованных остатков (5–6) оставшиеся некластеризованные остатки присоединяются

по контактам к кластерам предыдущего шага (7–8) опять прочистка, заливка и присоединение хвостов

Page 105: С.А.Спирин,  13 .11.20 12
Page 106: С.А.Спирин,  13 .11.20 12

Методы выделения доменов (из обзора Veretnik & Shindyalov, 2005)

Большинство методов основано на принципах, близких к DOMAK

Page 107: С.А.Спирин,  13 .11.20 12

Сравнение методов

Критерии сравнения:• процент белковых цепей, для которых все домены выделены правильноЭта величина зависит от критерия правильности (при каком проценте совпадения выделенного и правильного домена они считаются одинаковыми?);• средний процент совпадения выделенного домена с ближайшим правильным;• …

Нужен “benchmark” (стандарт, мерило)

Есть специально посвящённые этому работы. В качестве правильных доменов принимаются домены, независимо и одинаково выделенные несколькими экспертами.

Page 108: С.А.Спирин,  13 .11.20 12

Сравнение методов (по книге “Structural bioinformatics”, 2009)

Page 109: С.А.Спирин,  13 .11.20 12

Figure 3. Benchmarking of automatic domain assignment methods.(A) Performance of DomainParser, PDP and PUU on consensus-based benchmark of 374structures, (B) evaluating tendency to partition domains into non-contiguous fragments.

Сравнение методов (по обзору Veretnik & Shindyalov)

Page 110: С.А.Спирин,  13 .11.20 12

Классификации структурных доменов

• SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/)– ручная детекция доменов– 4 основных уровня классификации (класс, укладка, суперсемейство, семейство)

• CATH (http://www.cathdb.info/)– полуавтоматическая детекция доменов– 4 основных уровня классификации (класс, архитектура, топология, суперсемейство)

Об этом будет отдельная лекция