1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular...
-
Upload
marcosdecarvalho -
Category
Documents
-
view
217 -
download
0
Transcript of 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular...
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
1/24
D I M A C S T e c h n i c a l R e p o r t 9 7 - 6 3
O c t o b e r 1 9 9 7
A S h o r t C o u r s e i n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y
1
b y
D . D u r a n d
2
C o m p u t a t i o n a l B i o l o g y G r o u p , U n i v e r s i t y o f P e n n s y l v a n i a
D I M A C S , R u t g e r s U n i v e r s i t y
d u r a n d d @ d i m a c s . r u t g e r s . e d u , h t t p : w w w . c s . p r i n c e t o n . e d u d u r a n d
M . F a r a c h
3
D e p a r t m e n t o f C o m p u t e r S c i e n c e
R u t g e r s U n i v e r s i t y
f a r a c h @ c s . r u t g e r s . e d u , h t t p : w w w . c s . r u t g e r s . e d u f a r a c h
R . R a v i
4
G r a d u a t e S c h o o l o f I n d u s t r i a l A d m i n i s t r a t i o n
C a r n e g i e M e l l o n U n i v e r s i t y
r a v i @ c m u . e d u
M . S i n g h
5
D e p a r t m e n t o f C o m p u t e r S c i e n c e
P r i n c e t o n U n i v e r s i t y
m o n a @ c s . p r i n c e t o n . e d u
1
P r e s e n t e d a t t h e F i r s t I n t e r n a t i o n a l U n i v e r s i t y o f B u e n o s A i r e s D i m a c s T u t o r i a l i n B i o i n f o r m a t i c s
2
P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t s B I R - 9 4 - 1 3 2 1 5 A 0 1 a n d B I R - 9 4 - 1 2 5 9 4 .
3
P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F C a r e e r D e v e l o p m e n t A w a r d C C R - 9 5 - 0 1 9 4 2 , N S F G r a n t
B I R - 9 4 - 1 2 5 9 4 , a n A l f r e d P . S l o a n R e s e a r c h F e l l o w s h i p a n d N A T O G r a n t 9 6 - 0 2 1 5 .
4
P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t B I R - 9 4 - 1 2 5 9 4 a n d N S F C A R E E R g r a n t 9 6 - 2 5 2 9 7 .
5
P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t B I R - 9 4 - 1 2 5 9 4 .
D I M A C S i s a p a r t n e r s h i p o f R u t g e r s U n i v e r s i t y , P r i n c e t o n U n i v e r s i t y , A T & T R e s e a r c h ,
B e l l c o r e , a n d B e l l L a b o r a t o r i e s .
D I M A C S i s a n N S F S c i e n c e a n d T e c h n o l o g y C e n t e r , f u n d e d u n d e r c o n t r a c t S T C 9 1 1 9 9 9 9 ;
a n d a l s o r e c e i v e s s u p p o r t f r o m t h e N e w J e r s e y C o m m i s s i o n o n S c i e n c e a n d T e c h n o l o g y .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
2/24
A B S T R A C T
T h e a d v e n t o f r e c o m b i n a n t D N A t e c h n o l o g y d u r i n g t h e 1 9 7 0 s h a s l e d t o a n i n u n d a t i o n o f
b i o l o g i c a l s e q u e n c e d a t a . T h e c o m p i l a t i o n a n d a n a l y s i s o f D N A a n d p r o t e i n s e q u e n c e s i s
n o w a f u n d a m e n t a l t a s k i n m o l e c u l a r b i o l o g y r e q u i r i n g . C o m p u t a t i o n a l M o l e c u l a r B i o l o g y i s
t h e e l d o f c o m p u t e r s c i e n c e t h a t h a s e m e r g e d t o s o l v e a l g o r i t h m i c p r o b l e m s i n d e t e r m i n i n g
s e q u e n c e s a n d a n a l y z i n g t h e m . S p e c i c r e s e a r c h e o r t s i n t h i s a r e a i n c l u d e s e q u e n c i n g
a n d m a p p i n g , p a i r w i s e a n d m u l t i p l e s e q u e n c e c o m p a r i s o n , p r o t e i n s t r u c t u r e d e t e r m i n a t i o n
a n d e v o l u t i o n a r y t r e e r e c o n s t r u c t i o n . S o l u t i o n s t o t h e s e p r o b l e m s c o n t r i b u t e b o t h t o b a s i c
s c i e n t i c r e s e a r c h a n d p r o d u c t d e v e l o p m e n t i n t h e b i o t e c h n o l o g y i n d u s t r y . W e h a v e d e s i g n e d
a c o u r s e t o g i v e a b a s i c i n t r o d u c t i o n t o t h e m a j o r a l g o r i t h m i c r e s e a r c h a r e a s i n c o m p u t a t i o n a l
b i o l o g y .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
3/24
O v e r v i e w
1 . G e n e r a l B i o l o g y 3 h o u r s
a B i o l o g i c a l s e q u e n c e s : D N A , R N A a n d p r o t e i n s .
b M u t a t i o n s
c G e n e a n d g e n o m e s t r u c t u r e
d I n t r o d u c t i o n t o a l i g n m e n t s : w h a t a n d w h y ?
2 . S e q u e n c e A n a l y s i s 4 . 5 h o u r s
a D y n a m i c P r o g r a m m i n g : g l o b a l a n d l o c a l p a i r w i s e a l i g n m e n t , g a p p e n a l t y f u n c -
t i o n s .
b P a i r w i s e a l i g n m e n t r e v i s i t e d : l o g - o d d s s t a t i s t i c s , s u b s t i t u t i o n m a t r i c e s . D a t a b a s e
s e a r c h i n g : B L A S T , F A S T A .
c M u l t i p l e s e q u e n c e a l i g n m e n t .
3 . S e q u e n c i n g a n d M a p p i n g 3 h o u r s
a R e c o m b i n a n t D N A t e c h n o l o g y .
b S e q u e n c e a s s e m b l y .
c P h y s i c a l m a p p i n g .
4 . P r o t e i n S t r u c t u r e 4 . 5 h o u r s
a I n t r o d u c t i o n t o s t r u c t u r a l c l a s s i c a t i o n .
b T e r t i a r y p r o t e i n s t r u c t u r e p r e d i c t i o n .
c P r e d i c t i o n o f s e c o n d a r y s t r u c t u r e .
d M o t i f r e c o g n i t i o n : s t a t i s t i c a l a n d c o m p u t a t i o n a l l e a r n i n g m e t h o d s .
e P r o t e i n f o l d i n g a n d l a t t i c e m o d e l s .
5 . E v o l u t i o n a r y T r e e s 3 h o u r s
a M o l e c u l a r e v o l u t i o n : p a r a l o g y , g e n e t r e e s , m u t a t i o n a l m o d e l s .
b M u l t i p l e s e q u e n c e a l i g n m e n t a n d t r e e r e c o n s t r u c t i o n .
c P h y l o g e n y c o n s t r u c t i o n : m a x i m u m l i k e l i h o o d e s t i m a t i o n a n d d i s t a n c e m e t h o d s .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
4/24
2
1 G e n e r a l B i o l o g y
G e n e t i c m a t e r i a l e n c o d e s t h e i n f o r m a t i o n t h a t d e t e r m i n e s t h e f u n c t i o n , d e v e l o p m e n t a n d
d i e r e n t i a t i o n o f c e l l s , a n d , h e n c e , t h e a p p e a r a n c e o f t h e o r g a n i s m . T h i s i n f o r m a t i o n i s
s t o r e d i n D N A m o l e c u l e s a n d e x p r e s s e d t h r o u g h t h e f o r m a t i o n o f p r o t e i n s . C e l l d e v e l o p m e n t
a n d d i e r e n t i a t i o n i s c o n t r o l l e d t h r o u g h g e n e r e g u l a t i o n , w h i c h d e t e r m i n e s w h e n a n d h o w
m u c h o f a p r o t e i n i s m a d e .
1 . I n t r o d u c t i o n
a W h a t i s c o m p u t a t i o n a l m o l e c u l a r b i o l o g y ?
b W h a t w i l l w e c o v e r t o d a y ?
2 . G e n e s a n d P r o t e i n S y n t h e s i s i n B a c t e r i a P r o c a r y o t e s
a C h r o m o s o m e s a r e t h e D N A m o l e c u l e s o n w h i c h g e n e t i c i n f o r m a t i o n i s s t o r e d . A
g e n e i s a s u b s e q u e n c e o f a c h r o m o s o m e t h a t e n c o d e s a s i n g l e p r o t e i n .
b D N A
i . D N A i s a p o l y m e r o f f o u r n u c l e o t i d e s a d e n i n e , c y t o s i n e , g u a n i n e a n d t h y m i n e
a n d c a n b e v i e w e d a s a s t r i n g o v e r a f o u r l e t t e r a l p h a b e t A , C , G , T .
i i . N u c l e o t i d e s a r e c o m p o s e d o f a s u g a r , a p h o s p h a t e a n d a b a s i c g r o u p . T h e
b a s e d e t e r m i n e s t h e i d e n t i t y o f t h e n u c l e o t i d e .
i i i . D N A s t r u c t u r e : d o u b l e s t r a n d e d , h e l i c a l s t r u c t u r e ; b a s e p a i r i n g A T , G C
b o n d s ; o r i e n t a t i o n 3 ' 5 ' .
c D N A r e p l i c a t i o n .
d P r o t e i n S y n t h e s i s
i . P r o t e i n s a r e a m i n o a c i d p o l y m e r s . T h e r e a r e t w e n t y a m i n o a c i d s , e a c h c o m -
p o s e d o f a c a r b o n b a c k b o n e a n d a r e s i d u e t h a t d e t e r m i n e s i t s i d e n t i t y a n d
i t s c h e m i c a l p r o p e r t i e s .
i i . P r o t e i n s y n t h e s i s i s a t w o s t e p p r o c e s s m e d i a t e d b y R N A . R N A i s a s i n g l e
s t r a n d e d n u c l e i c a c i d . I t d i e r s f r o m D N A i n t h a t i t s n u c l e o t i d e s c o n t a i n a
d i e r e n t s u g a r a n d t h e n u c l e o t i d e , t h i a m i n e , i s r e p l a c e d w i t h t h e n u c l e o t i d e ,
u r a c i l .
i i i . F i r s t , D N A i s t r a n s c r i b e d i n t o m e s s e n g e r R N A a l s o c a l l e d m R N A . R e g u l a -
t o r y s e q u e n c e s p r o m o t e r s , r e p r e s s o r s o n t h e c h r o m o s o m e d e t e r m i n e w h e n
g e n e s a r e t r a n s c r i b e d .
i v . S e c o n d , m R N A i s t r a n s l a t e d i n t o t h e a m i n o a c i d s e q u e n c e i t e n c o d e s , a i d e d
b y t R N A m o l e c u l e s a n d r i b o s o m e s R N A a n d p r o t e i n c o m p l e x e s . A s i t i s
s y n t h e s i z e d , t h e p r o t e i n t a k e s o n i t s t h r e e - d i m e n s i o n a l s t r u c t u r e .
3 . G e n e s a n d P r o t e i n S y n t h e s i s i n E u c a r y o t e s h i g h e r " o r g a n i s m s
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
5/24
3
a G e n e t i c o r g a n i z a t i o n i n e u c a r y o t e s : t h e n u c l e u s , l i n e a r c h r o m o s o m e s , d i p l o i d y
a n d p o l y p l o i d y , n u c l e o s o m e s .
b D N A r e p l i c a t i o n r e v i s i t e d : R e c o m b i n a t i o n a n d m e i o s i s .
c G e n e s t r u c t u r e i n e u c a r y o t e s : i n t r o n s , e x o n s a n d g e n e s p l i c i n g .
d M o r e c o m p l e x g e n e r e g u l a t i o n : i n d u c e r s , e n h a n c e r s a n d t r a n s c r i p t i o n f a c t o r s .
4 . G e n e a n d c h r o m o s o m e m u t a b i l i t y
a P o i n t m u t a t i o n s
i . i n s e r t i o n s a n d d e l e t i o n s .
i i . s u b s t i t u t i o n s : t r a n s i t i o n s v e r s u s t r a n s v e r s i o n s ; s i l e n t , n e u t r a l , n o n s e n s e a n d
m i s s e n s e m u t a t i o n s ; r e v e r s e m u t a t i o n .
b G e n o m e r e a r r a n g e m e n t s : d u p l i c a t i o n , d e l e t i o n , i n v e r s i o n a n d t r a n s l o c a t i o n .
c G e n e f a m i l i e s .
5 . C o n c l u s i o n
a S u m m a r y o f t o d a y ' s l e c t u r e .
b W h a t w i l l w e c o v e r i n t h i s c o u r s e ?
i . I n t r o d u c t i o n t o s e q u e n c e a l i g n m e n t .
i i . A n o v e r v i e w o f p r o b l e m s i n c o m p u t a t i o n a l b i o l o g y .
R e f e r e n c e s
1 B r u c e A l b e r t s e t a l . M o l e c u l a r B i o l o g y o f t h e C e l l G a r l a n d , 1 9 9 4
2 L a r r y G o n i c k a n d M a r k W h e e l i s . T h e C a r t o o n G u i d e t o G e n e t i c s H a r p e r P e r e n n i a l , 1 9 9 1
3 J a m e s L . G o u l d a n d W i l l i a m T . K e e t o n B i o l o g i c a l S c i e n c e W . W . N o r t o n a n d C o . , 1 9 9 6
4 A . J . F . G r i t h s , J . H . M i l l e r , D . T . S u z u k i , R . C . L e w o n t i n a n d W . M . G e l b a r t A n
I n t r o d u c t i o n t o G e n e t i c A n a l y s i s F r e e m a n , 1 9 9 6
5 R . C . K i n g a n d W . D . S t a n s e l d A D i c t i o n a r y o f G e n e t i c s O x f o r d U n i v e r s i t y P r e s s ,
1 9 9 0
6 B e n j a m i n L e w i n G e n e s V I O x f o r d U n i v e r s i t y P r e s s , 1 9 9 7
7 W e n - H s i u n g L i a n d D a n G r a u r F u n d a m e n t a l s o f M o l e c u l a r E v o l u t i o n S i n a u e r A s s o c i a t e s ,
1 9 9 1
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
6/24
4
2 S e q u e n c e A n a l y s i s
1 . D y n a m i c P r o g r a m m i n g a n d A l i g n m e n t s
a D e n i t i o n s
i . E d i t o p e r a t i o n s : I n s e r t i o n s , D e l e t i o n s , S u b s t i t u t i o n s
i i . E d i t d i s t a n c e
i i i . G l o b a l A l i g n m e n t
i v . L o c a l A l i g n m e n t
b E d i t o p e r a t i o n s c o m e i n a c a n o n i c a l o r d e r i n g
c T h e r e f o r e , w e c a n c o m p u t e
S i m A i ; B j = m a x
8
:
S i m A i , 1 ; B j , 1 + S A i ; B j
S i m A i , 1 ; B j + I A i
S i m A i ; B j , 1 + I B j
d I n i t i a l c o n d i t i o n s c h a n g e b e h a v i o u r :
A s a n e x e r c i s e , w h a t d o w e d o i f w e w a n t d e l e t i o n o f p r e x e s t o b e f r e e ?
S i m A 0 ; B i = S i m A j ; B 0 = 0
e H o w d o w e c o m p u t e L o c a l A l i g n m e n t ?
i . D e l e t i n g p r e x e s i s f r e e .
i i . D e l e t i n g s u x e s i s f r e e : w e a r e l o o k i n g f o r m a x i m u m i n t h e e n t i r e m a t r i x ,
n o t j u s t S i m A n ; B m .
i i i . H o w d o w e a l l o w p r e x e s o f b o t h s t r i n g s t o b e d e l e t e d ?
L S i m A i ; B j = m a x
8
:
L S i m A i , 1 ; B j , 1 + S A i ; B j
L S i m A i , 1 ; B j + I A i
L S i m A i ; B j , 1 + I B j
0
N o t e : t h e l a s t c a s e k i c k s i n w h e n p r e x e s a r e b a d l y a l i g n m e n t a n d m u s t b e
d e l e t e d .
f G a p s : w h a t i f k d e l e t i o n s i n a r o w c o s t f k , r a t h e r t h a n k f 1 , t h a t i s , a g a p o f
l e n g t h k i s n o t s i m p l y t h e s a m e a s k i n d i v i d u a l s i n g l e c h a r a c t e r g a p s ?
i . A n e g a p f u n c t i o n s
i i . C o n v e x c o n c a v e g a p f u n c t i o n s
g A l i g n m e n t i n l i n e a r s p a c e .
2 . S e q u e n c e A n a l y s i s : S t a t i s t i c s a n d P r o g r a m s
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
7/24
5
a S e a r c h i n g a s i n g l e s e q u e n c e f o r m a x i m a l s c o r i n g s e g m e n t s
i . R a n d o m m o d e l s o f a r b i t r a r y g e n e t i c s e q u e n c e s a n d t a r g e t g e n e t i c s e q u e n c e s .
W h a t a s s u m p t i o n s a r e n e e d e d t o s t u d y t h e s t a t i s t i c s o f t h e m a x i m a l s c o r i n g
s e g m e n t s ?
i i . G i v e n a s e q u e n c e a n d a s c o r i n g v e c t o r w i t h a s c o r e f o r e a c h c h a r a c t e r , w h a t
i s t h e s t a t i s t i c a l s i g n i c a n c e o f i t s m a x i m a l s e g m e n t s c o r e ?
i i i . W h a t i s t h e d i s t r i b u t i o n o f c h a r a c t e r s i n s e g m e n t s w i t h v e r y h i g h s c o r e s ?
b C o m p a r i s o n o f t w o s e q u e n c e s f o r m a x i m a l s e g m e n t p a i r s
i . R a n d o m m o d e l s w i t h o c c u r r e n c e f r e q u e n c i e s , a n d t a r g e t f r e q u e n c i e s f o r a l i g n e d
p a i r s w i t h n o g a p s . W h a t a s s u m p t i o n s a r e n e e d e d t o s t u d y t h e s t a t i s t i c s
o f t h e m a x i m a l s e g m e n t p a i r t h e p a i r o f s e g m e n t s f r o m t h e t w o s e q u e n c e s
w h o s e l o c a l g a p l e s s a l i g n m e n t h a s t h e m a x i m u m s i m i l a r i t y s c o r e o v e r a l l s u c h
p a i r s ?
i i . G i v e n a p a i r o f s e q u e n c e s a n d a s c o r i n g m a t r i x w i t h a p a i r w i s e a l i g n m e n t
s c o r e f o r e v e r y p a i r o f c h a r a c t e r s , w h a t i s t h e s t a t i s t i c a l s i g n i c a n c e o f t h e
a l i g n m e n t s c o r e o f t h e m a x i m a l s e g m e n t p a i r ?
i i i . W h a t i s t h e d i s t r i b u t i o n o f t h e a l i g n e d p a i r s o f c h a r a c t e r s i n s e g m e n t p a i r s
w i t h v e r y h i g h s c o r e s ?
i v . R e a s o n i n g b a c k w a r d s , g i v e n a t a r g e t d i s t r i b u t i o n o f a l i g n e d p a i r s o f c h a r a c -
t e r s , h o w c a n w e d e s i g n a s c o r i n g m a t r i x t o b e s t p i c k o u t s u c h a l i g n m e n t s a s
i t s m a x i m a l s e g m e n t p a i r s ?
c D a t a b a s e s e a r c h t o o l s : B L A S T a n d F A S T
i . W h a t a r e t h e y ?
i i . W h e r e a r e t h e y ? C h e c k o u t , e . g . , h t t p : w w w . n c b i . n l m . n i h . g o v B L A S T
a n d
h t t p : s w a r m e r . s t a n f o r d . e d u c g i - b i n f a s t a q - f o r m ? o p t i o n s = s i m p l e .
i i i . H o w d o t h e y w o r k ?
i v . H o w c a n o n e i n t e r p r e t t h e i r r e s u l t s ?
R e f e r e n c e s
1 M e t h o d s f o r a s s e s s i n g t h e s t a t i s t i c a l s i g n i c a n c e o f m o l e c u l a r s e q u e n c e f e a t u r e s
b y u s i n g g e n e r a l s c o r i n g s c h e m e s , " S . K a r l i n a n d S . A l t s c h u l , P r o c . o f t h e N a t l .
A c a d . S c i . U S A , V o l . 8 7 , p p . 2 2 6 4 - 2 2 6 8 1 9 9 0 . T h i s r e f e r e n c e c o n t a i n s a d e s c r i p -
t i o n w i t h o u t d e r i v a t i o n o f t h e r e s u l t s o n t h e s t a t i s t i c s o f m a x i m a l s e g m e n t s c o r e s
f o r s i n g l e s e q u e n c e s a n d o f m a x i m a l s e g m e n t p a i r s f o r p a i r s o f s e q u e n c e s , i n t e r m s
o f t h e s c o r i n g m a t r i c e s u s e d .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
8/24
6
2 C h a p t e r 3 . 5 , I n t r o d u c t i o n t o C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J . S e t u b a l a n d
J . M e i d a n i s , P W S P u b l i s h i n g C o m p a n y , 1 9 9 7 . T h i s c h a p t e r c o n t a i n s a n i n t u i t i v e
d e r i v a t i o n o f t h e P A M m a t r i x s c o r e s , a l o n g w i t h b r i e f d e s c r i p t i o n s o f t h e d e s i g n
o f t h e F A S T a n d B L A S T p r o g r a m s f o r g e n e t i c d a t a b a s e s e a r c h .
3 I m p r o v e d t o o l s f o r b i o l o g i c a l s e q u e n c e c o m p a r i s o n , " W . R . P e a r s o n a n d D . J . L i p -
m a n , P r o c . N a t l . A c a d . S c i . U S A , V o l . 8 5 , p p . 2 4 4 4 - 2 4 4 4 8 1 9 8 8 . T h i s p a p e r c o n -
t a i n s a d e s c r i p t i o n o f t h e F A S T s u i t e o f p r o g r a m s f o r l o c a l s i m i l a r i t y s e a r c h e s o f
g e n e t i c d a t a b a s e s w i t h a q u e r y s t r i n g .
4 B a s i c L o c a l A l i g n m e n t S e a r c h T o o l , " S . A l t s c h u l , W . G i s h , W . M i l l e r , E . W . M y -
e r s , a n d D . J . L i p m a n , J . M o l . B i o l . , 2 1 5 , 4 0 3 - 4 1 0 1 9 9 0 . T h i s i s t h e m a i n a r t i c l e
d e s c r i b i n g B L A S T , a p o p u l a r p r o g r a m f o r g e n e t i c d a t a b a s e s e a r c h i n g f o r l o c a l
a l i g n m e n t m a t c h e s w i t h a q u e r y s e q u e n c e . I t a l s o c o n t a i n s s o m e j u s t i c a t i o n f o r
t h e p a r a m e t e r s e t t i n g u s e d a s d e f a u l t b y t h e p r o g r a m .
5 A m i n o a c i d s u b s t i t u t i o n m a t r i c e s f r o m a n i n f o r m a t i o n t h e o r e t i c p e r s p e c t i v e , "
S . A l t s c h u l , J . M o l . B i o l . , 2 1 9 , 5 5 5 - 5 6 5 1 9 9 1 . T h i s p a p e r c o n t a i n s a n i n t e r -
p r e t a t i o n o f l o c a l a l i g n m e n t s c o r e s i n u n i t s o f b i t s o f i n f o r m a t i o n b y e x a m i n g
s u b s t i t u t i o n m a t r i c e s i n t e r m s o f t h e i r e n t r o p y . F r o m t h i s p e r s p e c t i v e , t h e p a -
p e r p r e s c r i b e s t y p i c a l l e n g t h s o f s i g n i c a n t l o c a l a l i g n m e n t s f o r a n a v e r a g e s e a r c h
u s i n g a p a r t i c u l a r P A M m a t r i x f o r a r e q u i s i t e l e v e l o f s i g n i c a n c e .
6 S e q u e n c e a l i g n m e n t a n d p e n a l t y c h o i c e , " M . V i n g r o n a n d M . S . W a t e r m a n , J .
M o l . B i o l . , 2 3 5 , 1 - 1 2 1 9 9 4 . T h i s r e v i e w a r t i c l e c o n t a i n s t w o p a r t s : T h e r s t p a r t
d e s c r i b e s a p a r a m e t r i c a p p r o a c h t o d e s c r i b i n g o p t i m a l a l i g n m e n t s f o r a l l p o s s i b l e
s e t t i n g s o f g a p p e n a l t i e s . T h e s e c o n d p a r t d e s c r i b e s a p r o b a b i l i s t i c p h a s e t r a n s i t i o n
i n t h e b e h a v i o r o f o p t i m a l a l i g n m e n t s a s a n e x p e c t e d s c o r e m e a s u r e a s s o c i a t e d w i t h
t h e s c o r i n g m a t r i x i s i n c r e a s e d . T h i s t h r e s h o l d i d e n t i e s a b o u n d a r y b e t w e e n l o c a l
a n d g l o b a l a l i g n m e n t s a n d t h u s h e l p s i n i d e n t i f y i n g f a v o r a b l e s c o r i n g s c h e m e s f o r
t h e s e t w o d i s t i n c t t y p e s o f a l i g n m e n t s .
3 . M u l t i p l e S e q u e n c e A l i g n m e n t
a A n i n t r o d u c t i o n t o M u l t i p l e S e q u e n c e A l i g n m e n t M S A
i . I n t u i t i v e n o t i o n s o f M S A a s a n e x t e n s i o n o f p a i r w i s e a l i g n m e n t .
i i . G l o b a l v e r s u s l o c a l M S A
b A p p l i c a t i o n s o f M S A
i . C h a r a c t e r i z i n g c o n s e r v e d p a t t e r n s .
i i . P h y l o g e n y r e c o n s t r u c t i o n
i i i . S t r u c t u r e p r e d i c t i o n .
c G l o b a l A l i g n m e n t
i . A f o r m a l d e n i t i o n o f M S A a s a n o p t i m i z a t i o n p r o b l e m .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
9/24
7
i i . S c o r i n g f u n c t i o n s f o r M S A : S u m - o f - P a i r s S P , t r e e a l i g n m e n t T A , s t a r
a l i g n m e n t
i i i . C o m p l e x i t y r e s u l t s : h a r d n e s s o f g l o b a l M S A
d E x a c t m e t h o d s f o r c o n s t r u c t i n g g l o b a l M S A ' s .
i . S u m - o f - p a i r s u s i n g d y n a m i c p r o g r a m m i n g
i i . T r e e a l i g n m e n t .
i i i . I m p r o v i n g p e r f o r m a n c e b y p r u n i n g t h e s e a r c h s p a c e .
e A p p r o x i m a t i o n a l g o r i t h m s f o r g l o b a l M S A
f B i o l o g i c a l m e a s u r e s o f M S A q u a l i t y
i . U s i n g s t r u c t u r a l i n f o r m a t i o n t o c o n s t r u c t o r v a l i d a t e a l i g n m e n t s .
i i . E x p e r i m e n t a l c o m p a r i s o n s o f M S A a l g o r i t h m s .
g A s a m p l i n g o f h e u r i s t i c m e t h o d s .
R e f e r e n c e s
1 S . C . C h a n , A . K . C . W o n g a n d D . K . Y . C h i u . A S u r v e y o f M u l t i p l e S e q u e n c e C o m -
p a r i s o n M e t h o d s " B u l l e t i n o f M a t h e m a t i c a l B i o l o g y 1 9 9 2 5 4 : 5 6 3 5 9 8
2 A d a m G o d z i k . T h e s t r u c t u r a l a l i g n m e n t b e t w e e n t w o p r o t e i n s : I s t h e r e a u n i q u e
a n s w e r ? " P r o t e i n S c i e n c e 1 9 9 6 5 : 1 3 2 5 1 3 3 8
3 M . A . M c C l u r e , T . K . V a s i a n d W . M . F i t c h . C o m p a r a t i v e A n a l y s i s o f M u l t i p l e
P r o t e i n - S e q u e n c e A l i g n m e n t M e t h o d s " M o l . B i o l . E v o l . 1 9 9 4 1 1 : 5 7 1 5 9 2
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
10/24
8
3 S e q u e n c i n g a n d M a p p i n g
1 . R e c o m b i n a n t D N A T e c h n o l o g y
a C u t , p a s t e a n d c o p y
i . V e c t o r s : p l a s m i d s , p h a g e s , c o s m i d s a n d b a c t e r i a .
i i . C u t t e r s : r e s t r i c t i o n e n d o n u c l e a s e s ; c o n s t r u c t i n g r e s t r i c t i o n m a p s ; R F L P s .
i i i . P a s t e r s : L i g a s e s .
i v . C l o n i n g : c u t a n d p a s t e i n t o a v e c t o r , t h e n u s e b a c t e r i a t o p r o d u c e s e v e r a l
c o p i e s ; M e t h o d s f o r r e c o g n i t i o n o f s u c c e s s f u l l y c l o n e d c o p i e s .
v . C o p y : P o l y m e r a s e C h a i n R e a c t i o n P C R : U s e p o l y m e r a s e a n d p r i m e r s a n k -
i n g t h e D N A r e g i o n o f i n t e r e s t t o p r o d u c e s e v e r a l c o p i e s w i t h o u t c l o n i n g .
b B a s i c s e q u e n c i n g
i . G e l E l e c t r o p h o r e s i s .
i i . C h a i n - t e r m i n a t e d P C R o r S a n g e r ' s m e t h o d .
i i i . t i m e p e r m i t t i n g S e q u e n c i n g b y h y b r i d i z a t i o n S B H .
R e f e r e n c e s
1 U n d e r s t a n d i n g D N A a n d g e n e c l o n i n g s e c o n d e d . , K . D r l i c a , J o h n W i l e y &
S o n s , I n c . 1 9 9 2 . T h i s b o o k c o n t a i n s a v e r y r e a d a b l e a c c o u n t o f t h e v a r i o u s
l a b o r a t o r y m e t h o d s i n r e c o m b i n a n t D N A t e c h n o l o g y .
2 T o w a r d s D N A s e q u e n c i n g c h i p s , " P . P e v z n e r a n d R . L i p s h u t z , i n P r o c .
M F C S ' 9 4 , S p r i n g e r - V e r l a g L N C S 8 4 1 , p p . 1 4 3 - 1 5 8 1 9 9 4 . A g o o d s u r v e y
o n s e q u e n c i n g b y h y b r i d i z a t i o n .
2 . S e q u e n c e A s s e m b l y
a B i o l o g y
i . S h o t g u n s e q u e n c i n g .
i i . I d e a l c a s e - c o n s e n s u s s e q u e n c e .
i i i . C o m p l i c a t i o n s : c h i m e r i s m , u n k n o w n o r i e n t a t i o n , r e p e a t e d r e g i o n s , l a c k o f
c o v e r a g e .
b M o d e l s
i . C o v e r a g e e s t i m a t i o n b y s t a t i s t i c a l m o d e l .
i i . S h o r t e s t C o m m o n S u p e r s t r i n g .
i i i . A w e a k e r r e c o n s t r u c t i o n m o d e l i n c o r p o r a t i n g o r i e n t a t i o n .
c M e t h o d s
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
11/24
9
i . G r e e d y a l g o r i t h m f o r S C S a n d t h e o r e t i c a l e m b e l l i s h m e n t s .
i i . H e u r i s t i c m e t h o d s t o a i d G r e e d y : n d o v e r l a p s , b u i l d l a y o u t u s e s t a t i s t i c s t o
e x t e n d o v e r l a p p i n g m a t c h e s , c o m p u t e a l i g n m e n t f o r c o n s e n s u s t o x e r r o r s .
R e f e r e n c e s
1 G e n o m i c m a p p i n g b y n g e r p r i n t i n g r a n d o m c l o n e s : a m a t h e m a t i c a l a n a l y -
s i s , " E . S . L a n d e r a n d M . S . W a t e r m a n , G e n o m i c s 2 , 2 3 1 - 2 3 9 1 9 8 8 . T h i s
a r t i c l e c o n t a i n s a p r o b a b i l i s t i c a n a l y s i s o f t h e n u m b e r o f c o n t i g s a n d o c e a n s
g a p s i n a l a r g e s c a l e s e q u e n c i n g p r o j e c t a s a f u n c t i o n o f t h e n u m b e r o f
c l o n e s u s e d o r a l t e r n a t i v e l y , t h e c o v e r a g e o f t h e g e n o m e b y t h e c l o n e s u s e d .
2 E x a c t a n d a p p r o x i m a t e a l g o r i t h m s f o r t h e s e q u e n c e r e c o n s t r u c t i o n p r o b -
l e m , " J . D . K e c e c i o g l u a n d E . W . M y e r s , A l g o r i t h m i c a 1 3 1 - 2 , 7 - 5 1 1 9 9 5 .
T h i s p a p e r g i v e s a l g o r i t h m s f o r t h e v a r i o u s s u b p r o b l e m s a r i s i n g i n s e q u e n c e
a s s e m b l y .
3 A q u a n t i t a t i v e c o m p a r i s o n o f D N A s e q u e n c e a s s e m b l y p r o g r a m s , "
M . J . M i l l e r a n d J . I . P o w e l l , J . C o m p u t . B i o l . , 1 4 , 2 5 7 - 2 6 9 1 9 9 4 . T h i s
p a p e r p r e s e n t s a c o m p a r i s o n o f n e a r l y a d o z e n s e q u e n c e a s s e m b l y p r o g r a m s
f o r t h e i r a c c u r a c y a n d r e p r o d u c i b i l i t y o f D N A f r a g m e n t s .
3 . P h y s i c a l M a p p i n g
a B i o l o g y
i . H y b r i d i z a t i o n m a p p i n g ; n o n - u n i q u e p r o b e s v e r s u s S e q u e n c e T a g g e d S i t e s
S T S a s u n i q u e p r o b e s ;
i i . T y p e s o f c o m m o n e r r o r s : f a l s e p o s i t i v e s a n d n e g a t i v e s , c h i m e r i s m .
b M o d e l s
i . I d e a l c a s e : i n t e r v a l g r a p h r e c o g n i t i o n .
i i . M o d e l i n g e r r o r s : a H a m m i n g d i s t a n c e T r a v e l i n g S a l e s p e r s o n P r o b l e m T S P .
c M e t h o d s
i . E x a c t a l g o r i t h m s f o r t e s t i n g c o n s e c u t i v e - o n e s p r o p e r t y a r e u s e f u l i n r e c o g n i z -
i n g i n t e r v a l g r a p h s ; H e u r i s t i c e x t e n s i o n s t o a l l o w e r r o r s ;
i i . H e u r i s t i c s f o r s c r e e n i n g c h i m e r i c c l o n e s ; L o c a l i m p r o v e m e n t a l g o r i t h m s f o r
n d i n g g o o d p r o b e o r d e r i n g s b y s o l v i n g t h e H a m m i n g T S P .
d O t h e r m e t h o d s t i m e p e r m i t t i n g
i . R H R a d i a t i o n H y b r i d m a p p i n g - t h e b i o l o g y ; E r r o r t y p e s : f a l s e p o s i t i v e s
a n d f a l s e n e g a t i v e s ; F o r m u l a t i o n a s n d i n g t h e o r d e r i n g a n d p l a c e m e n t o f
m a r k e r s ; G r e e d y a n d l o c a l i m p r o v e m e n t a l g o r i t h m s .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
12/24
1 0
R e f e r e n c e s
1 P h y s i c a l m a p p i n g o f c h r o m o s o m e s u s i n g u n i q u e p r o b e s , " F . A l i z a d e h ,
R . M . K a r p , D . K . W e i s s e r a n d G . Z w e i g , J . C o m p u t . B i o l . 2 2 , 1 5 9 - 1 8 4
1 9 9 5 . T h i s p a p e r d e s c r i b e s c o m b i n a t o r i a l m e t h o d s f o r c o n s t r u c t i n g p h y s i c a l
m a p s w i t h S T S p r o b e s , i n c l u d i n g t e c h n i q u e s f o r t h e H a m m i n g T S P s o l u t i o n
s u c h a s s i m u l a t e d a n n e a l i n g , a n d s c r e e n i n g m e t h o d s f o r e r r o r s i n t h e d a t a .
2 P h y s i c a l m a p p i n g o f c h r o m o s o m e s : a c o m b i n a t o r i a l p r o b l e m i n m o l e c u l a r
b i o l o g y , " F . A l i z a d e h , R . M . K a r p , L . A . N e w b e r g a n d D . K . W e i s s e r , A l -
g o r i t h m i c a 1 3 1 - 2 , 5 2 - 7 6 1 9 9 5 . T h i s p a p e r a d d r e s s e s t h e c l o n e o r d e r i n g
p r o b l e m g i v e n h y b r i d i z a t i o n n g e r p r i n t s w i t h n o n - u n i q u e p r o b e s b y s o l v i n g
a n a p p r o x i m a t i o n t o a l i k e l i h o o d f u n c t i o n u s i n g o v e r l a p i n f o r m a t i o n . T h i s
p a p e r a l s o a r g u e s t h e s t a t i s t i c a l c o n s i s t e n c y o f t h i s m e t h o d .
3 R a d i a t i o n h y b r i d m a p p i n g : a s o m a t i c c e l l g e n e t i c m e t h o d f o r c o n s t r u c t i n g
h i g h - r e s o l u t i o n m a p s o f m a m m a l i a n c h r o m o s o m e s , " D . C o x e t a l . , S c i e n c e
2 5 0 , 2 4 5 - 2 5 0 1 9 9 0 . T h i s p a p e r i n t r o d u c e s t h e R H m a p p i n g t e c h n i q u e .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
13/24
1 1
4 P r o t e i n S t r u c t u r e
1 . I n t r o d u c t i o n
a P r o t e i n s p l a y a k e y r o l e i n a l m o s t a l l b i o l o g i c a l p r o c e s s e s .
b A p r o t e i n i s a l i n e a r c h a i n o f a m i n o a c i d r e s i d u e s .
c A m i n o a c i d s e q u e n c e s p e c i e s t h r e e - d i m e n s i o n a l s t r u c t u r e .
d T h e f u n c t i o n a l p r o p e r t i e s o f p r o t e i n s d e p e n d o n t h e i r 3 D s t r u c t u r e s .
e P r o t e i n s t r u c t u r e s c a n b e d e t e r m i n e d v i a e x p e r i m e n t a l m e t h o d s s u c h a s X - r a y
c r y s t a l l o g r a p h y a n d N M R , b u t s u c h m e t h o d s a r e t i m e c o n s u m i n g .
f T h e p r o t e i n s t r u c t u r e p r e d i c t i o n p r o b l e m i s : g i v e n t h e a m i n o a c i d s e q u e n c e w h i c h
s p e c i e s a p r o t e i n , d e t e r m i n e t h e t h r e e - d i m e n s i o n a l s t r u c t u r e o f t h e p r o t e i n .
2 . L e v e l s o f S t r u c t u r e i n P r o t e i n A r c h i t e c t u r e
a T h e o n e - d i m e n s i o n a l a m i n o a c i d s e q u e n c e o f a p r o t e i n ' s p o l y p e p t i d e c h a i n i s c a l l e d
i t s p r i m a r y s t r u c t u r e .
b A p r o t e i n s t r u c t u r e c a n b e d e s c r i b e d i n t e r m s o f i t s s e c o n d a r y s t r u c t u r e , w h i c h
a r e l o c a l r e g u l a r s t r u c t u r e s s u c h a s - h e l i c e s a n d - s h e e t s .
c T h e t e r t i a r y s t r u c t u r e o f a p r o t e i n i s t h e c o m p l e t e 3 D s t r u c t u r e o f t h e p r o t e i n .
d Q u a r t e n a r y s t r u c t u r e c o n s i s t s o f s e v e r a l p o l y p e p t i d e c h a i n s a r r a n g e d t o g e t h e r .
3 . T e r t i a r y S t r u c t u r e P r e d i c t i o n
a E n e r g y m i n i m i z a t i o n m e t h o d s .
i . M o d e l p r i n c i p a l f o r c e s i n p r o t e i n f o l d i n g .
i i . S e a r c h c o n f o r m a t i o n a l s p a c e .
i i i . C u r r e n t l i m i t a t i o n s o f t h e s e a p p r o a c h e s .
b T h r e a d i n g
i . T h r e a d i n g a p p r o a c h e s a r e b a s e d o n t h e a s s u m p t i o n t h a t t h e r e a r e a l i m i t e d
n u m b e r o f p r o t e i n f o l d s .
i i . F o r m a l d e n i t i o n o f p r o b l e m .
i i i . T h e t h r e a d i n g p r o b l e m i s N P - c o m p l e t e .
i v . A p p r o x i m a t i o n a l g o r i t h m s f o r s i m p l e r v e r s i o n s o f t h e t h r e a d i n g p r o b l e m .
v . H e u r i s t i c s .
v i . C u r r e n t l i m i t a t i o n s o f t h r e a d i n g .
4 . S e c o n d a r y S t r u c t u r e P r e d i c t i o n
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
14/24
1 2
a T h e s e c o n d a r y s t r u c t u r e p r o b l e m i s : g i v e n a n a m i n o a c i d s e q u e n c e , l a b e l e a c h
a m i n o a c i d r e s i d u e a s e i t h e r a l p h a h e l i x , b e t a s h e e t o r o t h e r .
b C e r t a i n a m i n o a c i d r e s i d u e s s h o w m o d e s t p r e f e r e n c e f o r p a r t i c u l a r s e c o n d a r y
s t r u c t u r e s .
c A v a r i e t y o f a p p r o a c h e s - f r o m n e u r a l n e t s t o o t h e r s t a t i s t i c a l m e t h o d s - h a v e
b e e n t r i e d , w i t h o v e r a l l a c c u r a c y s t i l l b e l o w 7 0 .
5 . M o t i f R e c o g n i t i o n
a S t r u c t u r a l m o t i f s a r e l o c a l t h r e e - d i m e n s i o n a l f o l d i n g p a t t e r n s t h a t a r e c o m m o n l y
o c c u r r i n g i n p r o t e i n s t r u c t u r e s , a n d a r e m a d e u p o f p a r t i c u l a r s e c o n d a r y s t r u c t u r e
u n i t s e . g . , E F - h a n d m o t i f , c o i l e d c o i l s .
b T h e s t r u c t u r a l m o t i f r e c o g n i t i o n p r o b l e m i s : g i v e n a k n o w n l o c a l 3 D s t r u c t u r e , o r
m o t i f , d e t e r m i n e w h e t h e r t h i s m o t i f o c c u r s i n a g i v e n a m i n o a c i d s e q u e n c e , a n d
i f s o , i n w h a t p o s i t i o n s .
c T h e g e n e r a l f r a m e w o r k f o r m o s t a p p r o a c h e s t o s t r u c t u r a l m o t i f r e c o g n i t i o n i s :
i . B u i l d a d a t a b a s e o f s u b s e q u e n c e s w h i c h t a k e p a r t i n a m o t i f .
i i . D e t e r m i n e w h e t h e r n e w s e q u e n c e s s h a r e e n o u g h d i s t i n g u i s h i n g f e a t u r e s w i t h
t h e k n o w n e x a m p l e s o f t h e m o t i f t o b e c o n s i d e r e d a g o o d c a n d i d a t e o f t h e
m o t i f .
d P r o b a b i l i s t i c f r a m e w o r k f o r m o t i f r e c o g n i t i o n
i . A p p l i c a t i o n t o c o i l e d c o i l s .
i i . W i n d o w b a s e d a l g o r i t h m .
e H i d d e n M a r k o v m o d e l a p p r o a c h e s
i . I n t r o d u c t i o n t o H M M s .
i i . A p p l y i n g H M M s t o r e c o g n i z i n g E F - h a n d m o t i f s a n d g l o b i n s .
f L i m i t a t i o n s o f c u r r e n t a p p r o a c h e s t o m o t i f r e c o g n i t i o n .
i . L i m i t e d n u m b e r o f k n o w n e x a m p l e s f o r a p a r t i c u l a r m o t i f .
i i . D i e r e n t i a t i n g c l o s e l y r e l a t e d m o t i f s .
i i i . I t e r a t i v e l e a r n i n g a l g o r i t h m s a s a p o s s i b l e w a y t o o v e r c o m e l i m i t e d d a t a p r o b -
l e m s .
6 . L a t t i c e M o d e l s
a P r o t e i n s a r e r e p r e s e n t e d a s s e l f a v o i d i n g w a l k s o n l a t t i c e s .
b A p r o t e i n i s m o d e l e d a s a s p e c i c s e q u e n c e o f h y d r o p h o b i c H a n d p o l a r P
r e s i d u e s .
c B a s e d o n t h e a s s u m p t i o n t h a t t h e h y d r o p h o b i c e e c t i s t h e d o m i n a n t f o r c e i n
p r o t e i n f o l d i n g , a s i m p l i e d e n e r g y f u n c t i o n f a v o r s H - H c o n t a c t s .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
15/24
1 3
d T h e p r o t e i n s t r u c t u r e p r e d i c t i o n p r o b l e m i n t h e H P l a t t i c e m o d e l i s t h o u g h t t o b e
N P - c o m p l e t e ; h o w e v e r , t h e r e a r e s o m e a p p r o x i m a t i o n a l g o r i t h m s f o r t h i s p r o b l e m .
e D o e s i t m a k e s e n s e t o u s e t h e H P - l a t t i c e m o d e l t o t r y t o s o l v e t h e p r o t e i n s t r u c t u r e
p r e d i c t i o n p r o b l e m ?
f S i m u l a t i o n s o f p r o t e i n f o l d i n g u s i n g t h e s e s i m p l i e d m o d e l s c a n c a p t u r e s o m e o f
t h e q u a l i t a t i v e f e a t u r e s o f p r o t e i n f o l d i n g .
R e f e r e n c e s
1 C . B r a n d o n a n d J . T o o z e . I n t r o d u c t i o n t o P r o t e i n S t r u c t u r e . G a r l a n d P u b l i s h i n g , I n c . ,
1 9 9 1 .
2 F . E i s e n h a b e r , B . P e r s s o n a n d P . A r g o s . P r o t e i n s t r u c t u r e p r e d i c t i o n : r e c o g n i t i o n o f
p r i m a r y , s e c o n d a r y a n d t e r t i a r y s t r u c t u r a l f e a t u r e s f r o m a m i n o a c i d s e q u e n c e . " C r i t i c a l
R e v i e w s i n B i o c h e m i s t r y a n d M o l e c u l a r B i o l o g y 1 9 9 5 3 0 1 : 1 9 4 .
3 T . D e f a y a n d F . C o h e n . E v a l u a t i o n o f C u r r e n t T e c h n i q u e s f o r A b I n i t i o P r o t e i n S t r u c -
t u r e P r e d i c t i o n . " P R O T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s 1 9 9 5 2 3 : 4 3 1 4 4 5 .
4 C . L e m e r , M . R o o m a n , a n d S . W o d a k . P r o t e i n s t r u c t u r e p r e d i c t i o n b y t h r e a d i n g m e t h -
o d s : e v a l u a t i o n o f c u r r e n t t e c h n i q u e s . " P R O T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s
1 9 9 5 2 3 : 3 3 7 3 5 5 .
5 T . A k u t s u a n d S . M i y a n o . O n t h e a p p r o x i m a t i o n o f p r o t e i n t h r e a d i n g . " I n 1 s t A n n u a l
C o n f e r e n c e o n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J a n u a r y 1 9 9 7 .
6 R . L a t h r o p . P r o t e i n t h r e a d i n g p r o b l e m w i t h s e q u e n c e a m i n o - a c i d a c t i o n p r e f e r e n c e s i s
N P - c o m p l e t e . " P r o t e i n E n g i n e e r i n g 1 9 9 4 7 : 1 0 5 9 - 1 0 6 8 .
7 B . B e r g e r . A l g o r i t h m s f o r p r o t e i n s t r u c t u r a l m o t i f r e c o g n i t i o n . " J o u r n a l o f C o m p u t a -
t i o n a l B i o l o g y 1 9 9 5 2 : 1 2 5 1 3 8 .
8 B . B e r g e r , D . B . W i l s o n , E . W o l f , T . T o n c h e v , M . M i l l a a n d P . S . K i m . P r e d i c t i n g
c o i l e d c o i l s u s i n g p a i r w i s e r e s i d u e c o r r e l a t i o n s . " P r o c e e d i n g s o f t h e N a t i o n a l A c a d e m y
o f S c i e n c e s 1 9 9 5 9 2 : 8 2 5 9 8 2 6 3 .
9 B . B e r g e r a n d M . S i n g h . A n i t e r a t i v e m e t h o d f o r i m p r o v e d p r o t e i n s t r u c t u r a l m o t i f
r e c o g n i t i o n . " I n 1 s t A n n u a l C o n f e r e n c e o n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J a n u a r y
1 9 9 7 . J o u r n a l o f C o m p u t a t i o n a l B i o l o g y , i n p r e s s .
1 0 L . R . R a b i n e r a n d B . H . J u a n g . A n i n t r o d u c t i o n t o H i d d e n M a r k o v m o d e l s . " I E E E
A S S P M a g a z i n e 1 9 8 6 3 1 : 4 - 1 6 .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
16/24
1 4
1 1 A . K r o g h , M . B r o w n , S . M i a n , K . S j o l a n d e r a n d D . H a u s s l e r . H i d d e n M a r k o v m o d e l s
i n c o m p u t a t i o n a l b i o l o g y : A p p l i c a t i o n s t o p r o t e i n m o d e l i n g . " J o u r n a l o f M o l e c u l a r
B i o l o g y 1 9 9 4 2 3 5 : 1 5 0 1 1 5 3 1 .
1 2 H . S . C h a n a n d K . D i l l . T h e p r o t e i n f o l d i n g p r o b l e m . " P h y s i c s T o d a y , F e b r u a r y 1 9 9 3 .
1 3 H . L i , R . H e l l i n g , C . T a n g a n d N . W i n g r e e n . E m e r g e n c e o f p r e f e r r e d s t r u c t u r e s i n a
s i m p l e m o d e l o f p r o t e i n f o l d i n g . " S c i e n c e 1 9 9 6 2 7 3 : 6 6 6 6 6 9 .
1 4 G . C r i p p e n . F a i l u r e s o f i n v e r s e f o l d i n g a n d t h r e a d i n g w i t h g a p p e d a l i g n m e n t . " P R O -
T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s 1 9 9 6 2 6 : 1 6 7 1 7 1 .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
17/24
1 5
5 E v o l u t i o n a r y T r e e s
1 . H o w d o e s D a r w i n i a n e v o l u t i o n w o r k ?
a W h a t i s s e l e c t i o n ?
b W h a t a r e m u t a t i o n s ?
2 . W h a t i s a s p e c i e s ?
a H o w a r e s p e c i e s d e n e d ?
b H o w a r e e x t a n t s p e c i e s r e l a t e d ?
c H o w a r e e x t a n t s p e c i e s r e l a t e d t o e x t i n c t s p e c i e s ?
d W h a t i s a s p e c i a t i o n e v e n t ?
3 . H o w i s D N A r e l a t e d t o e v o l u t i o n ?
a E v o l u t i o n o f D N A p r o c e e d s a l o n g a b i n a r y t r e e . H o w d o e s R e c o m b i n a t i o n v i o l a t e
t h i s a s s u m p t i o n ?
b S e q u e n c e s a r e r e l a t e d b y h o m o l o g y o r p a r a l o g y
4 . W h a t i s t h e d i e r e n c e b e t w e e n a G e n e T r e e a n d a S p e c i e s T r e e ?
5 . W h a t o b s e r v a b l e s c a n b e u s e d t o b u i l d t r e e s f r o m e x t a n t s p e c i e s ?
a M o r p h o l o g y f o r s p e c i e s t r e e
b G e n o m i c s f o r g e n e t r e e a n d m a y b e f o r s p e c i e s t r e e
6 . G i v e n o b s e r v a t i o n s , h o w d o w e n d t r e e s ?
a P a r s i m o n y
i . S t e i n e r t r e e i n h a m m i n g s p a c e
i i . A s s u m e s t h a t m u t a t i o n s a r e r a r e d e v e l o p e d f o r m o r p h o l o g y
i i i . M A X - S N P h a r d
i v . U n s t a b l e
v . P o p u l a r
b M a x i m u m L i k e l i h o o d E s t i m a t i o n M L E
i . W h a t i s s t o c h a s t i c m o d e l o f e v o l u t i o n ?
i i . W h i c h m o d e l s a r e t r a c t a b l e ?
i i i . W h a t u n r e a s o n a b l e a s s u m p t i o n s d o t h e m o d e l s m a k e ?
i v . H o w c a n w e s o l v e s u c h m o d e l s w i t h o u t s o l v i n g e n t i r e M L E p r o b l e m i . e . a r e
t h e r e g o o d h a c k s ? ?
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
18/24
1 6
c D i s t a n c e M e t h o d s
i . W h a t i s a n a d d i t i v e m e t r i c ?
i i . W h a t i s a n u l t r a m e t r i c ?
i i i . U l t r a m e t r i c s h a v e s u b d o m i n a n c e p r o p e r t y .
i v . O p t i m a l A l g o r i t h m f o r L
1
f o r U l t r a m e t r i c s
v . P i v o t r e l a t i o n s h i p b e t w e e n U l t r a m e t r i c s a n d A d d i t i v e m e t r i c s
v i . H e u r i s t i c s
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
19/24
1 7
P r o b l e m S e t 1
1 . a G i v e n o n l y t h e r s t t w o n u c l e o t i d e s o f a c o d o n , i n h o w m a n y c a s e s i n t h e g e n e t i c
c o d e w o u l d y o u f a i l t o k n o w t h e a m i n o a c i d s p e c i e d b y t h a t c o d o n ?
b I f y o u k n e w t h e a m i n o a c i d s p e c i e d b y a c o d o n , i n h o w m a n y c a s e s w o u l d y o u
b e u n a b l e t o d e t e r m i n e i t s r s t t w o n u c l e o t i d e s ?
2 . Y o u a r e s t u d y i n g a g e n e i n E . C o l i t h a t s p e c i e s a p r o t e i n . A p a r t o f i t s s e q u e n c e i s :
A L A P R O T R P S E R G L U L Y S C Y S H I S
Y o u r e c o v e r a s e r i e s o f m u t a n t s f o r t h i s g e n e t h a t s h o w n o e n z y m a t i c a c t i v i t y . I s o l a t i n g
t h e m u t a n t e n z y m e p r o d u c t s , y o u n d t h e f o l l o w i n g s e q u e n c e s :
M u t a n t 1 : A L A P R O T R P A R G G L U L Y S C Y S H I S
M u t a n t 2 : A L A P R O
M u t a n t 3 : A L A P R O G L Y V A L L Y S A S N C Y S H I S
M u t a n t 4 : A L A P R O T R P P H E P H E T H R C Y S H I S
W h a t i s t h e m o l e c u l a r b a s i s f o r e a c h m u t a t i o n ? W h a t i s t h e D N A s e q u e n c e t h a t
s p e c i e s t h i s p a r t o f t h e p r o t e i n ?
3 . A d o u b l e - s t r a n d e d D N A s e q u e n c e , s h o w n b e l o w , p r o d u c e s , i n v i v o , a p o l y p e p t i d e t h a t
i s v e a m i n o a c i d s l o n g .
T A C A T G A T C A T T T C A C G G A A T T T C T A G C A T G T A
A T G T A C T A G T A A A G T G C C T T A A A G A T C G T A C A T
a W h i c h s t r a n d o f D N A i s t r a n s c r i b e d , a n d i n w h i c h d i r e c t i o n ?
b L a b e l t h e 5 ' a n d 3 ' e n d s o f e a c h s t r a n d .
c I f a n i n v e r s i o n o c c u r s b e t w e e n t h e s e c o n d a n d t h i r d t r i p l e t s f r o m t h e l e f t a n d r i g h t
e n d s , r e s p e c t i v e l y , a n d t h e s a m e s t r a n d o f D N A i s t r a n s c r i b e d , h o w l o n g w i l l t h e
r e s u l t a n t p o l y p e p t i d e b e ?
d A s s u m e t h a t t h e o r i g i n a l m o l e c u l e i s i n t a c t a n d t h a t t r a n s c r i p t i o n o c c u r s o n t h e
b o t t o m s t r a n d f r o m l e f t t o r i g h t . G i v e t h e b a s e s e q u e n c e , a n d l a b e l t h e 5 ' a n d 3 '
e n d s o f t h e a n t i c o d o n t h a t i n s e r t s t h e f o u r t h a m i n o a c i d i n t o t h e n a s c e n t p o l y p e p -
t i d e . W h a t i s t h i s a m i n o a c i d ?
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
20/24
1 8
P r o b l e m S e t 2
1 . S u p p o s e w e w a n t t o c o m p u t e t h e L C S o f t w o s t r i n g s , a s l o n g a s t h a t L C S i s o f l e n g t h
a t l e a s t n , k , b u t i f i t i s l e s s t h a n t h i s l e n g t h , w e d o n ' t c a r e h o w l o n g i t i s . G i v e a n
a l g o r i t h m w h i c h s o l v e s t h i s p r o b l e m i n t i m e O n k f o r t w o s t r i n g s o f l e n g t h n .
2 . a S u p p o s e w e a r e g i v e n t w o s e q u e n c e s a n d a s c o r i n g m a t r i x w h i c h w e u s e t o n d a
m a x i m u m s i m i l a r i t y g l o b a l a l i g n m e n t , w i t h e x p l i c i t s c o r e s f o r d i e r e n t i n d e l s i n s e r t i o n s
o r d e l e t i o n s t h a t a l i g n d i e r e n t c h a r a c t e r s a g a i n s t a b l a n k . S u p p o s e n o w t h a t w e a d d
a x e d n u m b e r a t o t h e s c o r e f o r a l i g n i n g a n y p a i r o f c h a r a c t e r s . W h a t q u a n t i t y i n
t e r m s o f a m u s t w e a d d t o t h e s c o r e o f a n y i n d e l , s o t h a t w e p r e s e r v e t h e r e l a t i v e s c o r e s
o f d i e r e n t g l o b a l a l i g n m e n t s i . e . , s o t h a t t h e l a r g e s t s c o r i n g a l i g n m e n t c o n t i n u e s t o
s t a y t h e l a r g e s t u n d e r t h e n e w s c o r i n g s c h e m e , t h e s e c o n d l a r g e s t i s t h e s e c o n d l a r g e s t
i n t h e n e w s c h e m e a n d s o o n ? W h y ?
b F o r g l o b a l a l i g n m e n t s , i s t h e r e l i k e l y t o b e a l o g - o d d s i n t e r p r e t a t i o n f o r s c o r i n g
m a t r i c e s a n a l o g o u s t o t h a t f o r l o c a l a l i g n m e n t s ? W h y o r w h y n o t ?
3 . W e s a w i n c l a s s t h a t a t y p i c a l s c o r e e n t r y s
i j
f o r a p a i r o f c h a r a c t e r s i a n d j i n t h e
P A M - 1 m a t r i x i s o f t h e f o r m
1
l o g
e
q 1
i j
p
i
p
j
f o r s o m e c o n s t a n t . H e r e t h e t e r m q 1
i j
r e p r e s e n t s t h e t r a n s i t i o n p r o b a b i l i t y o f t h e u n d i r e c t e d t r a n s i t i o n b e t w e e n i a n d j i n
o n e u n i t o f e v o l u t i o n a r y t i m e . W r i t e o u t a f o r m u l a f o r q k
i j
, t h e t r a n s i t i o n p r o b a b i l i t y
o f c h a n g i n g f r o m i t o j i n k u n i t s o f t i m e . N o t e t h a t t h e i ; j - t h e n t r y i n t h e P A M - k
m a t r i x i s o f t h e f o r m
1
0
l o g
e
q k
i j
p
i
p
j
f o r s o m e o t h e r c o n s t a n t
0
. U s e t h i s f o r m u l a , a n d
t h e f a c t t h a t q 1
i j
= q 1
j i
f o r e v e r y p a i r i ; j t o s h o w t h a t P A M - k i s a s y m m e t r i c
m a t r i x f o r a l l k 1 .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
21/24
1 9
P r o b l e m S e t 3
1 . S h o w t h a t a n o p t i m a l a l i g n m e n t o f k s p e c i e s c a n b e o b t a i n e d u s i n g d y n a m i c p r o g r a m -
m i n g i n O 2
k
N
k
e v a l u a t i o n s o f a c o s t f u n c t i o n , d , u s i n g O N
k
s p a c e .
2 . F o r t h i s p r o b l e m , u s e t h e s u m - o f - p a i r s m e t r i c a n d f o l l o w t h e o n c e a g a p , a l w a y s a
g a p " r u l e . C o n s i d e r t h e f o l l o w i n g t h r e e s e q u e n c e s .
1 A C G T C
2 T C C T
3 A C G T C C T
a C o m p u t e a l l t h r e e o p t i m a l p a i r w i s e a l i g n m e n t s a s s u m i n g a c o s t o f 2 f o r e a c h
d e l e t i o n a n d 3 f o r e a c h s u b s t i t u t i o n . G i v e t h e c o s t o f e a c h a l i g n m e n t .
b C o m p u t e a p r o g r e s s i v e m u l t i p l e a l i g n m e n t s t a r t i n g w i t h t h e p a i r w i s e a l i g n m e n t
1 , 3 . N o w u s e t h e p a i r w i s e a l i g n m e n t 2 , 3 t o m e r g e s e q u e n c e 2 i n t o t h e m u l t i p l e
a l i g n m e n t . S h o w t h e r e s u l t i n g a l i g n m e n t a n d g i v e i t s c o s t .
c R e p e a t p r o b l e m 2 , b u t t h i s t i m e u s e t h e p a i r w i s e a l i g n m e n t 1 , 2 t o m e r g e s e -
q u e n c e 2 i n t o t h e m u l t i p l e a l i g n m e n t . S h o w t h e r e s u l t i n g a l i g n m e n t a n d g i v e i t s
c o s t . A r e t h e t w o a l i g n m e n t s t h e s a m e ? W h i c h h a s a l o w e r c o s t ?
d W h a t i s t h e o p t i m a l m u l t i p l e a l i g n m e n t ?
e S u p p o s e y o u c h a r g e a c o s t o f 1 f o r e a c h d e l e t i o n a n d 1 f o r e a c h s u b s t i t u t i o n . W h a t
i s t h e o p t i m a l a l i g n m e n t ? I s i t u n i q u e ?
3 . S u p p o s e y o u a r e s t u d y i n g a n e w p l a s m i d w i t h c i r c u l a r D N A t h a t i s 2 5 0 0 b a s e s l o n g ,
w h o s e r e s t r i c t i o n m a p y o u w i s h t o c o n s t r u c t . Y o u t r e a t t h e p l a s m i d D N A w i t h a s e t
o f r e s t r i c t i o n e n d o n u c l e a s e s a n d m e a s u r e t h e s i z e o f t h e r e s u l t i n g f r a g m e n t s b y g e l
e l e c t r o p h o r e s i s t o o b t a i n t h e f o l l o w i n g r e s u l t s .
E c o R I - 2 5 0 0
H i n d I I I - 2 5 0 0
P s t I - 2 5 0 0
M b o I - 1 3 0 0 , 8 0 0 , 4 0 0
M b o I + E c o R I - 1 3 0 0 , 6 0 0 , 4 0 0 , 2 0 0
M b o I + H i n d I I I - 1 3 0 0 , 8 0 0 , 3 0 0 , 1 0 0
M b o I + P s t I - 1 0 0 0 , 8 0 0 , 4 0 0 , 3 0 0
E c o R I + H i n d I I I - 2 0 0 0 , 5 0 0
E c o R I + P s t I - 1 6 0 0 , 9 0 0
H i n d I I I + P s t I - 2 1 0 0 , 4 0 0
C o n s t r u c t a r e s t r i c t i o n m a p b a s e d o n t h i s i n f o r m a t i o n . T o b r e a k t h e c i r c u l a r i t y , p l a c e
b a s e p a i r 1 a t t h e H i n d I I I c l e a v a g e s i t e .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
22/24
2 0
P r o b l e m S e t 4
1 . I n t h i s p r o b l e m , y o u m u s t g u r e o u t h o w m a n y c l o n e s y o u r e q u i r e f o r a l a r g e - s c a l e
s e q u e n c i n g p r o j e c t o f a b a c t e r i u m w h o s e g e n o m e i s 2 m i l l i o n b a s e s l o n g . A s s u m e t h a t
y o u b r e a k t h e g e n o m e i n t o f r a g m e n t s o f a v e r a g e l e n g t h 2 0 0 0 b a s e s e a c h , a n d t h a t y o u
c a n d e t e c t c l o n e o v e r l a p s o f 1 0 o r m o r e . A s y o u r e - a s s e m b l e t h e c l o n e s i n t o c o n t i g s ,
s o m e g a p s o c e a n s " a r e i n e v i t a b l e , a n d s u p p o s e y o u a r e w i l l i n g t o t o l e r a t e 1 0 g a p s .
a H o w m a n y c l o n e s d o y o u e x p e c t y o u w i l l n e e d ? W h a t i s t h e i r c o v e r a g e ?
b W h a t i s t h e p r o b a b i l i t y t h a t y o u w i l l h a v e a g a p o f a t l e a s t 2 0 , 0 0 0 b a s e s a t t h e
e n d o f o n e o f y o u r c o n t i g s ?
2 . C o n s i d e r a m a p p i n g p r o b l e m w i t h n o n - u n i q u e p r o b e s t h a t o c c u r a t a P o i s s o n r a t e o f
a l o n g t h e c h r o m o s o m e a n d u n i t c l o n e s d i s t r i b u t e d u n i f o r m l y o v e r t h e e n t i r e c h r o -
m o s o m e t h a t c o v e r i t c o m p l e t e l y . S u p p o s e w e o b t a i n t h e o r d e r i n g o f t h e c l o n e s u s i n g
H a m m i n g d i s t a n c e i n f o r m a t i o n o f h y b r i d i z a t i o n w i t h p r o b e s s a y b y s o l v i n g t h e H a m -
m i n g T S P p r o b l e m t h a t a r i s e s f r o m t h i s i n s t a n c e . T h e g o a l i n t h i s p r o b l e m i s t o s h o w
t h a t t h i s m e t h o d i s s t a t i s t i c a l l y c o n s i s t e n t - i n o t h e r w o r d s , a s t h e n u m b e r o f p r o b e s
u s e d i n t h e h y b r i d i z a t i o n e x p e r i m e n t i n c r e a s e s i . e . , a s i n c r e a s e s , t h e o r d e r i n g o u t -
p u t b y a n y m e t h o d b a s e d o n t h e H a m m i n g d i s t a n c e s a p p r o a c h e s t h e t r u e o r d e r i n g o f
t h e c l o n e s w i t h p r o b a b i l i t y o n e .
T o s o l v e t h i s p r o b l e m , r s t d e n e a t r u e d i s t a n c e " d b e t w e e n t w o u n i t c l o n e s , s a y ,
a s t h e s u m o f t h e d i e r e n c e s b e t w e e n t h e i r r e s p e c t i v e e n d p o i n t s . T h e n i t s u c e s t o
s h o w t h a t a s t h e n u m b e r o f p r o b e s i n c r e a s e s , t h e r e l a t i v e o r d e r i n g b e t w e e n p a i r s o f
c l o n e s a c c o r d i n g t o t h e H a m m i n g d i s t a n c e a p p r o a c h e s t h e o r d e r i n g a c c o r d i n g t o t h e
t r u e d i s t a n c e d e n e d a b o v e . I n p a r t i c u l a r , f o r p a i r s i ; j a n d k ; l , i f t h e e s t i m a t e d
H a m m i n g d i s t a n c e s d u e t o t h e p r o b e h y b r i d i z a t i o n s a r e d e n o t e d b y h , t h e n s h o w t h a t
h
i j
h
k l
d
i j
d
k l
w i t h p r o b a b i l i t y o n e a s t h e n u m b e r o f p r o b e s i n c r e a s e s .
3 . S h o w i f t h e s c o r e f u n c t i o n f o r p r o t e i n t h r e a d i n g i g n o r e s i n t e r a c t i o n s b e t w e e n a m i n o
a c i d s , w h i l e s t i l l a l l o w i n g v a r i a b l e - l e n g t h l o o p r e g i o n s , t h e t h r e a d i n g p r o b l e m c a n b e
s o l v e d i n p o l y n o m i a l t i m e .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
23/24
2 1
P r o b l e m S e t 5
1 . C o n s i d e r t h e w i n d o w b a s e d a p p r o a c h t o m o t i f r e c o g n i t i o n g i v e n i n c l a s s . W e a r e
g i v e n a n a m i n o a c i d s u b s e q u e n c e a
1
; a
2
; : : : ; a
n
, s c o r e s s
1
; s
2
; : : : ; s
n , w + 1
, w h e r e s
i
i s
t h e s c o r e " o f a w - l o n g w i n d o w s t a r t i n g a t a m i n o a c i d a
i
. E . g . , f o r w i n d o w l e n g t h
5 , s
1
i s t h e s c o r e o f t h e w i n d o w c o n t a i n i n g a m i n o a c i d s a
1
; a
2
; a
3
; a
4
; a
5
. S h o w t h a t
n d i n g t h e m a x i m u m w i n d o w s c o r e s f o r a l l a m i n o a c i d r e s i d u e s i . e . , f o r e a c h a m i n o
a c i d r e s i d u e , n d i n g t h e m a x i m u m s c o r e o f a n y w i n d o w c o n t a i n i n g i t c a n b e c o m p u t e d
i n O n t i m e , i n d e p e n d e n t o f t h e w i n d o w s i z e w .
2 . a G i v e a n e x a m p l e o f a n H P p r o t e i n s e q u e n c e o f l e n g t h n f o r w h i c h h a l f o f t h e r e s i d u e s
a r e h y d r o p h o b i c b u t f o r w h i c h t h e r e a r e n o p o s s i b l e H - H c o n t a c t s o n a s q u a r e l a t t i c e .
b G i v e a n o t h e r s i m p l e l a t t i c e f o r w h i c h t h e s a m e s e q u e n c e c a n g e t O n H - H c o n t a c t s .
3 . S h o w t h a t t h e n u m b e r o f p o s s i b l e s t r u c t u r e s s e l f - a v o i d i n g w a l k s o f l e n g t h n
2
o n a
n n s q u a r e l a t t i c e i s e x p o n e n t i a l i n n .
-
7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology
24/24
2 2
P r o b l e m S e t 6
G e n e r a l n o t e s : L e t T b e a r o o t e d t r e e w i t h n o d e g r e e 1 n o d e s a n d w i t h l e a f l a b e l s d r a w n
f r o m a s e t S . W e c a n r e p r e s e n t T e i t h e r i n t h e t r a d i t i o n a l w a y w i t h p o i n t e r s f r o m p a r e n t s
t o c h i l d r e n , o r a s f o l l o w s . L a b e l e a c h i n t e r n a l n o d e w i t h t h e s e t o f l a b e l s o n t h e l e a v e s b e l o w
i t . T h e n w e c a n d e n e T b y t h e s e t o f l a b e l s o n t h e i n t e r n a l n o d e s o f T . F o r e x a m p l e , t h e
t r e e f f a ; b g ; f a ; b ; c g ; f d ; e g ; f a ; b ; c ; d ; e g g d e s c r i b e s a t r e e w h e r e t h e r o o t h a s t w o s u b t r e e s ,
o n e c o n t a i n i n g l e a v e s d , e , a n d t h e i r c o m m o n p a r e n t . T h e o t h e r s u b t r e e b e l o w t h e r o o t h a s
t w o i n t e r n a l n o d e s , a n d s o f o r t h .
1 . C o n s i d e r t h e S p e c i e s t r e e f f a ; b g ; f a ; b ; c g ; f d ; e g ; f f ; g g ; f d ; e ; f ; g g ; f a ; b ; c ; d ; e ; f ; g g g
a n d t h e G e n e t r e e f f a ; d g ; f a ; c ; d g ; f f ; g g ; f e ; f ; g g ; f b ; e ; f ; g g ; f a ; b ; c ; d ; e ; f ; g g g . W h a t
i s t h e s m a l l e s t n u m b e r o f d u p l i c a t i o n p a r a l o g o u s e v e n t s w h i c h c a n e x p l a i n t h i s a r -
r a n g e m e n t ?
2 . W e s h o w e d t h a t u l t r a m e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y , t h a t i s , f o r e v e r y m a t r i x
M , t h e r e i s a n u l t r a m e t r i c U
M
M , s u c h t h a t i f U
0
i s a n u l t r a m e t r i c a n d U
0
M , t h e n
U
0
U
M
. W e c a n s i m i l a r l y d e n e t h e s u p e r d o m i n a n c e p r o p e r t y b y r e p l a c i n g w i t h
i n t h e a b o v e d e n i t i o n . F o r e a c h o f t h e f o l l o w i n g , p r o v e o r g i v e a c o u n t e r - e x a m p l e .
a U l t r a m e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .
b A d d i t i v e m e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y .
c A d d i t i v e m e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .
d M e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y .
e M e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .
3 . I n c l a s s , w e s h o w e d t h a t b y r o o t i n g a t r e e T a t a l e a f a w e c a n d e n e a c e n t r o i d C
a
s u c h t h a t T + C
a
i s u l t r a m e t r i c . S u p p o s e w e w a n t e d t o r o o t T a t t h e m i d p o i n t b e t w e e n
t w o l e a v e s a a n d b . H o w w o u l d y o u d e n e C
a b
s o t h a t T + C
a b
i s u l t r a m e t r i c ?