Lex Chains

95

Transcript of Lex Chains

Page 1: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 1/95

B e n - G u r i o n U n i v e r s i t y o f t h e N e g e v ,  

D e p a r t m e n t o f M a t h e m a t i c s & C o m p u t e r S c i e n c e  

L e x i c a l C h a i n s  

f o r S u m m a r i z a t i o n  

T h e s i s s u b m i t t e d a s p a r t o f t h e r e q u i r e m e n t s f o r t h e  

M . S c . d e g r e e o f B e n - G u r i o n U n i v e r s i t y o f t h e N e g e v  

b y 

R e g i n a B a r z i l a y :  

( r e g i n a @ c s . b g u . a c . i l )  

T h e r e s e a r c h w o r k f o r t h i s t h e s i s h a s b e e n c a r r i e d o u t a t  

B e n - G u r i o n U n i v e r s i t y o f t h e N e g e v ,  

u n d e r t h e d i r e c t i o n o f D r . M i c h a e l E l h a d a d  

N o v e m b e r 3 0 1 9 9 7 1 K i s l e v h a t a s h n a z  

Page 2: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 2/95

Page 3: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 3/95

S u b j e c t :   L e x i c a l C h a i n s f o r S u m m a r i z a t i o n  

T h i s t h e s i s i s s u b m i t t e d a s p a r t o f t h e r e q u i r e m e n t s f o r t h e M . S c . d e g r e e  

W r i t t e n b y :   R e g i n a B a r z i l a y  

A d v i s o r :   D r . M i c h a e l E l h a d a d  

D e p a r t m e n t :   M a t h & C o m p u t e r S c i e n c e  

F a c u l t y :   E x a c t S c i e n c e s  

B e n - G u r i o n U n i v e r s i t y o f t h e N e g e v  

A u t h o r s i g n a t u r e : D a t e :  

A d v i s o r s i g n a t u r e : D a t e :  

D e p t . C o m m i t t e e C h a i r m a n s i g . : D a t e :  

Page 4: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 4/95

A t t h i s p o i n t I w o u l d l i k e t o t h a n k  

t h e f o l l o w i n g :

  M i c h a e l E l h a d a d , f o r a d v i s i n g a n d , f o r p r o f e s s i o n a l a n d p e r s o n a l s u p p o r t , a n d f o r g e t t i n g  

m e i n t e r e s t e d i n t h e s u b j e c t o f c o m p u t a t i o n a l l i n g u i s t i c s .

  E l i | t h i s w o r k w o u l d n e v e r h a p p e n w i t h o u t h i m .

  S a m i r G e n a i m .

  Y a e l D a h a n - N e t z e r .

  C o h a v i t T a b o c h , M o h a m a d A b o - Z a e d a n d C a r m e l D o m s h l a k | f o r b e i n g a p a r t o f t h e  

\ p r o j e c t s r o o m " .

  S k y b l u e .

  M a t t i R u b i n , A v r a h a m M e l k m a n a n d M i c h a e l C o d i s h .

  P a r e n t s a n d G r a n d p a r e n t s .

R e g i n a B a r z i l a y  

T h i s i s a n a l p h a v e r s i o n .

Page 5: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 5/95

A b s t r a c t  

T h i s t h e s i s i n v e s t i g a t e s o n e t e c h n i q u e t o p r o d u c e a s u m m a r y o f a n o r i g -  

i n a l t e x t w i t h o u t r e q u i r i n g i t s f u l l s e m a n t i c i n t e r p r e t a t i o n , b u t i n s t e a d  

r e l y i n g o n a m o d e l o f t h e t o p i c p r o g r e s s i o n i n t h e t e x t d e r i v e d f r o m  

l e x i c a l c h a i n s . W e p r e s e n t a n e w a l g o r i t h m t o c o m p u t e l e x i c a l c h a i n s  

i n a t e x t , m e r g i n g s e v e r a l r o b u s t k n o w l e d g e s o u r c e s : t h e W o r d N e t t h e -  

s a u r u s , a p a r t - o f - s p e e c h t a g g e r a n d s h a l l o w p a r s e r f o r t h e i d e n t i c a t i o n  

o f n o m i n a l g r o u p s , a n d a s e g m e n t a t i o n a l g o r i t h m d e r i v e d f r o m 8 ] .  

S u m m a r i z a t i o n p r o c e e d s i n t h r e e s t e p s : t h e o r i g i n a l t e x t i s r s t s e g -  

m e n t e d , l e x i c a l c h a i n s a r e t h e n c o n s t r u c t e d ,   s t r o n g   c h a i n s a r e i d e n t i e d  

a n d  s i g n i c a n t   s e n t e n c e s a r e e x t r a c t e d f r o m t h e t e x t .  

A n e x t e n s i v e e m p i r i c a l e v a l u a t i o n o f t h e w o r k i s p r e s e n t e d . F i r s t  

a n i n t r i n s i c e v a l u a t i o n d e t e r m i n e s t h e q u a l i t y o f t h e l e x i c a l c h a i n e r  

b y i d e n t i f y i n g h o w s u c c e s s f u l t h e l e x i c a l c h a i n e r i s i n d i s a m b i g u a t i n g  

n o u n s i n c o n t e x t . H i g h p r e c i s i o n d i s a m b i g u a t i o n i s a c h i e v e d f o r t h e  

n o u n s b e l o n g i n g t o t h e s t r o n g e s t l e x i c a l c h a i n s .  

S e c o n d , a n e x t r i n s i c e v a l u a t i o n i s p e r f o r m e d t h a t d e t e r m i n e s t o  

w h a t e x t e n t t h e s e n t e n c e s e x t r a c t e d b y t h e s u m m a r i z e r m a t c h t h o s e  

t h a t h u m a n j u d g e s w o u l d e x t r a c t . W e c o m p a r e o u r s u m m a r i z e r w i t h  

t w o o t h e r a v a i l a b l e s u m m a r i z a t i o n s y s t e m s r e c e n t l y m a d e a v a i l a b l e  

( S u m m e r 9 7 ) a n d n d o u r a p p r o a c h t o g i v e r e s u l t s s i g n i c a n t l y c l o s e r  

t o h u m a n j u d g e s ( u s i n g m a j o r i t y r u l e ) t h a n t h e o t h e r s y s t e m s .  

T h e w o r k p r e s e n t e d i s a r o b u s t s e n t e n c e e x t r a c t o r , r e l y i n g o n a  

w i d e l y a v a i l a b l e l e x i c a l k n o w l e d g e b a s e ( W o r d N e t ) . T h e l e x i c a l c h o o s e r  

i m p r o v e s o n e x i s t i n g s y s t e m s . I t c a n a l s o , i n t h e f u t u r e , b e i n t e g r a t e d  

w i t h o t h e r t e c h n i q u e s r e l y i n g o n d i e r e n t k n o w l e d g e s o u r c e s ( r e f e r e n t i a l  

c h a i n s , c o n c e p t u a l m a p s ) t o s t r e n g t h e n t h e o v e r a l l s e n t e n c e e x t r a c t i o n  

p r o c e s s . T h e s e c u r r e n t r e s e a r c h d i r e c t i o n s a r e o u t l i n e d a t t h e e n d o f  

t h e t h e s i s .  

Page 6: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 6/95

C o n t e n t s  

1 I n t r o d u c t i o n 1  

2 L e x i c a l C h a i n s 7  

2 . 1 C o h e s i o n   : : : : : : : : : : : : : : : : : : : : : : : : : : :   7 

2 . 1 . 1 T e x t u r e a n d C o h e s i o n   : : : : : : : : : : : : : : :   7 

2 . 1 . 2 C o h e r e n c e a n d C o h e s i o n   : : : : : : : : : : : : : :   8 

2 . 1 . 3 T y p e s o f C o h e s i o n   : : : : : : : : : : : : : : : : :   9 

2 . 2 L e x i c a l C o h e s i o n   : : : : : : : : : : : : : : : : : : : : : :   1 0 

2 . 2 . 1 T y p e s o f L e x i c a l C o h e s i o n   : : : : : : : : : : : : :   1 0 

2 . 2 . 2 T h e D o m i n a n c e o f L e x i c a l C o h e s i o n   : : : : : : : :   1 1 

2 . 2 . 3 W h a t i s a L e x i c a l C h a i n ?   : : : : : : : : : : : : :   1 1 

3 C o m p u t i n g L e x i c a l C h a i n s 1 5  

3 . 1 G e n e r i c A l g o r i t h m   : : : : : : : : : : : : : : : : : : : : :   1 5 

3 . 2 S e m a n t i c D i s t a n c e A m o n g W o r d s   : : : : : : : : : : : : :   1 6 

3 . 2 . 1 K n o w l e d g e S o u r c e   : : : : : : : : : : : : : : : : : :   1 6 

3 . 2 . 2 D i e r e n c e s A m o n g K n o w l e d g e S o u r c e s   : : : : : :   1 8 

3 . 2 . 3 K n o w l e d g e S o u r c e s A p p r o p r i a t e n e s s   : : : : : : : :   1 9 

3 . 2 . 4 U s i n g T h e s a u r u s f o r C o m p u t i n g   : : : : : : : : : :   2 0 

3 . 3 C a n d i d a t e W o r d s   : : : : : : : : : : : : : : : : : : : : : :   2 2 

3 . 4 C h o i c e o f a R e c e i v i n g C h a i n   : : : : : : : : : : : : : : : :   2 4 

3 . 5 T h e D y n a m i c C h a i n i n g A l g o r i t h m   : : : : : : : : : : : : :   2 6 

3 . 6 D y n a m i c C h a i n i n g A l g o r i t h m D e s c r i p t i o n   : : : : : : : :   2 8 

3 . 6 . 1 G e n e r a l E x p l a n a t i o n   : : : : : : : : : : : : : : : :   2 8 

3 . 6 . 2 D a t a S t r u c t u r e s   : : : : : : : : : : : : : : : : : : :   2 9 

3 . 6 . 3 F u n c t i o n s   : : : : : : : : : : : : : : : : : : : : : :   3 0 

3 . 6 . 4 R u n n i n g e x a m p l e   : : : : : : : : : : : : : : : : : :   3 3 

Page 7: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 7/95

i i  C O N T E N T S  

3 . 6 . 5 S c o r i n g C h a i n s   : : : : : : : : : : : : : : : : : : :   3 4 

3 . 7 S u m m a r y : B u i l d i n g L e x i c a l C h a i n s   : : : : : : : : : : : :   3 6 

4 E v a l u a t i n g t h e L e x i c a l C h a i n e r 3 7  

4 . 1 E v a l u a t i n g M e t h o d s   : : : : : : : : : : : : : : : : : : : :   3 7 

4 . 1 . 1 E v a l u a t i o n F r a m e w o r k   : : : : : : : : : : : : : : :   3 7 

4 . 1 . 2 T o p i c I d e n t i c a t i o n M e a s u r e   : : : : : : : : : : : :   3 9 

4 . 1 . 3 W o r d S e n s e D i s a m b i g u a t i o n R a t i o   : : : : : : : : :   3 9 

4 . 2 I n u e n c e o f P e r f o r m a n c e F a c t o r s   : : : : : : : : : : : : :   4 1 

4 . 2 . 1 I n u e n c e o f A l g o r i t h m P a r a m e t e r s   : : : : : : : :   4 1 

4 . 2 . 2 I n u e n c e o f E n v i r o n m e n t P r o p e r t i e s   : : : : : : :   4 9 

4 . 3 L e s s o n s L e a r n e d f r o m t h e E v a l u a t i o n   : : : : : : : : : : :   5 3 

5 L e x i c a l C h a i n s f o r S u m m a r i z a t i o n 5 5  

5 . 1 M o t i v a t i o n   : : : : : : : : : : : : : : : : : : : : : : : : : :   5 5 

5 . 2 B u i l d i n g S u m m a r i e s U s i n g L e x i c a l C h a i n s   : : : : : : : :   5 8 

5 . 2 . 1 E x t r a c t i n g S i g n i c a n t S e n t e n c e s   : : : : : : : : : :   5 9 

5 . 3 S e n t e n c e E x t r a c t i o n U s i n g L e x i c a l C h a i n s   : : : : : : : :   6 1 

6 S u m m a r y E v a l u a t i o n 6 3  

6 . 1 D e s c r i p t i o n o f t h e E x p e r i m e n t   : : : : : : : : : : : : : : :   6 3 

6 . 2 R e s u l t s a n d A n a l y s i s   : : : : : : : : : : : : : : : : : : : :   6 4 

6 . 2 . 1 A g r e e m e n t A m o n g H u m a n S u b j e c t s   : : : : : : : :   6 4 

6 . 2 . 2 S t a t i s t i c a l S i g n i c a n c e   : : : : : : : : : : : : : : :   6 6 

6 . 2 . 3 S y s t e m s C o m p a r i s o n   : : : : : : : : : : : : : : : :   6 6 

7 C o n c e p t u a l M a p s 6 7  

7 . 1 C h a i n I n t e r a c t i o n a n d \ C o h e s i v e H a r m o n y "   : : : : : : :   6 7 

7 . 2 B u i l d i n g C o n c e p t u a l M a p s   : : : : : : : : : : : : : : : : :   7 0 

7 . 2 . 1 D e n i t i o n o f a C o n c e p t u a l M a p   : : : : : : : : : :   7 0 

7 . 2 . 2 A l g o r i t h m f o r C o n c e p t u a l M a p C o n s t r u c t i o n   7 2 

8 C o n t r i b u t i o n s a n d F u t u r e W o r k 7 5  

8 . 1 C o n t r i b u t i o n s   : : : : : : : : : : : : : : : : : : : : : : : :   7 5 

8 . 1 . 1 T h e C h a i n i n g A l g o r i t h m   : : : : : : : : : : : : : :   7 5 

8 . 1 . 2 S u m m a r i z a t i o n   : : : : : : : : : : : : : : : : : : :   7 5 

8 . 2 L i m i t a t i o n s & F u t u r e W o r k   : : : : : : : : : : : : : : : :   7 6 

Page 8: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 8/95

C O N T E N T S   i i i 

8 . 2 . 1 T h e S u m m a r i z a t i o n S y s t e m   : : : : : : : : : : : :   7 6 

8 . 2 . 2 M o r e F u t u r e W o r k   : : : : : : : : : : : : : : : : :   7 7 

A B a y e s i a n N e t w o r k s T e x t 7 9  

A . 1 T h e R a w T e x t   : : : : : : : : : : : : : : : : : : : : : : : :   7 9 

A . 2 B a y e s i a n N e t w o r k T e x t : t h e S t r o n g e s t C h a i n   : : : : : : :   8 1 

B i b l i o g r a p h y   : : : : : : : : : : : : : : : : : : : : : : : : : : :   8 6 

Page 9: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 9/95

Page 10: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 10/95

C h a p t e r 1  

I n t r o d u c t i o n  

T h e l a s t d e c a d e h a s w i t n e s s e d a r e v o l u t i o n i n t h e w a y t h e p u b l i c c a n  

a c c e s s i n f o r m a t i o n : w i d e I n t e r n e t a v a i l a b i l i t y h a s m a d e t h e n o t i o n o f  

f u l l - t e x t s e a r c h a n d i n f o r m a t i o n r e t r i e v a l f a m i l i a r t o m i l l i o n o f c a s u a l  

u s e r s . A t t h e s a m e t i m e , t h e a m o u n t o f t e x t u a l m a t e r i a l o n - l i n e ( a n d ,  

t h e r e f o r e , s u s c e p t i b l e t o b e o f i n t e r e s t t o a n i n f o r m a t i o n - s e e k e r u s e r )  

h a s g r o w n a t a n e n o r m o u s r a t e .  

T h i s h a s l e d t o t h e c r e a t i o n o f a p r o b l e m k n o w n a s   i n f o r m a t i o n o v e r -  

l o a d   : a s i m p l e q u e r y t o a n i n f o r m a t i o n r e t r i e v a l s e r v i c e s u c h a s D i g i t a l ' s  

A l t a V i s t a c a n r o u t i n e l y r e t u r n m i l l i o n s o f d o c u m e n t s a s \ p o t e n t i a l l y  

r e l e v a n t . " M o s t o f t h e s e d o c u m e n t s a r e m a i n l y t e x t u a l . S u m m a r i z a -  

t i o n i s o n e o f t h e k e y t e c h n o l o g i e s t h a t w i l l a d d r e s s t h e p r o b l e m o f  

i n f o r m a t i o n o v e r l o a d .  

S u m m a r i z a t i o n i s t h e p r o c e s s o f c o n d e n s i n g a s o u r c e t e x t i n t o a  

s h o r t e r v e r s i o n w h i l e p r e s e r v i n g i t s i n f o r m a t i o n c o n t e n t . I t c a n s e r v e  

s e v e r a l g o a l s | f r o m s u r v e y a n a l y s i s o f a s c i e n t i c e l d t o q u i c k i n d i c a -  

t i v e n o t e s o n t h e g e n e r a l t o p i c o f a t e x t . P r o d u c i n g a q u a l i t y s u m m a r y  

o f a n a r b i t r a r y t e x t r e m a i n s a c h a l l e n g e w h i c h r e q u i r e s f u l l u n d e r s t a n d -  

i n g o f t h e t e x t . I n d i c a t i v e s u m m a r i e s , w h i c h c a n b e u s e d t o q u i c k l y  

d e c i d e w h e t h e r a t e x t i s w o r t h r e a d i n g i n t h e c o n t e x t o f a n i n f o r m a t i o n  

r e t r i e v a l t a s k a r e n a t u r a l l y e a s i e r t o p r o d u c e . W e i n v e s t i g a t e i n t h i s  

w o r k a m e t h o d f o r t h e p r o d u c t i o n o f s u c h i n d i c a t i v e s u m m a r i e s f r o m  

a r b i t r a r y t e x t .  

S p a r c k J o n e s 1 5 ] d e s c r i b e s s u m m a r i z a t i o n a s a t w o - s t e p p r o c e s s :  

1 . b u i l d i n g f r o m t h e s o u r c e t e x t a s o u r c e r e p r e s e n t a t i o n .  

Page 11: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 11/95

2  C H A P T E R 1 . I N T R O D U C T I O N  

2 . s u m m a r y g e n e r a t i o n | f o r m i n g a s u m m a r y r e p r e s e n t a t i o n f r o m  

t h e s o u r c e r e p r e s e n t a t i o n b u i l t i n s t e p 1 a n d s y n t h e s i z i n g t h e  

o u t p u t s u m m a r y t e x t .  

W i t h i n t h i s f r a m e w o r k t h e r e l e v a n t q u e s t i o n i s w h a t i n f o r m a t i o n  

h a s t o b e i n c l u d e d i n t h e s o u r c e r e p r e s e n t a t i o n i n o r d e r t o c r e a t e a  

s u m m a r y . T h e r e a r e t h r e e t y p e s o f s o u r c e t e x t i n f o r m a t i o n : l i n g u i s t i c ,  

d o m a i n a n d c o m m u n i c a t i v e . E a c h o f t h e s e t e x t a s p e c t s c a n b e c h o s e n  

a s a b a s i s f o r s o u r c e r e p r e s e n t a t i o n .  

S u m m a r i e s c a n b e b u i l t o n a d e e p s e m a n t i c a n a l y s i s o f t h e s o u r c e  

t e x t . F o r e x a m p l e , i n 2 1 ] , M c K e o w n a n d R a d e v i n v e s t i g a t e h o w t o  

p r o d u c e a c o h e r e n t s u m m a r y o f s e v e r a l t e x t s d e s c r i b i n g t h e s a m e e v e n t ,  

w h e n a f u l l s e m a n t i c r e p r e s e n t a t i o n o f t h e s o u r c e t e x t s i s a v a i l a b l e ( i n  

t h e i r c a s e , t h e y u s e M U C - s t y l e s y s t e m s t o i n t e r p r e t t h e s o u r c e t e x t s ) . I n  

c o n t r a s t , w e d e a l i n t h i s w o r k w i t h t h e i s s u e o f p r o d u c i n g a s u m m a r y  

f r o m a n a r b i t r a r y t e x t w i t h o u t r e q u i r i n g i t s f u l l u n d e r s t a n d i n g , a n d  

u s i n g o n l y w i d e l y a v a i l a b l e k n o w l e d g e s o u r c e s .  

A l t e r n a t i v e l y , e a r l y s u m m a r i z a t i o n s y s t e m s 1 8 ] u s e d o n l y l i n g u i s t i c  

s o u r c e i n f o r m a t i o n . T h e i n t u i t i o n w a s t h a t t h e m o s t f r e q u e n t w o r d s r e p -  

r e s e n t t h e i m p o r t a n t c o n c e p t s o f t h e t e x t . I n t h i s a p p r o a c h t h e s o u r c e  

r e p r e s e n t a t i o n w a s t h e f r e q u e n c y t a b l e o f t e x t w o r d s . T h i s r e p r e s e n t a -  

t i o n a b s t r a c t s t h e t e x t i n t o t h e u n i o n o f i t s w o r d s w i t h o u t c o n s i d e r i n g  

a n y c o n n e c t i o n a m o n g t h e m .  

I t i s c l e a r t h a t t h i s s i m p l i c a t i o n c a n h a r m t h e q u a l i t y o f t h e s o u r c e  

r e p r e s e n t a t i o n . A s a t r i v i a l i l l u s t r a t i o n , c o n s i d e r t h e f o l l o w i n g t w o s e -  

q u e n c e s :  

1 \  Y a e l r e a d s a b o o k . S h e i s a t t h e u n i v e r s i t y .  " 

2 \  Y a e l r e a d s a b o o k . I t i s a b o u t h i s t o r y .  " 

\  Y a e l  " a p p e a r s o n c e i n 1 a n d 2 , a n d s o d o e s \  b o o k   " . B u t 1 i s a b o u t  

Y a e l  , a n d 2 i s a b o u t t h e   b o o k  . T h i s e x a m p l e i n d i c a t e s t h a t i f t h e s o u r c e  

r e p r e s e n t a t i o n d o e s n o t s u p p l y i n f o r m a t i o n a b o u t s e m a n t i c a l l y r e l a t e d  

t e r m s , o n e c a n n o t c a p t u r e t h e \ a b o u t n e s s " o f t h e t e x t , a n d t h e r e f o r e  

t h e s u m m a r y w i l l n o t c a p t u r e t h e m a i n p o i n t o f t h e o r i g i n a l t e x t .  

T h e n o t i o n o f c o h e s i o n i n t r o d u c e d i n H a l l i d a y a n d H a s a n 6 ] c a p -  

t u r e s p a r t o f t h e i n t u i t i o n . C o h e s i o n i s a d e v i c e f o r \ s t i c k i n g t o g e t h e r "  

Page 12: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 12/95

d i e r e n t p a r t s o f t h e t e x t . C o h e s i o n i s a c h i e v e d t h r o u g h t h e u s e i n t h e  

t e x t o f s e m a n t i c a l l y r e l a t e d t e r m s , r e f e r e n c e , e l l i p s i s a n d c o n j u n c t i o n s .  

A m o n g t h e s e d i e r e n t m e a n s , t h e m o s t e a s i l y i d e n t i a b l e a n d t h e  

m o s t f r e q u e n t t y p e i s l e x i c a l c o h e s i o n ( a s d i s c u s s e d i n 1 0 ] ) . L e x i c a l  

c o h e s i o n i s c r e a t e d b y u s i n g s e m a n t i c a l l y r e l a t e d w o r d s . H a l l i d a y a n d  

H a s a n c l a s s i e d l e x i c a l c o h e s i o n i n t o r e i t e r a t i o n c a t e g o r y a n d c o l l o c a -  

t i o n c a t e g o r y . R e i t e r a t i o n c a n b e a c h i e v e d b y r e p e t i t i o n , s y n o n y m s a n d  

h y p o n y m s . F o r e x a m p l e :  

1 . R e p e t i t i o n :  

\  T h e  l e c t u r e   b e g i n s a t 1 8 : 0 0 .  " 

\  T h e t o p i c o f t h e   l e c t u r e   w a s p u b l i s h e d y e s t e r d a y .  " 

2 . S y n o n y m s :  

\  T h e  l e c t u r e   b e g i n s a t 1 8 : 0 0 .  " 

\  T h e t o p i c o f t h e   t a l k   w a s p u b l i s h e d y e s t e r d a y .  " 

3 . H y p o n y m s :  

\  D r K e n n y h a s i n v e n t e d a n a n a e s t h e t i c   m a c h i n e   " 

\  T h i s   d e v i c e   c o n t r o l s t h e r a t e a t w h i c h a n a n a e s t h e t i c i s p u m p e d  

i n t o t h e b l o o d .  " 

C o l l o c a t i o n r e l a t i o n s s p e c i f y t h e r e l a t i o n b e t w e e n w o r d s t h a t t e n d  

t o c o - o c c u r i n t h e s a m e l e x i c a l c o n t e x t s . F o r e x a m p l e :  

\  S h e w o r k s a s a   t e a c h e r   i n t h e   S c h o o l   " 

C o l l o c a t i o n r e l a t i o n s a r e m o r e p r o b l e m a t i c f o r i d e n t i c a t i o n t h a n  

r e i t e r a t i o n , b u t b o t h o f t h e s e c a t e g o r i e s a r e i d e n t i a b l e o n t h e s u r f a c e  

o f t h e t e x t . L e x i c a l c o h e s i o n o c c u r s n o t o n l y b e t w e e n t w o t e r m s , b u t  

a m o n g s e q u e n c e s o f r e l a t e d w o r d s | c a l l e d   l e x i c a l c h a i n s   6 ] . L e x i c a l  

c h a i n s p r o v i d e a r e p r e s e n t a t i o n o f t h e l e x i c a l c o h e s i v e s t r u c t u r e o f t h e  

t e x t . L e x i c a l c h a i n s h a v e a l s o b e e n u s e d f o r i n f o r m a t i o n r e t r i e v a l 3 1 ]

a n d f o r c o r r e c t i o n o f m a l a p r o p i s m s 9 ] . I n t h i s w o r k , w e i n v e s t i g a t e h o w  

l e x i c a l c h a i n s c a n b e u s e d a s a s o u r c e r e p r e s e n t a t i o n f o r s u m m a r i z a t i o n .  

A n o t h e r i m p o r t a n t d i m e n s i o n o f t h e l i n g u i s t i c s t r u c t u r e o f a s o u r c e  

t e x t i s c a p t u r e d u n d e r t h e r e l a t e d n o t i o n o f   c o h e r e n c e  . C o h e r e n c e d e -  

n e s t h e m a c r o - l e v e l s e m a n t i c s t r u c t u r e o f a c o n n e c t e d d i s c o u r s e , w h i l e  

c o h e s i o n c r e a t e s c o n n e c t e d n e s s i n a n o n - s t r u c t u r a l m a n n e r . C o h e r e n c e  

i s r e p r e s e n t e d i n t e r m s o f c o h e r e n c e r e l a t i o n s b e t w e e n t e x t s e g m e n t s ,  

Page 13: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 13/95

4  C H A P T E R 1 . I N T R O D U C T I O N  

s u c h a s   e l a b o r a t i o n , c a u s e   a n d  e x p l a n a t i o n   . A n u m b e r o f r e s e a r c h e r s  

2 0 ] 2 2 ] u s e d i s c o u r s e s t r u c t u r e ( e n c o d e d u s i n g R S T 1 9 ] a s a s o u r c e  

r e p r e s e n t a t i o n f o r s u m m a r i z a t i o n . C l e a r l y , t h i s r e p r e s e n t a t i o n i s e x -  

p r e s s i v e e n o u g h , t h e q u e s t i o n i s i f i t i s c o m p u t a b l e . I n c o n t r a s t w i t h  

l e x i c a l c o h e s i o n , c o h e r e n c e i s d i c u l t t o i d e n t i f y w i t h o u t a c o m p l e t e  

u n d e r s t a n d i n g o f t h e t e x t a n d c o m p l e x i n f e r e n c e .  

T h e r e i s , h o w e v e r , a c l o s e c o n n e c t i o n b e t w e e n d i s c o u r s e s t r u c t u r e  

a n d c o h e s i o n . R e l a t e d w o r d s t e n d t o c o - o c c u r w i t h i n d i s c o u r s e u n i t o f  

t h e t e x t . S o c o h e s i o n i s o n e o f t h e s u r f a c e s i g n s o f d i s c o u r s e s t r u c t u r e  

a n d l e x i c a l c h a i n s c a n b e u s e d f o r i d e n t i f y i n g i t . O t h e r s i g n s c a n b e u s e d  

t o i d e n t i f y d i s c o u r s e s t r u c t u r e a s w e l l ( c o n n e c t i v e s , p a r a g r a p h m a r k e r s ,  

t e n s e s h i f t s ) . I n r e c e n t w o r k , M a r c u 2 0 ] p r o p o s e s a s u m m a r i z a t i o n  

s y s t e m b a s e d o n t h e d e t e r m i n a t i o n o f c o h e r e n c e r e l a t i o n s . W e w i l l  

d i s c u s s t h i s a p p r o a c h i n t h e f o l l o w i n g c h a p t e r s a s w e l l .  

I n t h i s w o r k , w e i n v e s t i g a t e t h e u s e o f l e x i c a l c h a i n s a s a m o d e l o f  

t h e s o u r c e t e x t f o r t h e p u r p o s e o f p r o d u c i n g a s u m m a r y . C l e a r l y , o t h e r  

a s p e c t s o f t h e s o u r c e t e x t n e e d t o b e i n t e g r a t e d i n t h e t e x t r e p r e s e n -  

t a t i o n t o p r o d u c e q u a l i t y s u m m a r i z a t i o n . B u t w e w a n t t o e m p i r i c a l l y  

i n v e s t i g a t e h o w f a r o n e c a n g o e x p l o i t i n g m a i n l y l e x i c a l c h a i n s . A m a i n  

f o c u s o f t h i s w o r k h a s b e e n t o d e t e r m i n e t e c h n i q u e s t o e v a l u a t e t h e  

q u a l i t y o f t h e r e s u l t s p r o d u c e d b y t h e l e x i c a l c h a i n e r a n d t h e s e n t e n c e  

e x t r a c t i o n s y s t e m w e h a v e d e v e l o p e d . W e d e v e l o p t w o d i s t i n c t e v a l u a -  

t i o n t e c h n i q u e s : o n e i n t r i n s i c a n d o n e e x t r i n s i c .  

T h e i n t r i n s i c e v a l u a t i o n m e t h o d d e t e r m i n e s a n e c e s s a r y c o n d i t i o n  

f o r a n i d e a l l e x i c a l c h a i n e r : t h a t i t c o r r e c t l y d i s a m b i g u a t e t h e n o u n s  

i t i d e n t i e s a s c e n t r a l t o p i c s i n t h e t e x t . I t t h e n m e a s u r e s t o w h a t  

e x t e n t o u r i m p l e m e n t a t i o n o f a l e x i c a l c h a i n i n g a l g o r i t h m s a t i s e s t h i s  

c o n s t r a i n t . W e c o m p a r e u s i n g t h i s m e a s u r e d i e r e n t l e x i c a l c h a i n i n g  

a l g o r i t h m s a n d s h o w t h a t o u r a l g o r i t h m s i g n i c a n t l y i m p r o v e s o n e x -  

i s t i n g s y s t e m s .  

T h e e x t r i n s i c e v a l u a t i o n m e t h o d c o m p a r e s h o w o u r s e n t e n c e e x t r a c -  

t i o n s y s t e m c o m p a r e s w i t h t h e j u d g m e n t o f h u m a n s u b j e c t s a s k e d t o  

e x t r a c t s e n t e n c e s m a n u a l l y f r o m a s e t o f t e x t s . A g a i n , w e c o m p a r e o u r  

s e n t e n c e e x t r a c t i o n s y s t e m w i t h 2 a v a i l a b l e s e n t e n c e e x t r a c t i o n s y s -  

t e m s , a n d n d o u r s y s t e m t o p e r f o r m s i g n i c a n t l y c l o s e r t o t h e h u m a n  

 j u d g m e n t ( u s i n g m a j o r i t y r u l e ) .  

T h e s e n t e n c e e x t r a c t i o n s y s t e m i s f u l l y i m p l e m e n t e d a n d m a n y e x -  

Page 14: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 14/95

a m p l e s u m m a r i e s a r e a v a i l a b l e o n t h e W e b  

. I t i s a r o b u s t s y s t e m ,  

w o r k i n g o n a r b i t r a r y t e x t s t h a t c a n h i g h l i g h t t h e m o s t i m p o r t a n t s e n -  

t e n c e s i n c o n t e x t , o r e x t r a c t t h e m t o p r o d u c e a c o n d e n s e d v e r s i o n o f  

t h e s o u r c e t e x t . A p p e n d i x A . 2 s h o w s a n e x a m p l e o f o u t p u t p r o d u c e d  

b y t h e s y s t e m f o r t h e t e x t i n A . 1 , a s u m m a r y o f t h i s t e x t c a n b e f o u n d  

i n p a g e 5 9 .  

T h e t h e s i s i s o r g a n i z e d a s f o l l o w s : w e r s t p r e s e n t b a c k g r o u n d m a -  

t e r i a l o n l e x i c a l c h a i n s a n d t h e l i n g u i s t i c t h e o r i e s u n d e r l y i n g t h e m ( c o -  

h e s i o n , t e x t u r e a n d c o h e r e n c e ) . W e t h e n p r e s e n t o u r a l g o r i t h m f o r  

t h e c o n s t r u c t i o n o f l e x i c a l c h a i n s , c o m p a r i n g i t w i t h e x i s t i n g l e x i c a l  

c h a i n i n g a l g o r i t h m s p r e s e n t e d i n t h e l i t e r a t u r e . C h a p t e r 4 p r e s e n t s  

t h e i n t r i n s i c e v a l u a t i o n o f t h e l e x i c a l c h a i n e r . C h a p t e r 5 e x p l a i n s h o w  

t h e c o m p u t a t i o n o f t h e l e x i c a l c h a i n s c a n b e e x p l o i t e d a s a b a s i s f o r  

a s e n t e n c e e x t r a c t i o n t e c h n i q u e . C h a p t e r 6 p r e s e n t s e v a l u a t i o n o f o u r  

s u m m a r i z a t i o n a l g o r i t h m . T h e n a l c h a p t e r s p r e s e n t a n a l t e r n a t i v e  

m e t h o d t h a t b u i l d s w h a t w e c a l l \ c o n c e p t u a l m a p s " o f a s o u r c e t e x t  

u s i n g t h e l i n k s a m o n g l e x i c a l c h a i n s t h a t c a n b e i d e n t i e d i n t h e t e x t .  

W e c o n c l u d e w i t h a d i s c u s s i o n o f t h e c u r r e n t l i m i t a t i o n s o f t h e i m p l e -  

m e n t a t i o n s a n d p l a n s t o a d d r e s s t h e m i n t h e f u t u r e .  

A t  h t t p : / / w w w . c s . b g u . a c . i l / s u m m a r i z a t i o n - t e s t  

Page 15: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 15/95

6  C H A P T E R 1 . I N T R O D U C T I O N  

Page 16: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 16/95

Page 17: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 17/95

8  C H A P T E R 2 . L E X I C A L C H A I N S  

2 . 1 . 2 C o h e r e n c e a n d C o h e s i o n  

A n o t h e r i m p o r t a n t d i m e n s i o n o f t h e l i n g u i s t i c s t r u c t u r e o f a s o u r c e t e x t  

i s c a p t u r e d u n d e r t h e r e l a t e d n o t i o n o f   c o h e r e n c e  . C o h e r e n c e d e n e s t h e  

m a c r o - l e v e l s e m a n t i c s t r u c t u r e o f a c o n n e c t e d d i s c o u r s e , w h i l e c o h e s i o n  

c r e a t e s c o n n e c t e d n e s s i n a n o n - s t r u c t u r a l m a n n e r . C o h e r e n c e i s r e p r e -  

s e n t e d i n t e r m s o f r e l a t i o n s b e t w e e n t e x t s e g m e n t s , s u c h a s   e l a b o r a t i o n   , 

c a u s e   a n d  e x p l a n a t i o n  

H a s a n 2 8 ] c l a i m s t h a t c o h e r e n c e i s a \ r e l a t i v e , n o t a n a b s o l u t e  

p r o p e r t y " o f a t e x t , a n d h u m a n j u d g m e n t s c a n d i s t i n g u i s h m o r e c o h e r -  

e n t t e x t f r o m l e s s c o h e r e n t o n e . H o e y 1 0 ] r e f e r s t o t h i s p h e n o m e n a  

a s \ s u b j e c t i v e n e s s " o f c o h e r e n c e | a s p r o d u c e d b y a r e a d e r ' s e v a l u -  

a t i o n o f s o m e t e x t . I n c o n t r a s t w i t h t h i s \ r e l a t i v e n e s s " o f c o h e r e n c e ,  

c o h e s i o n i s a n o b j e c t i v e t e x t p r o p e r t y , w h i c h i s c r e a t e d b y l e x i c a l a n d  

g r a m m a t i c a l d e v i c e s .  

I n c o n t r a s t t o c o h e s i o n , c o h e r e n c e i s d i c u l t t o i d e n t i f y w i t h o u t a  

c o m p l e t e u n d e r s t a n d i n g o f t h e t e x t a n d c o m p l e x i n f e r e n c e s . I n a d d i -  

t i o n , t h e r e i s n o p r e c i s e c r i t e r i a f o r c l a s s i c a t i o n o f d i e r e n t r e l a t i o n s .  

C o n s i d e r t h e f o l l o w i n g e x a m p l e f r o m H o b b s 1 3 ] : \  J o h n c a n o p e n t h e  

s a f e . H e k n o w s t h e c o m b i n a t i o n .  " 

M o r r i s a n d H i r s t 2 4 ] s h o w t h a t t h e r e l a t i o n b e t w e e n t h e s e t w o  

s e n t e n c e s c a n b e i n t e r p r e t e d a s a n   e l a b o r a t i o n   o r a s a n   e x p l a n a t i o n   , 

d e p e n d i n g o n \ c o n t e x t , k n o w l e d g e a n d b e l i e f s . " I n c o n t r a s t w i t h c o -  

h e r e n c e , t h e r e i s w i d e s p r e a d a g r e e m e n t o n t h e c l a s s i c a t i o n o f c o h e s i o n  

r e l a t i o n s | t h e c l a s s i c a t i o n o f H a l l i d a y & H a s a n 6 ] p r o v i d e s a v e r y  

d e t a i l e d a c c o u n t o f c o h e s i o n d e v i c e s .  

T h e r e i s , h o w e v e r , a c l o s e c o n n e c t i o n b e t w e e n d i s c o u r s e s t r u c t u r e  

a n d c o h e s i o n . A n o n - c o h e r e n t s e q u e n c e o f s e n t e n c e s c a n e x h i b i t c o h e -  

s i o n a n d s i m i l a r l y a s e t o f s e n t e n c e s c a n b e c o h e r e n t w i t h o u t e v i d e n c e  

o f c o h e s i o n ( M o r r i s a n d H i r s t , 2 4 ] ) . B u t g e n e r a l l y c o h e s i o n i s e v i d e n t  

w h e n s e n t e n c e s r e l a t e c o h e r e n t l y a n d t h i s t r a i t c a n b e e x p l o i t e d b y  

u s i n g c o h e s i o n r e l a t i o n s a s m e a n s o f i d e n t i f y i n g c o h e r e n t p a r t s o f t h e  

t e x t .  

H a s a n s t a t e s t h a t t h e f o u n d a t i o n s o f c o h e r e n c e a r e l a i d t h r o u g h  

c o h e s i o n r e l a t i o n s , b u t t h a t t h e s o u r c e o f c o h e r e n c e i s t h e i n t e r a c t i o n  

o f t h e c o h e s i v e r e l a t i o n s ( w e c o n t i n u e t h i s d i s c u s s i o n i n t h e \ c o n c e p t u a l  

m a p " c h a p t e r b e l o w ) .  

Page 18: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 18/95

2 . 1 . C O H E S I O N   9 

2 . 1 . 3 T y p e s o f C o h e s i o n  

H a l l i d a y & H a s a n 6 ] d e s c r i b e i n d e t a i l t h e d e v i c e s t h a t c r e a t e t h e s e -  

m a n t i c b o u n d s b e t w e e n p a r t s o f t e x t c l a u s e s . T h e r e l a t i o n s h i p s a m o n -  

g s t i t e m s i n a t e x t a r e d i v i d e d i n t o f o u r b r o a d c a t e g o r i e s :   r e f e r e n c e  , 

e l l i p s i s   ,  c o n j u n c t i o n   a n d  l e x i c a l c o h e s i o n   . W e i l l u s t r a t e a l l t h e s e r e l a -  

t i o n s f r o m t h e f o l l o w i n g t e x t  

\ E r r o r a n a l y s i s " r e s u l t s i n a p e r c e n t a g e o f w o r d s w h i c h h a v e b e e n  

d e e m e d i n c o r r e c t i n a n e n t i r e t e x t . T h e m e t h o d i n v o l v e s a p o s t - e d i t o r  

c o u n t i n g e v e r y w o r d a d d i t i o n o r d e l e t i o n , e v e r y w o r d s u b s t i t u t i o n , a n d  

e v e r y w o r d t r a n s p o s i t i o n t h a t h e o r s h e m a k e s t o t h e \ r a w " o u t p u t  

f r o m t h e s y s t e m . T h i s m e a s u r e i s m e a n t t o b e a n o b j e c t i v e m e a s u r e  

o f s u c c e s s f u l , a c c u r a t e o r f a i t h f u l t r a n s l a t i o n . H o w e v e r , s u c h e r r o r  

c o u n t i n g i s n o t i n f a c t a v a l i d m e t h o d f o r o b j e c t i v e d e l i t y , u n l e s s  

o t h e r f a c t o r s o f t h e l a r g e r s e t u p a r e k e p t c o n s t a n t .

T h e u s e o f f o r m \  c o u n t i n g e v e r y w o r d a d d i t i o n o r d e l e t i o n   " i s a n  

e x a m p l e o f e l l i p s i s | i t m u s t b e i n t e r p r e t e d a s \   o r c o u n t i n g e v e r y  

w o r d d e l e t i o n   " . T h e u s a g e o f \  t h i s m e a s u r e   " t o t h e \  e r r o r a n a l y s i s   " 

e x e m p l i e s r e f e r e n c e . T h e w o r d \  h o w e v e r  " e x p r e s s e s a c o n j u n c t i v e  

r e l a t i o n b e t w e e n \  t h i s m e a s u r e i s m e a n t t o b e a n o b j e c t i v e m e a s u r e   " 

a n d \  e r r o r c o u n t i n g i s n o t i n f a c t a v a l i d m e t h o d   " . T h e u s a g e o f  

t h e w o r d s \  c o u n t i n g   " , \  m e a s u r e   " , \  m e a s u r e   " , a n d \  c o u n t i n g   " i s a n  

i n s t a n c e o f l e x i c a l c o h e s i o n .  

W e b e g i n b y d e s c r i b i n g b r i e y t h e r s t t h r e e c a t e g o r i e s , a n d t h e n  

f o c u s o n l e x i c a l c o h e s i o n .  

R e f e r e n c e   A r e f e r e n c e i s l i n k e d b y a s e m a n t i c r e l a t i o n t o s o m e e l e -  

m e n t i n t h e p r e c e d i n g t e x t ; a n d t h i s c o n n e c t i o n e n a b l e s t h e r e f -  

e r e n c e d i t e m t o b e i n t e r p r e t e d . F o r e x a m p l e , i n t h e s e n t e n c e s \  I 

a m w a i t i n g f o r C o h a v i t . S h e w i l l a r r i v e l a t e r   " , t h e w o r d \  s h e  " i s 

i n t e r p r e t e d a s i d e n t i c a l t o t h e w o r d \  C o h a v i t  "

E l l i p s i s   E l l i p s i s o c c u r s w h e n a c l a u s e o r s o m e o f i t s p a r t s \ m a y b e  

p r e s u p p o s e d a t a s u b s e q u e n t p l a c e i n t h e t e x t b y t h e d e v i c e o f  

p o s i t i v e o m i s s i o n | t h a t i s , b y s a y i n g n o t h i n g , w h e r e s o m e t h i n g  

T a k e n f r o m K a r e n S p a r c k J o n e s 1 6 ]

Page 19: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 19/95

1 0  C H A P T E R 2 . L E X I C A L C H A I N S  

i s r e q u i r e d t o m a k e u p s o m e s e n s e . " F o r e x a m p l e , i n t h e s e n -  

t e n c e \  S a m i r i s s t u d y i n g i n t h i s s e m e s t e r C o m p l e x i t y a n d P a t t e r n  

R e c o g n i t i o n   " , t h e v e r b \  s t u d y   " r e l a t e s t o t h e w o r d \  C o m p l e x i t y   " 

e x p l i c i t l y a n d t o t h e w o r d \  P a t t e r n R e c o g n i t i o n   " i m p l i c i t l y .  

C o n j u n c t i o n   C o n j u n c t i o n s e x p r e s s e s l o g i c - s e m a n t i c r e l a t i o n s b e t w e e n  

c l a u s e s e x p l i c i t l y . T h e f o l l o w i n g s e n t e n c e s e x e m p l i f y a c a u s a l r e -  

l a t i o n , e x p r e s s e d b y t h e w o r d \  b e c a u s e   " : \  Y a e l n i s h e d h e r t h e s i s  

i n t i m e b e c a u s e s h e w o r k e d v e r y h a r d   "

2 . 2 L e x i c a l C o h e s i o n  

C o h e s i o n m y b e c r e a t e d i n a t e x t b y a c h o i c e o f w o r d s . L e x i c a l c o h e s i o n  

o c c u r s t h r o u g h t h e s e l e c t i o n o f w o r d s t h a t a r e r e l a t e d i n s o m e w a y t o  

w o r d s t h a t h a v e b e e n u s e d b e f o r e . L e x i c a l c o h e s i o n c a n b e i l l u s t r a t e d  

o n t h e f o l l o w i n g t e x t :  

B u t M r . K e n n y ' s m o v e s p e e d e d u p w o r k o n a   m a c h i n e   w h i c h u s e s  

m i c r o - c o m p u t e r s   t o c o n t r o l t h e r a t e a t w h i c h a n   a n a e s t h e t i c   i s 

p u m p e d i n t o t h e b l o o d o f   p a t i e n t s   u n d e r g o i n g s u r g e r y . S u c h   m a - 

c h i n e s   a r e n o t h i n g n e w . B u t M r . K e n n y ' s   d e v i c e   u s e s t w o   p e r s o n a l -  

c o m p u t e r s   t o a c h i e v e m u c h c l o s e r m o n i t o r i n g o f t h e   p u m p   f e e d i n g  

t h e  a n a e s t h e t i c   i n t o t h e   p a t i e n t  . E x t e n s i v e t e s t i n g o f t h e   e q u i p -  

m e n t  h a s s u c i e n t l y i m p r e s s e d t h e a u t h o r i t i e s w h i c h r e g u l a t e m e d i c a l  

e q u i p m e n t   i n B r i t a i n a n d , s o f a r , f o u r o t h e r c o u n t r i e s , t o m a k e t h i s  

t h e r s t s u c h   m a c h i n e   t o b e l i c e n s e d f o r c o m m e r c i a l s a l e t o h o s p i t a l s .

T h i s t e x t c o n t a i n m a n y w o r d s t h a t a r e s e m a n t i c a l l y r e l a t e d o n e  

t o a n o t h e r , f o r e x a m p l e : m a c h i n e / d e v i c e / e q u i p m e n t , p a t i e n t s / p a t i e n t .  

T h e s e r e l a t i o n s l i n k s e n t e n c e s t o g e t h e r a n d b y t h i s c r e a t e a c o h e s i v e  

t e x t u n i t f r o m t h e m . W o r d r e l a t i o n s c a n b e o n e o f t h e m a n y f o r m s  

w h i c h a r e t h e b a s i s f o r c l a s s i c a t i o n o f l e x i c a l c o h e s i o n .  

2 . 2 . 1 T y p e s o f L e x i c a l C o h e s i o n  

H a l l i d a y a n d H a s a n c l a s s i e d l e x i c a l c o h e s i o n t o t w o m a i n c a t e g o r i e s  

|  r e i t e r a t i o n   a n d  c o l l o c a t i o n  

Page 20: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 20/95

2 . 2 . L E X I C A L C O H E S I O N   1 1 

R e i t e r a t i o n o c c u r s w h e n o n e l e x i c a l i t e m b r i n g s t o m i n d t h e m e a n i n g  

o f a n e a r l i e r i t e m i n t h e d i s c o u r s e . R e i t e r a t i o n i s c r e a t e d b y u s i n g  

r e p e t i t i o n , s y n o n y m s a n d h y p o n y m s . F o r e x a m p l e , t h e w o r d \ m a c h i n e "  

i s r e p e a t e d t r e e t i m e s . T h e s y n o n y m y r e l a t i o n c a n b e e x e m p l i e d b y  

t h e p a i r \  p e r s o n a l - c o m p u t e r s  " a n d \  m i c r o - c o m p u t e r  " . S i m i l a r l y , t h e  

w o r d \  e q u i p m e n t  " i s m o r e g e n e r a l t h a n t h e w o r d \  m a c h i n e   " ( h y p o n y m y  

r e l a t i o n ) .  

C o l l o c a t i o n r e f e r t o w o r d s t h a t t e n d t o c o - o c c u r i n t h e t e x t . T h e s e  

c a n b e d i v i d e d i n t o t w o s u b - c a t e g o r i e s : s y s t e m a t i c , a n d n o n - s y s t e m a t i c .  

T h e s y s t e m a t i c s e m a n t i c r e l a t i o n i s c r e a t e d b y m e r o n y m y a n d a n t o n y -  

m y r e l a t i o n s . N o n - s y s t e m a t i c r e l a t i o n s a r e h a r d t o d e n e . S u c h c o l l o c a -  

t i o n s d e s c r i b e t h i n g s t h a t t e n d t o c o - o c c u r i n s i m i l a r s i t u a t i o n s o r c o n -  

t e x t s i n t h e r e a l w o r l d . I n o u r t e x t , a n e x a m p l e o f s u c h c o l l o c a t i o n s a r e  

t h e w o r d s \  p a t i e n t  " a n d \  h o s p i t a l  " , o r \  h o s p i t a l  " a n d \  a n a e s t h e t i c   "

2 . 2 . 2 T h e D o m i n a n c e o f L e x i c a l C o h e s i o n  

H a l l i d a y & H a s a n c h e c k e d t h e f r e q u e n c y o f d i e r e n t c o h e s i o n t y p e s w i t h  

a v a r i e t y o f t e x t s t y l e s . A c c o r d i n g t o t h e i r r e s u l t s , l e x i c a l c o h e s i o n i s  

t h e m o s t d o m i n a n t c a t e g o r y | i t m a k e s m o r e t h a n 4 0 % o f a l l c o h e s i v e  

d e v i c e s . T h e s e c o n c l u s i o n s w e r e s u p p o r t e d b y H o e y 1 0 ] , w h o m a d e  

s i m i l a r e x p e r i m e n t s o n s e v e n d i e r e n t t y p e s o f t e x t . H o e y c l a i m s t h a t  

l e x i c a l c o h e s i o n i s t h e c r u c i a l f a c t o r i n c r e a t i n g t e x t u r e a n d t h a t \ t h e  

s t u d y o f t h e g r e a t e r p a r t o f c o h e s i o n i s t h e s t u d y o f l e x i s . "  

O u r c l a i m t h a t c o h e s i o n a n a l y s i s u s i n g o n l y l e x i c a l c o h e s i o n c a n  

y i e l d p a r t i a l b u t s i g n i c a n t r e s u l t s i s b a s e d o n t h e s e d a t a o f H a l l i d a y  

& H a s a n a n d H o e y .  

2 . 2 . 3 W h a t i s a L e x i c a l C h a i n ?  

L e x i c a l c o h e s i o n o c c u r s n o t o n l y b e t w e e n t w o t e r m s , b u t a m o n g s e -  

q u e n c e s o f r e l a t e d w o r d s a s w e l l | t h e s e a r e c a l l e d l e x i c a l c h a i n s . L e x -  

i c a l c h a i n s c a n h o l d o v e r s e n t e n c e s a n d d i e r e n t t e x t p a r t s . T h i s t e r m  

w a s i n t r o d u c e d b y H a l l i d a y & H a s a n i n 1 9 7 6 6 ] , a n d w a s e x p a n d e d i n  

t h e l a t e r w o r k o f H a s a n 2 8 ] .  

Page 21: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 21/95

1 2  C H A P T E R 2 . L E X I C A L C H A I N S  

\ I d e n t i t y C h a i n s " v s . \ S i m i l a r i t y C h a i n s "  

H a s a n r e c o g n i z e s t w o t y p e s o f c h a i n s i n 2 8 ] | \ i d e n t i t y c h a i n s " ( I C )  

a n d \ s i m i l a r i t y c h a i n s " ( S C ) . I d e n t i t y c h a i n s c o n t a i n t e r m s t h a t r e f e r  

t o t h e s a m e o b j e c t . I t i s c r e a t e d b y p r o n o m i n a l c o h e s i o n , l e x i c a l r e p -  

e t i t i o n o r i n s t a n c i a l e q u i v a l e n t s . F o r e x a m p l e , \  T h e n a m e o f t h e   c a t 

w a s  G e r s h o n   " . H a s a n n o t e d t h a t i d e n t i t y c h a i n s a r e \ a l w a y s t e x t -  

b o u n d " b e c a u s e t h e r e l a t i o n o f c o - r e f e r e n c e c a n b e d e t e r m i n e d o n l y i n  

t h e c o n t e x t o f a t e x t .  

T h e e l e m e n t s o f s i m i l a r i t y c h a i n s a r e h e l d t o g e t h e r b y \ s e m a n t i c  

b o n d s w h i c h a r e s u p r a - t e x t u a l , w i t h a l a n g u a g e - w i d e v a l i d i t y . " I t i s  

r e a l i z e d o n l y t h r o u g h l e x i c a l c o h e s i o n c a t e g o r i e s . I n c o n t r a s t w i t h I C ,  

S C a r e n o t t e x t - b o u n d | i t s f o r m a t i o n a n d c o n t e n t \ a r e f a c t s o f t h e  

s y s t e m o f l a n g u a g e " .  

T h e n o t i o n o f a   l e x i c a l c h a i n   , i n t r o d u c e d f o r t h e r s t t i m e i n a  

c o m p u t a t i o n a l f r a m e w o r k b y M o r r i s & H i r s t 2 4 ] , i s e q u i v a l e n t t o t h e  

n o t i o n o f   s i m i l a r i t y c h a i n s  . A c c o r d i n g t o M o r r i s & H i r s t , l e x i c a l c h a i n s  

a r e d e n e d a s \ s e q u e n c e s o f r e l a t e d w o r d s " e x t e n d i n g o v e r a t o p i c a l u n i t  

o f t h e t e x t . I t e m s c a n b e i n c l u d e d i n a l e x i c a l c h a i n b a s e d o n d i e r e n t  

t y p e s o f l e x i c a l c o h e s i o n | r e i t e r a t i o n o r c o l l o c a t i o n c a t e g o r i e s , t h e  

p r e c i s e n a t u r e i s n o t s i g n i c a n t .  

W h y C a n L e x i c a l C h a i n s B e C o m p u t e d  

T w o t y p e s o f c h a i n s a r e i m p o r t a n t f o r c o h e s i o n a n a l y s i s , h o w e v e r , t h e  

a d v a n t a g e o f s i m i l a r i t y c h a i n s ( l e x i c a l c h a i n s ) o v e r i d e n t i t y c h a i n s i s  

t h a t t h e y c a n b e c o m p u t e d w i t h o u t r e q u i r i n g ` d e e p ' t e x t u n d e r s t a n d i n g .  

C o n s i d e r t h e c o h e s i v e d e v i c e o f u s i n g s y n o n y m s , f o r e x a m p l e : \  P C  " 

a n d \  m i c r o c o m p u t e r  " . T h e s e m a n t i c r e l a t i o n b e t w e e n t h e s e t e r m s i s  

c r e a t e d b y t h e \ i d e n t i t y o f t h e i r e x p e r i m e n t a l m e a n i n g . " T h e r e f o r e ,  

t h e s e m a n t i c b o u n d s b e t w e e n s y n o n y m s a r e i n d e p e n d e n t o f a p a r t i c u l a r  

c o n t e x t o f s o m e t e x t ; t h e r e l a t i o n s b e t w e e n t h e m a r e p a r t o f a l a n g u a g e  

s y s t e m . T h i s m a k e s i t p o s s i b l e t o c a l c u l a t e l e x i c a l c h a i n s i r r e s p e c t i v e  

t o t h e c o n t e x t i n w h i c h r e l a t e d w o r d s a c t u a l l y o c c u r .  

T h i s p r o p e r t y s u g g e s t s t h a t o n e c a n d e v e l o p a c o m p u t a t i o n a l p r o -  

c e s s c a p a b l e o f i d e n t i f y i n g l e x i c a l c h a i n s . W e d i s c u s s t h i s p o i n t i n t h e  

n e x t c h a p t e r a n d c o n t i n u e b y d i s c u s s i n g h o w t h e l e x i c a l c h a i n i n f o r m a -  

Page 22: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 22/95

2 . 2 . L E X I C A L C O H E S I O N   1 3 

t i o n c a n b e e x p l o i t e d t o b u i l d s u m m a r i e s .  

Page 23: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 23/95

Page 24: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 24/95

Page 25: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 25/95

1 6  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

3 . 2 S e m a n t i c D i s t a n c e A m o n g W o r d s  

3 . 2 . 1 K n o w l e d g e S o u r c e  

I n o r d e r t o d e t e r m i n e i f t w o w o r d s a r e s e m a n t i c a l l y r e l a t e d w e n e e d  

a d d i t i o n a l k n o w l e d g e a b o u t c o n n e c t i o n s b e t w e e n w o r d s . I n t h i s s e c t i o n  

w e c o n s i d e r t h e c u r r e n t m a c h i n e - r e a d a b l e s o u r c e s o f k n o w l e d g e w h i c h  

m a y b e s u i t a b l e f o r l e x i c a l c o h e s i o n a n a l y s i s .  

R o g e t I n t e r n a t i o n a l T h e s a u r u s  

T h e R o g e t ' s T h e s a u r u s 2 9 ] i s c o m p o s e d o f 1 0 4 2 b a s i c c a t e g o r i e s , o r g a -  

n i z e d i n a h i e r a r c h i c a l s t r u c t u r e . T h e t o p m o s t h i e r a r c h i c a l l e v e l c o n s i s t s  

o f e i g h t c l a s s e s : a b s t r a c t r e l a t i o n s , s p a c e , m a t t e r , s e n s a t i o n s , p h y s i c s ,  

i n t e l l e c t , v o l i t i o n , a n d a e c t i o n s . E a c h c l a s s i s d i v i d e d i n t o s u b c l a s s e s ,  

a n d s u b c l a s s e s a r e f u r t h e r d i v i d e d i n t o s u b s u b c l a s s e s . S u b s u b c l a s s e s  

c o n t a i n c a t e g o r i e s . F o r e x a m p l e :  

C l a s s 1 :   A b s t r a c t R e l a t i o n s  

S e c t i o n I .   E X I S T E N C E  

A  B E I N G , I N T H E A B S T R A C T  

1  E x i s t e n c e  

1  N . e x i s t e n c e , b e i n g , e n t i t y , e n s L a t ] , e s s e L a t ] ,  

s u b s i s t e n c e .  

2  r e a l i t y , a c t u a l i t y ; p o s i t i v e n e s s . a d j . ; f a c t , m a t t e r  

o f f a c t , s o b e r r e a l i t y ; t r u t h $ 4 9 4 ; a c t u a l e x i s t e n c e .  

2  I n e x i s t e n c e  

B  C O N T I N U O U S R E L A T I O N  

S e c t i o n I I .   R E L A T I O N  

C l a s s 2 :   S p a c e  

Page 26: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 26/95

3 . 2 . S E M A N T I C D I S T A N C E A M O N G W O R D S   1 7 

 

E a c h c a t e g o r y c o n t a i n s n u m b e r e d p a r a g r a p h s o f r e l a t e d w o r d s . A  

c a t e g o r y m a y h a v e p o i n t e r s t o o t h e r r e l a t e d c a t e g o r i e s o r p a r a g r a p h s .  

A c a t e g o r y c o n t a i n s d i e r e n t p a r t o f s p e e c h w o r d s , b u t a p a r a g r a p h  

c o n t a i n s w o r d s o f o n l y o n e s y n t a c t i c c a t e g o r y . F o r e a c h e n t r y , a l i s t o f  

w o r d s r e p r e s e n t s i t s v a r i o u s d i s t i n c t s u b s e n s e s . F o r e x a m p l e , t h e \  c i t y   " 

e n t r y i s r e p r e s e n t e d i n t h e T a b l e 3 . 1 .  

A b o d e 1 8 9  

P r o s p e r i t y 7 3 4  

B a r t e r 7 9 4  

A m u s e m e n t 8 4 0  

T a b l e 3 . 1 : T h e R o g e t ' s t h e s a u r u s e n t r y f o r \  c i t y   "

W o r d N e t  

W o r d N e t 2 3 ] i s a l e x i c a l k n o w l e d g e b a s e d e v e l o p e d a t P r i n c e t o n U n i -  

v e r s i t y . I t i s d i v i d e d i n t o f o u r d a t a l e s c o n t a i n i n g d a t a f o r a d j e c t i v e s ,  

a d v e r b s , n o u n s a n d v e r b s . I n W o r d N e t , a w o r d f o r m i s r e p r e s e n t e d b y  

a s t r i n g o f A S C I I c h a r a c t e r s , a n d a s e n s e i s r e p r e s e n t e d b y a   s y n s e t   | 

a s e t o f s y n o n y m s , w h i c h r e f e r t o a c o m m o n s e m a n t i c c o n c e p t . W o r d s  

m a y b e p r e s e n t i n m o r e t h a n o n e s y n s e t . F o r e x a m p l e , \  g o l d   " i s p r e s e n t  

i n t h e s y n s e t \  G o l d , A u , a t o m i c n u m b e r 7 9   " a n d a l s o i n t h e d i e r e n t  

s y n s e t \  A m b e r , G o l d , B r o w n i s h Y e l l o w   " ( t h i s m e a n s t h a t t h e w o r d  

\ g o l d " i s a m b i g u o u s { i t c a n r e f e r t o a m a t e r i a l o r t o a c o l o r ) .  

W o r d N e t c o n t a i n s m o r e t h a n 1 1 8 , 0 0 0 d i e r e n t w o r d f o r m s a n d m o r e  

t h a n 9 0 , 0 0 0 d i e r e n t w o r d s e n s e s . A l i s t o f p o i n t e r s i s a t t a c h e d t o e a c h  

s y n s e t , t h e s e p o i n t e r s e x p r e s s r e l a t i o n s b e t w e e n s y n s e t s . R e l a t i o n s a r e  

s u m m a r i z e d i n t h e T a b l e 3 . 2 .  

F o r e x a m p l e , t h e s y n s e t \  W a r , S t a t e o f w a r , H o t w a r , H o s t i l i t i e s  " 

h a s a n a n t o n y m \  p e a c e   " . A h y p e r o n y m o f t h e \  w a r  " s y n s e t i s \  c o n i c t  " 

a n d o n e o f i t s h y p o n y m s i s \  T e r r o r i s m   " . M o r e t h a n 1 1 6 , 0 0 0 p o i n t e r s  

r e p r e s e n t s e m a n t i c r e l a t i o n s b e t w e e n w o r d s a n d w o r d s e n s e s .  

N o u n s m a k e t h e b i g g e s t w o r d g r o u p i n W o r d N e t | m o r e t h a n 6 0 %  

o f t h e t o t a l d a t a b a s e .  

Page 27: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 27/95

1 8  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

A n t o n y m   W o r d w i t h o p p o s i t e m e a n i n g  

H y p e r o n y m   G e n e r a l i z a t i o n o f a w o r d  

H y p o n y m   S p e c i c a t i o n o f a w o r d  

M e r o n y m   C o r r e s p o n d s t o t h e w h o l e i n a p a r t - w h o l e r e l a t i o n  

H o l o n y m   C o r r e s p o n d s t o t h e p a r t i n a p a r t - w h o l e r e l a t i o n  

A t t r i b u t e   R e l a t i o n o f i m p l i c a t i o n b e t w e e n a n o u n a n d a n a d j e c t i v e  

P e r t a i n   R e l a t i o n b e t w e e n a n o u n a n d a n a d j e c t i v e , o r a n a d j e c t i v e  

a n d a d v e r b b a s e d o n m o r p h o l o g i c a l r e l a t i o n  

C a u s e   C a u s e o f a n o t h e r a c t i o n  

E n t a i l m e n t   I m p l i c a t i o n o f a n o t h e r a c t i o n  

T a b l e 3 . 2 : T y p e s o f W o r d N e t r e l a t i o n s .  

A u t o m a t i c a l l y C r e a t e d T h e s a u r u s  

A n a u t o m a t i c a l l y c r e a t e d t h e s a u r u s i s a d o m a i n - d e p e n d e n t c l u s t e r i n g  

o f w o r d s .  

S i m i l a r i t y b e t w e e n w o r d s i s m e a s u r e d n u m e r i c a l l y , b a s e d o n c o -  

o c c u r r e n c e f r e q u e n c y o r m u t u a l i n f o r m a t i o n . W o r d s i n t h e s a m e c l u s -  

t e r h a v e h i g h t e n d e n c y t o o c c u r i n a s i m i l a r l e x i c a l e n v i r o n m e n t , i n  

o t h e r w o r d s , t h e r e l a t i o n b e t w e e n t e r m s i n t h e s a m e c l u s t e r a r e n o n -  

s y s t e m a t i c ( s e e p a g e 1 1 ) .  

3 . 2 . 2 D i e r e n c e s A m o n g K n o w l e d g e S o u r c e s  

O r g a n i z a t i o n   W o r d N e t a n d R o g e t ' s t h e s a u r u s a r e o r g a n i z e d a r o u n d  

w o r d s e n s e s , w h e r e a s i n a n a u t o m a t i c a l l y c r e a t e d t h e s a u r u s , w o r d  

s e n s e s a r e n o t r e p r e s e n t e d e x p l i c i t l y .  

R e p r e s e n t a t i o n o f R e l a t i o n s   A s a r e s u l t o f t h e o r g a n i z a t i o n d i e r -  

e n c e , r e l a t i o n s i n d i e r e n t k n o w l e d g e s o u r c e s a r e r e p r e s e n t e d i n  

d i e r e n t l e v e l s o f e x p l i c i t y . T h e p r e c i s i o n o f r e l a t i o n c l a s s i c a t i o n  

i n c r e a s e s i n t h e f o l l o w i n g o r d e r : R o g e t ' s t h e s a u r u s | z e r o - o n e  

m e t r i c s , W o r d N e t | 1 1 r e l a t i o n t y p e s , a u t o m a t i c t h e s a u r u s |  

d i s t a n c e f u n c t i o n .  

S y s t e m a t i c v s . N o n S y s t e m a t i c R e l a t i o n s   T h e W o r d N e t d a t a b a -  

Page 28: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 28/95

3 . 2 . S E M A N T I C D I S T A N C E A M O N G W O R D S   1 9 

s e c o v e r s o n l y s y s t e m a t i c r e l a t i o n s , w h e r e a s R o g e t T h e s a u r u s a n d  

a n A u t o m a t i c a l l y C r e a t e d T h e s a u r u s c o v e r a l s o n o n - s y s t e m a t i c  

r e l a t i o n s .  

R e l a t i o n s b e t w e e n D i e r e n t S y n t a c t i c C a t e g o r i e s   A t t h e m o m -  

e n t , W o r d N e t i s t h e o n l y s o u r c e w h e r e s y n t a c t i c c a t e g o r i e s a r e n o t  

c o m p l e t e l y c o n n e c t e d t o g e t h e r , t h e r e a r e s o m e l i m i t e d r e l a t i o n s  

b e t w e e n n o u n s a n d a d j e c t i v e s a n d a d j e c t i v e s :  

  N o u n s r e f e r t o a d j e c t i v e s w i t h a t t r i b u t e r e l a t i o n s ;  

  A d j e c t i v e s r e f e r t o n o u n s w i t h a t t r i b u t e a n d p e r t a i n r e l a -  

t i o n s ;  

  A d v e r b s r e f e r t o a d j e c t i v e s w i t h p e r t a i n r e l a t i o n s .  

D o m a i n D e p e n d e n c e   A n a u t o m a t i c t h e s a u r u s i s d o m a i n - d e p e n d e n t  

w h e r e a s R o g e t ' s T h e s a u r u s a n d W o r d N e t c l a i m t o b e d o m a i n -  

i n d e p e n d e n t .  

C o v e r a g e   A g r e a t a d v a n t a g e o f W o r d N e t o v e r R o g e t ' s T h e s a u r u s i s  

t h e l a r g e n u m b e r o f w o r d s t h a t i t i n c l u d e s , i t s u p d a t e d v o c a b u -  

l a r y o f m o d e r n E n g l i s h , a n d t h e p r e s e n c e o f a l a r g e n u m b e r o f  

s c i e n t i c t e r m s . H o w e v e r , W o r d N e t , t h e R o g e t ' s t h e s a u r u s a n d a  

g e n e r a l d i c t i o n a r y d o n o t i n c l u d e d o m a i n - d e p e n d e n t i n f o r m a t i o n  

a n d p r o p e r n o u n s ; a n d c a n n o t b e u p d a t e d a u t o m a t i c a l l y .  

3 . 2 . 3 A p p r o p r i a t e n e s s o f K n o w l e d g e S o u r c e s f o r  

C o m p u t i n g  

W h a t a r e t h e f a c t o r s t h a t i n u e n c e t h e a c c u r a c y o f c o m p u t i n g r e l a t e d -  

n e s s b e t w e e n t w o i t e m s ?  

1 . P r e c o n d i t i o n : t h e i t e m s a r e i n t h e l e x i c o n .  

2 . T h e l e x i c o n i s c o v e r i n g d i e r e n t k i n d s o f r e l a t i o n s : s y s t e m a t i c  

a n d n o n - s y s t e m a t i c .  

3 . T h e l e x i c o n c o n t a i n s i n f o r m a t i o n a b o u t t h e l e v e l o f c o n n e c t e d -  

n e s s .  

Page 29: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 29/95

2 0  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

R o g e t ' s t h e s a u r u s f u l l l s t h e s e c o n d r e q u e s t , b u t b e c a u s e t h e v o -  

c a b u l a r y i s n o t u p d a t e d a n d c o n n e c t e d n e s s m e t r i c s a r e z e r o - o n e , t h e  

c a l c u l a t i o n p r e c i s i o n d e c r e a s e s . I n s p i t e o f t h e f a c t t h a t W o r d N e t d o e s  

n o t s u p p o r t n o n - s y s t e m a t i c r e l a t i o n s , i t s r i c h v o c a b u l a r y a n d a c c u r a t e  

s y s t e m a t i c r e l a t i o n s a m o n g c a t e g o r i e s m a k e s i t a n a p p r o p r i a t e t o o l f o r  

c o m p u t i n g , b u t w i t h t h e f o l l o w i n g c o n s t r a i n t : r e l a t e d n e s s c a n b e c o m -  

p u t e d o n l y w i t h i n a s i n g l e s y n t a c t i c c a t e g o r y . I f r e l a t e d n e s s m u s t b e  

c o m p u t e d o n a s p e c i c d o m a i n t e x t , t h e m o s t a p p r o p r i a t e k n o w l e d g e  

s o u r c e i s a n a u t o m a t i c d o m a i n t h e s a u r u s ( A T ) , w h i c h c o n t a i n s s y s t e m -  

a t i c a n d n o n - s y s t e m a t i c r e l a t i o n s b e t w e e n d o m a i n t e r m s . B u t t h e n , t h e  

f o l l o w i n g i s s u e s m u s t b e a d d r e s s e d :  

1 . T h e c o n s t r u c t i o n o f a n a u t o m a t i c a l l y c r e a t e d t h e s a u r u s r e q u i r e s  

h u g e c o r p o r a ;  

2 . H o w t o t r e a t t h e w o r d s t h a t h a v e l o w f r e q u e n c y i n c o r p u s , a n d  

t h e r e f o r e a r e n o t c o v e r e d b y A T .  

A p o s s i b l e s o l u t i o n f o r t h e s e c o n d p r o b l e m w o u l d b e t o c o m b i n e a n  

A T w i t h W o r d N e t , b u t t h i s i s d e l i c a t e t o w o r k o u t .  

3 . 2 . 4 U s i n g T h e s a u r u s f o r C o m p u t i n g  

I n t h i s s e c t i o n w e p r e s e n t d i e r e n t m e t h o d s f o r c o m p u t i n g r e l a t e d n e s s  

u s i n g R o g e t ' s t h e s a u r u s a n d W o r d N e t . ( W e a r e n o t a w a r e o f a n y p u b -  

l i s h e d w o r k u s i n g a u t o m a t i c t h e s a u r u s f o r c h a i n c o m p u t i n g ) .  

R o g e t ' s T h e s a u r u s   U s i n g R o g e t ' s T h e s a u r u s 2 4 ] | t w o w o r d s a r e  

r e l a t e d t o e a c h o t h e r i f t h e i r s t e m s s a t i s f y a n y o n e o f t h e f o l l o w i n g  

v e c o n d i t i o n s :  

1 . T h e y b o t h h a v e a n i n d e x e n t r y t h a t r e f e r s t o t h e s a m e c a t -  

e g o r y ;  

2 . T h e y b o t h h a v e a n i n d e x e n t r y t h a t r e f e r s t o a d i e r e n t  

c a t e g o r y b u t o n e o f t h e s e t w o c a t e g o r i e s h a s a p o i n t e r t o t h e  

o t h e r o n e ;  

3 . O n e h a s a n i n d e x e n t r y t h a t r e f e r s t o a c a t e g o r y c o n t a i n i n g  

t h e o t h e r s t e m ;  

Page 30: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 30/95

3 . 2 . S E M A N T I C D I S T A N C E A M O N G W O R D S   2 1 

4 . T h e y a r e b o t h c o n t a i n e d i n t h e s a m e s u b - c a t e g o r y ;  

5 . T h e y b o t h h a v e a n i n d e x e n t r y t h a t r e f e r s t o a d i e r e n t  

c a t e g o r y b u t t h e s e t w o c a t e g o r i e s h a v e a c o m m o n p o i n t e r t o  

a n o t h e r c a t e g o r y .  

W o r d N e t   W o r d N e t w a s u s e d a s a k n o w l e d g e s o u r c e b y s e v e r a l a l -  

g o r i t h m s : S t - O n g e & H i r s t 9 ] , S t a i r m a n d 3 1 ] a n d E l h a d a d &  

B a r z i l a y 1 ] .  

1 . S t - O n g e & H i r s t 9 ] d e n e t h r e e r e l a t i o n k i n d s : e x t r a - s t r o n g  

( b e t w e e n a w o r d a n d i t s r e p e t i t i o n ) , s t r o n g ( b e t w e e n t w o  

w o r d s c o n n e c t e d b y a W o r d N e t r e l a t i o n ) a n d m e d i u m - s t r o n g  

w h e n t h e l i n k b e t w e e n t h e s y n s e t s o f t h e w o r d s i s l o n g e r t h a n  

o n e ( o n l y p a t h s s a t i s f y i n g c e r t a i n r e s t r i c t i o n s a r e a c c e p t e d  

a s v a l i d c o n n e c t i o n s ) .  

2 . S t a i r m a n d 3 1 ] c o n s i d e r s t w o w o r d s c o n n e c t e d i f t h e r e i s  

s o m e p a t h i n W o r d N e t b e t w e e n t h e m , w i t h o u t l i m i t a t i o n o n  

t h e l e n g t h ( e x c e p t f o r p a t h s w h i c h i n c l u d e m e r o n y m s ) . T e r m  

l i n k i n g i s r e g u l a t e d w i t h r e f e r e n c e t o a l i s t o f \ c o n c e p t u a l l y  

o v e r l o a d e d s y n o n y m s e t s " , t h a t i s , n o d e s j u d g e d t o o g e n e r i c  

t o f u n c t i o n a s t h e j u s t i c a t i o n f o r a l i n k b e t w e e n t e r m s . F o r  

e x a m p l e , \ o b j e c t " i s c o n n e c t e d t o \ l i p s t i c k " a n d \ m a c h i n e " .  

S t a i r m a n d m a n u a l l y i d e n t i e d a p p r o x i m a t e l y 5 0 0 n o d e s o f  

t h i s t y p e .  

3 . O u r r e l a t e d n e s s c r i t e r i a p u t c o n s t r a i n t s o n t h e p a t h l e n g t h  

a c c o r d i n g t o t h e t y p e o f e d g e s : t h e l e n g t h o f a p a t h b e t w e e n  

a n o d e a n d i t s o s p r i n g i n t h e h y p e r o n y m g r a p h i s n o t l i m -  

i t e d , m e r o n y m r e l a t i o n s a n d s i b l i n g s i n t h e h y p e r o n y m g r a p h  

h o w e v e r , a r e l i m i t e d i n l e n g t h .  

I n s h o r t , d i e r e n t a l g o r i t h m s b a s e d o n W o r d N e t d e n e r e l a t e d -  

n e s s i n t e r m s o f p a t h t o p o l o g y , i t s l e n g t h a n d t h e t y p e o f l i n k s  

c o m p o s i n g t h e p a t h .  

U s i n g W o r d D i s t r i b u t i o n i n T e x t f o r C o m p u t i n g R e l a t e d n e s s  

W h a t o t h e r f a c t o r s i n u e n c e r e l a t e d n e s s ? T h e d i s t a n c e b e t w e e n t w o  

w o r d s i n t h e t e x t i s o n e . C o n s i d e r t w o w o r d s \  m a c h i n e   " a n d \  d e v i c e   " , 

Page 31: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 31/95

2 2  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

w h i c h h a v e a h y p e r o n y m r e l a t i o n , a n d a r e c o n n e c t e d b y a l l t h e c r i t e -  

r i a p r e s e n t e d a b o v e . H o w e v e r , t h e p r o b a b i l i t y t h a t t h e y a r e a c t u a l l y  

c o n n e c t e d i s m u c h h i g h e r i f \  m a c h i n e   " a n d \  d e v i c e   " b e l o n g t o a d j a -  

c e n t s e n t e n c e s t h a n t o t w o d i e r e n t p a r t s o f t h e t e x t . H i r s t & M o r r i s  

c o n s i d e r e d t h e i n u e n c e o f d i s t a n c e o n c h a i n f o r m a t i o n | \ w h e n d i s -  

t a n c e s b e t w e e n r e l a t e - a b l e w o r d s a r e n o t t i g h t l y b o u n d   t h e c h a n c e s  

o f i n c o r r e c t c h a i n l i n k a g e s i n c r e a s e . " T h e q u e s t i o n i s h o w t o f o r m u l a t e  

w h a t c a n b e c o n s i d e r e d a s a n \ a l l o w e d d i s t a n c e " , o r , i n o t h e r w o r d s , i n  

w h a t u n i t s c a n w e m e a s u r e t h i s d i s t a n c e ?  

D i e r e n t d e n i t i o n s o f t h e d i s t a n c e w e r e p r e s e n t e d i n t h e l i t e r a t u r e .  

F i x e d w o r d w i n d o w   S t a i r m a n d d e n e d m a x i m a l d i s t a n c e b e t w e e n  

t w o r e l a t e d i t e m s a s 8 0 w o r d s .  

F i x e d s e n t e n c e w i n d o w   H i r s t & M o r r i s d e n e d m a x i m u m d i s t a n c e  

a c c o r d i n g t o t h e t y p e o f r e l a t i o n s b e t w e e n i t e m s : f o r e x t r a - s t r o n g  

r e l a t i o n s , t h e r e i s n o d i s t a n c e l i m i t , f o r s t r o n g r e l a t i o n s , t h e r e  

i s a l i m i t e d w i n d o w o f s e v e n s e n t e n c e s ; a n d f o r m e d i u m - s t r o n g  

r e l a t i o n s , i t i s t h r e e .  

S e g m e n t a t i o n   W e p r o p o s e t h a t t h e d i s t a n c e b e t w e e n r e l a t e d w o r d s  

i s r e l a t e d t o t h e t o p i c d i s t r i b u t i o n i n t h e t e x t . I f t w o w o r d s a r e  

u s e d i n t h e d e s c r i p t i o n o f t h e s a m e s u b t o p i c , t h e n t h e c h a n c e t h a t  

t h e y a r e r e l a t e d i n c r e a s e s . T h e r e f o r e , o u r d e n i t i o n o f m a x i m a l  

d i s t a n c e i s a t o p i c s e g m e n t . W e r s t r e l y o n H e a r s t ' s a l g o r i t h m  

8 ] f o r a p p r o x i m a t i n g s e g m e n t a t i o n a n d d i s c u s s i n t h e c h a p t e r o n  

e v a l u a t i o n o t h e r p o s s i b l e w a y s t o a p p r o x i m a t e t o p i c d i s t r i b u t i o n .  

3 . 3 C a n d i d a t e W o r d s  

T h e w a y c a n d i d a t e w o r d s a r e s e l e c t e d i s r e l a t e d t o p r o p e r t i e s o f t h e  

k n o w l e d g e s o u r c e u s e d t o i d e n t i f y t h e r e l a t i o n s b e t w e e n d i e r e n t s y n -  

t a c t i c c a t e g o r i e s . S i n c e R o g e t ' s t h e s a u r u s c o n t a i n s c o n n e c t i o n s b e t w e e n  

a l l p a r t s - o f - s p e e c h , a l l w o r d s i n a t e x t c a n b e i n c l u d e d i n c h a i n s . H i r s t  

& M o r r i s c h o o s e a s c a n d i d a t e w o r d s a l l w o r d s e x c e p t p r o n o u n s , p r e p o -  

s i t i o n s , v e r b a l a u x i l i a r i e s , a n d o t h e r h i g h - f r e q u e n c y w o r d s .  

Page 32: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 32/95

3 . 3 . C A N D I D A T E W O R D S   2 3 

S i n c e W o r d N e t d o e s n o t s u p p o r t c o n n e c t i o n s b e t w e e n d i e r e n t s y n -  

t a c t i c c a t e g o r i e s , e x c e p t n o u n s a n d a d j e c t i v e s , c a n d i d a t e w o r d s m u s t  

b e o f t h e s a m e p a r t - o f - s p e e c h . A l l e x i s t i n g a l g o r i t h m s r e l y b a s i c a l l y o n  

n o u n s a s c a n d i d a t e w o r d s , b e c a u s e n o u n s a r e t h e m a i n c o n t r i b u t o r s t o  

t h e \ a b o u t n e s s " o f a t e x t , a n d n o u n s y n s e t s d o m i n a t e i n W o r d N e t .  

S t - O n g e & H i r s t l i m i t t h e c h a i n i n g p r o c e s s t o n o u n s . T h e y d o n o t  

u s e a p a r t - o f - s p e e c h t a g g e r \ i n o r d e r t o a v o i d t h e s l o w d o w n a n d t h e  

e r r o r t h a t w o u l d h a v e r e s u l t e d " ( p . 1 3 ) . I n s t e a d , t h e a l g o r i t h m s e l e c t s  

t o k e n s t h a t h a p p e n t o o c c u r a s n o u n s i n W o r d N e t , u n d e r t h e a s s u m p -  

t i o n t h a t \ m o s t w o r d s t h a t e x i s t a s n o u n s , b u t t h a t a r e u s e d i n d i e r -  

e n t g r a m m a t i c a l c a t e g o r i e s , a r e s e m a n t i c a l l y c l o s e t o t h e i r n o u n f o r m  

(  e . g .  \  t o w a l k   " a n d \  w a l k   " ) . " S t - O n g e c l a i m e d m o r p h o l o g i c a l t r a n s f o r -  

m a t i o n r e s u l t e d i n c h a i n i n g i n a c c u r a c y .  

S t a i r m a n d t a k e s a d i e r e n t v i e w o n t h e t a g g i n g a n d m o r p h o l o g i -  

c a l t r a n s f o r m a t i o n . H e c o n s i d e r s p r i m a r i l y n o u n s a n d a d j e c t i v e s , b u t  

d e r i v a t i o n a l r e l a t i o n s b e t w e e n v e r b s a n d n o u n s a r e a l s o a c c o u n t e d f o r .  

A t a g g i n g p r o g r a m ( t h e   s t y l e   u t i l i t y f r o m U N I X B S D 4 . 2 ) p r o c e s s e s  

e a c h t e x t a n d a s s i g n s a p a r t o f s p e e c h t o e a c h t e x t t o k e n . T h i s a l l o w s  

s e l e c t i o n o f o n l y t h o s e t e r m s l a b e l e d a s n o u n s a n d a d j e c t i v e s , w h i c h  

c o n s t i t u t e t h e c a n d i d a t e t e r m s . I n a d d i t i o n , t h e E d i n b u r g h M o r p h o -  

l o g i c a l A n a l y z e r i s u s e d t o i d e n t i f y r e p e t i t i o n b a s e d o n m o r p h o l o g i c a l  

v a r i a n t s , f o r e x a m p l e \  s m o k i n g   " , \  s m o k e  " a n d \  s m o k e r  "

W e u s e t h e r e s u l t s o f B r i l l ' s p a r t - o f - s p e e c h t a g g i n g a l g o r i t h m t o  

i d e n t i f y n o u n s . I n a d d i t i o n , w e e x t e n d t h e s e t o f c a n d i d a t e w o r d s t o  

i n c l u d e n o u n c o m p o u n d s . W e r s t e v a l u a t e e m p i r i c a l l y t h e i m p o r t a n c e  

o f n o u n c o m p o u n d s b y t a k i n g i n t o a c c o u n t t h e o n e s e x p l i c i t l y p r e s e n t i n  

W o r d N e t ( a r o u n d 5 0 , 0 0 0 e n t r i e s i n W o r d N e t a r e n o u n c o m p o u n d s s u c h  

a s \  s e a - l e v e l  " o r c o l l o c a t i o n s s u c h a s \  d i g i t a l - c o m p u t e r s   " ) . H o w e v e r ,  

t h e E n g l i s h l a n g u a g e i n c l u d e s a p r o d u c t i v e s y s t e m f o r n o u n c o m p o u n d s ,  

a n d i n e a c h d o m a i n , n e w n o u n c o m p o u n d s a n d c o l l o c a t i o n s c a n b e  

c r e a t e d , t h e s e w i l l n o t b e p r e s e n t i n W o r d N e t , b u t t h e y c a n p l a y a  

m a j o r r o l e .  

W e a d d r e s s e d t h i s i s s u e b y u s i n g a s h a l l o w p a r s e r ( p r o v i d e d b y I d o  

D a g a n ) t o i d e n t i f y n o u n c o m p o u n d s u s i n g a s i m p l e c h a r a c t e r i z a t i o n o f  

n o u n s e q u e n c e s ( a s r e g u l a r e x p r e s s i o n s o v e r p a r t - o f - s p e e c h t a g s ) . W h e n  

a n o u n c o m p o u n d i s s e l e c t e d , t h e r e l a t e d n e s s c r i t e r i o n i n W o r d N e t i s  

u s e d b y c o n s i d e r i n g i t s h e a d n o u n o n l y . T h i s h a s t w o m a j o r b e n e t s :  

Page 33: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 33/95

2 4  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

1 . I t i d e n t i e s i m p o r t a n t c o n c e p t s i n t h e d o m a i n ( f o r e x a m p l e , i n a  

t e x t o n \  q u a n t u m c o m p u t i n g   " , t h e m a i n t o k e n w a s t h e n o u n c o m -  

p o u n d \  q u a n t u m c o m p u t i n g  " w h i c h w a s n o t p r e s e n t i n W o r d N e t ) ;  

2 . I t e l i m i n a t e s w o r d s t h a t o c c u r a s m o d i e r s f r o m t h e s e t o f p o s s i b l e  

c a n d i d a t e s f o r c h a i n m e m b e r s h i p . F o r e x a m p l e , w h e n \  q u a n t u m  

c o m p u t i n g   " i s s e l e c t e d a s a s i n g l e u n i t , t h e w o r d \  q u a n t u m   " i s 

n o t s e l e c t e d . T h i s i s b e n e c i a l b e c a u s e i n t h i s e x a m p l e , t h e t e x t  

w a s n o t a b o u t \  q u a n t u m   " , b u t m o r e a b o u t c o m p u t e r s .  

T o s u m m a r i z e , t h e r e i s a n a g r e e m e n t t h a t i n W o r d N e t n o u n s a r e b a -  

s i c p a r t - o f - s p e e c h , b u t t h e r e i s d i s a g r e e m e n t a b o u t t h e u s a g e o f g r a m -  

m a t i c a l a n d m o r p h o l o g i c a l t o o l s f o r p r e p r o c e s s i n g .  

3 . 4 C h o i c e o f a R e c e i v i n g C h a i n  

S e l e c t i n g a n a p p r o p r i a t e c h a i n t o r e c e i v e a c a n d i d a t e w o r d i s e q u i v a l e n t  

t o d i s a m b i g u a t i n g t h e g i v e n w o r d i n t h e c u r r e n t c o n t e x t . C o n s i d e r t h e  

w o r d \  c o m p u t e r  " , i t h a s t w o s e n s e s i n W o r d N e t : \  p e r s o n t h a t c o m -  

p u t e s   " a n d \  i n f o r m a t i o n p r o c e s s i n g s y s t e m   " . I f t h e c h a i n   f  p c , d a t a  

p r o c e s s o r , m a c h i n e   g  a l r e a d y e x i s t s , t h e n \  c o m p u t e r  " w i l l b e i n s e r t e d  

i n i t a n d t h r o u g h t h i s d e c i s i o n \  c o m p u t e r  " w i l l b e d i s a m b i g u a t e d t o  

i t s r s t s e n s e . I f o n l y t h e c h a i n   f  p e r s o n , e s t i m a t o r   g  e x i s t s , t h e n \   c o m -  

p u t e r   " w i l l r e l a t e t o i t i n t h e s e c o n d s e n s e . T h e p r o b l e m a r i s e s w h e n  

t h e s e t w o c h a i n s a r e a c t i v e i n t h e c u r r e n t c o n t e x t , a n d t h e a l g o r i t h m  

m u s t d e c i d e w h i c h c h a i n w i l l r e c e i v e t h e w o r d \  c o m p u t e r  " ? 

H i r s t & M o r r i s d i d n o t r e q u i r e t h e s a m e w o r d t o a p p e a r w i t h t h e  

s a m e s e n s e i n i t s d i e r e n t o c c u r r e n c e s f o r i t t o b e l o n g t o a c h a i n . I n  

t h e a b o v e e x a m p l e t h e \  p e r s o n   " c h a i n a n d t h e \  P C  " c h a i n w o u l d b e  

m e r g e d i n t o a s i n g l e c h a i n , c o n n e c t e d b y t h e t w o s e n s e s o f \  c o m p u t e r  "

M i x i n g s e n s e s o f s e m a n t i c a l l y a m b i g u o u s w o r d s h o w e v e r , c a n l e a d t o  

c o n f u s i o n s .  

H i r s t & S t - O n g e c h o o s e t h e a p p r o p r i a t e c h a i n a c c o r d i n g t o t h e t y p e  

o f t h e r e l a t i o n b e t w e e n a c a n d i d a t e w o r d a n d t h e p o s s i b l e c h a i n s . T o  

n d a c h a i n i n w h i c h t o i n s e r t a g i v e n c a n d i d a t e w o r d , e x t r a - s t r o n g r e -  

l a t i o n s a r e p r e f e r r e d t o s t r o n g - r e l a t i o n s a n d b o t h o f t h e m a r e p r e f e r r e d  

t o m e d i u m - s t r o n g r e l a t i o n s . I f a c h a i n i s f o u n d , t h e n t h e c a n d i d a t e  

Page 34: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 34/95

3 . 4 . C H O I C E O F A R E C E I V I N G C H A I N   2 5 

w o r d i s i n s e r t e d w i t h t h e a p p r o p r i a t e s e n s e , a n d t h e s e n s e s o f t h e o t h e r  

w o r d s i n t h e r e c e i v i n g c h a i n a r e u p d a t e d , s o t h a t e v e r y w o r d c o n n e c t e d  

t o t h e n e w w o r d i n t h e c h a i n r e l a t e s t o i t s s e l e c t e d s e n s e s o n l y . I f n o  

c h a i n i s f o u n d , t h e n a n e w c h a i n i s c r e a t e d a n d t h e c a n d i d a t e w o r d i s  

i n s e r t e d w i t h a l l i t s p o s s i b l e s e n s e s i n W o r d N e t .  

T h e g r e e d y d i s a m b i g u a t i o n s t r a t e g y i m p l e m e n t e d i n t h i s a l g o r i t h m  

h a s s o m e l i m i t a t i o n s i l l u s t r a t e d b y t h e f o l l o w i n g e x a m p l e :  

M r K e n n y i s t h e   p e r s o n   t h a t i n v e n t e d a n a n a e s t h e t i c   m a c h i n e  

w h i c h u s e s   m i c r o - c o m p u t e r s   t o c o n t r o l t h e r a t e a t w h i c h a n a n a e s -  

t h e t i c i s p u m p e d i n t o t h e b l o o d . S u c h   m a c h i n e s   a r e n o t h i n g n e w .

B u t h i s   d e v i c e   u s e s t w o   m i c r o - c o m p u t e r s   t o a c h i e v e m u c h c l o s e r  

m o n i t o r i n g o f t h e   p u m p   f e e d i n g t h e a n a e s t h e t i c i n t o t h e p a t i e n t .

A c c o r d i n g t o H i r s t & S t - o n g e ' s a l g o r i t h m , t h e c h a i n f o r t h e w o r d  

\  M r " i s r s t c r e a t e d , h o l d i n g o n e s e n s e :  

l e x " M r . " , s e n s e   f  m i s t e r , M r .  g  ] 

\  M r " b e l o n g s o n l y t o o n e s y n s e t , s o i t i s d i s a m b i g u a t e d f r o m t h e  

b e g i n n i n g . T h e w o r d \  p e r s o n   " i s r e l a t e d t o t h i s c h a i n i n t h e s e n s e \  a 

h u m a n b e i n g  " b y a m e d i u m - s t r o n g r e l a t i o n , s o t h e c h a i n n o w c o n t a i n s  

t w o e n t r i e s :  

l e x " M r . " , s e n s e   f  m i s t e r , M r .  g  ] 

l e x " p e r s o n " , s e n s e   f  p e r s o n ,  

i n d i v i d u a l , s o m e o n e , m a n , m o r t a l , h u m a n , s o u l  g  ] 

W h e n t h e a l g o r i t h m p r o c e s s e s t h e w o r d \  m a c h i n e   " , i t r e l a t e s i t t o  

t h i s c h a i n , b e c a u s e \  m a c h i n e   " i n t h e r s t W o r d N e t s e n s e ( \  a n e c i e n t  

p e r s o n   " ) i s a h o l o n y m o f \  p e r s o n   " i n t h e c h o s e n s e n s e . I n o t h e r w o r d s ,  

\  m a c h i n e   " a n d \  p e r s o n   " a r e r e l a t e d b y a s t r o n g r e l a t i o n . I n t h i s c a s e ,  

\  m a c h i n e   " i s d i s a m b i g u a t e d i n t h e w r o n g w a y , e v e n t h o u g h a f t e r t h i s  

r s t o c c u r r e n c e o f \  m a c h i n e   " , t h e r e i s s t r o n g e v i d e n c e s u p p o r t i n g t h e  

s e l e c t i o n o f i t s m o r e c o m m o n s e n s e : \  m i c r o - c o m p u t e r  " , \  d e v i c e   " a n d  

\  p u m p  " a l l p o i n t t o i t s c o r r e c t s e n s e i n t h i s c o n t e x t | \  a n y m e c h a n i c a l  

o r e l e c t r i c a l d e v i c e t h a t p e r f o r m s o r a s s i s t s i n t h e p e r f o r m a n c e   "

T h i s e x a m p l e i n d i c a t e s t h a t d i s a m b i g u a t i o n c a n n o t b e a g r e e d y d e -  

c i s i o n . I n o r d e r t o c h o o s e t h e r i g h t s e n s e o f t h e w o r d w e m u s t c o n s i d e r  

t h e ` w h o l e p i c t u r e ' o f c h a i n d i s t r i b u t i o n i n t h e t e x t . W e p r o p o s e t o  

d e v e l o p a c h a i n i n g m o d e l a c c o r d i n g t o a l l p o s s i b l e a l t e r n a t i v e s o f w o r d  

s e n s e s a n d t h e n c h o o s e t h e b e s t o n e a m o n g t h e m .  

Page 35: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 35/95

2 6  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

3 . 5 T h e D y n a m i c C h a i n i n g A l g o r i t h m  

L e t u s i l l u s t r a t e o u r m e t h o d o n t h e a b o v e e x a m p l e . F i r s t , a n o d e  

f o r t h e w o r d \  M r " i s c r e a t e d   l e x " M r . " , s e n s e   f  m i s t e r , M r .  g  ] 

T h e n e x t c a n d i d a t e w o r d i s \  p e r s o n   " . I t h a s t w o s e n s e s : \  h u m a n b e -  

i n g  " ( p e r s o n  

) a n d \  g r a m m a t i c a l c a t e g o r y o f p r o n o u n s a n d v e r b f o r m s  " 

( p e r s o n  

) . T h e c h o i c e o f s e n s e f o r \  p e r s o n   " s p l i t s t h e c h a i n w o r l d t o  

t w o d i e r e n t i n t e r p r e t a t i o n s a s d e m o n s t r a t e d i n F i g u r e 3 . 1 .  

{person ,1

individual,someone, ...}

Person Person{person }

2

{ Mr.,Mister}Mr. { Mr.,Mister}Mr.

F i g u r e 3 . 1 : S t e p 1 : I n t e r p r e t a t i o n s 1 a n d 2 .  

D e n e a   c o m p o n e n t   a s a l i s t o f i n t e r p r e t a t i o n s t h a t a r e m u t u a l l y  

e x c l u s i v e o f e a c h o t h e r . C o m p o n e n t w o r d s i n u e n c e e a c h o t h e r i n t h e  

s e l e c t i o n o f t h e i r r e s p e c t i v e s e n s e s .  

T h e n e x t c a n d i d a t e w o r d \  a n a e s t h e t i c   " i s n o t r e l a t e d t o a n y w o r d  

i n t h e r s t c o m p o n e n t , s o w e c r e a t e a n e w c o m p o n e n t f o r i t w i t h a  

s i n g l e i n t e r p r e t a t i o n .  

T h e w o r d \  m a c h i n e   " h a s 5 s e n s e s m a c h i n e  

t o m a c h i n e  

. I n i t s  

r s t s e n s e , \  a n e c i e n t p e r s o n   " , i t i s r e l a t e d t o t h e s e n s e s \  p e r s o n   " 

a n d \  M r " . T h e r e f o r e , i t i n u e n c e s t h e s e l e c t i o n o f t h e i r s e n s e s , t h u s  

\  m a c h i n e   " h a s t o b e i n s e r t e d i n t h e r s t c o m p o n e n t . A f t e r i t s i n s e r t i o n ,  

t h e p i c t u r e o f t h e r s t c o m p o n e n t b e c o m e s t h e o n e s h o w n i n F i g u r e 3 . 2 .  

I f w e c o n t i n u e t h e p r o c e s s a n d i n s e r t t h e w o r d s \  m i c r o - c o m p u t e r  " , 

\  d e v i c e   " a n d \  p u m p  " , t h e n u m b e r o f a l t e r n a t i v e s g r e a t l y i n c r e a s e s . T h e  

s t r o n g e s t i n t e r p r e t a t i o n s a r e g i v e n i n F i g u r e 3 . 3 .  

U n d e r t h e a s s u m p t i o n t h a t t h e t e x t i s   c o h e s i v e   , w e d e n e t h e b e s t i n -  

t e r p r e t a t i o n a s t h e o n e w i t h t h e m o s t c o n n e c t i o n s ( e d g e s i n t h e g r a p h ) .  

Page 36: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 36/95

3 . 5 . T H E D Y N A M I C C H A I N I N G A L G O R I T H M   2 7 

{Mr.,mister}Mr.

Person {person,individual,someone, ... }

Machine{machine }

1

{Mr.,mister}Mr.

Person {person}

Machine {machine ... machine }2 5

{Mr.,mister}Mr.

Person {person,individual,someone, ... }

Machine{machine ... machine }

2 5

{Mr.,mister}Mr.

Person{person}

Machine 1{machine }

F i g u r e 3 . 2 : S t e p 2 : I n t e r p r e t a t i o n s 1 { 4 .  

Person

Machine

Mr. {Mr.,mister}

{person,

individual,

someone,... }

{machine1

}

computer

Device

Pump

{PC, micro-

{device2

}

{pump3

}

computer, .. }Micro-

computerMicro-

Device

Pump

{PC, micro-

{device2

}

{pump3

}

computer, .. }Machine

{machine

Mr.

{Mr.,mister}

Person {person,individual,someone,... }

4}

F i g u r e 3 . 3 : S t e p 3 : I n t e r p r e t a t i o n s 1 , 2 .  

Page 37: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 37/95

2 8  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

I n t h i s c a s e , t h e s e c o n d i n t e r p r e t a t i o n a t t h e e n d o f S t e p 3 i s s e l e c t e d ,  

w h i c h p r e d i c t s t h e r i g h t s e n s e f o r \  m a c h i n e   " . W e d e n e t h e   s c o r e   o f 

a n i n t e r p r e t a t i o n a s t h e s u m o f i t s   c h a i n s c o r e s  . T h e s c o r e o f a c h a i n  

i s d e t e r m i n e d b y t h e n u m b e r a n d w e i g h t o f t h e r e l a t i o n s b e t w e e n c h a i n  

m e m b e r s . E x p e r i m e n t a l l y , w e x e d t h e w e i g h t o f r e i t e r a t i o n a n d s y n -  

o n y m t o 1 0 , o f a n t o n y m t o 7 , a n d o f h y p e r o n y m a n d h o l o n y m t o 4 .  

O u r a l g o r i t h m d e v e l o p s a l l p o s s i b l e i n t e r p r e t a t i o n s , m a i n t a i n i n g e a c h  

o n e w i t h o u t s e l f c o n t r a d i c t i o n . W h e n t h e n u m b e r o f p o s s i b l e i n t e r -  

p r e t a t i o n s i s l a r g e r t h a n a c e r t a i n t h r e s h o l d , w e p r u n e t h e w e a k i n t e r -  

p r e t a t i o n s a c c o r d i n g t o t h i s c r i t e r i a . I n t h e e n d , w e s e l e c t f r o m e a c h  

c o m p o n e n t t h e s t r o n g e s t i n t e r p r e t a t i o n .  

T o c o n c l u d e , t h e m a i n d i e r e n c e b e t w e e n o u r a l g o r i t h m a n d t h e  

H i r s t & S t - O n g e a l g o r i t h m i s t h a t i t i n t r o d u c e s a n o n - g r e e d y d i s a m -  

b i g u a t i o n h e u r i s t i c t o s e l e c t t h e a p p r o p r i a t e s e n s e s o f c h a i n m e m b e r s ,  

i n a d d i t i o n t o t h e r e l a t e d n e s s c r i t e r i o n f o r m e m b e r s h i p t o a c h a i n .  

3 . 6 D y n a m i c C h a i n i n g A l g o r i t h m D e s c r i p -  

t i o n  

H a v i n g e x p l a i n e d t h e i n t u i t i v e m o t i v a t i o n b e h i n d o u r a p p r o a c h , w e  

p r e s e n t a m o r e d e t a i l e d d e s c r i p t i o n o f t h e D y n a m i c C h a i n i n g A l g o r i t h m  

( D C A ) i n t h i s s e c t i o n .  

3 . 6 . 1 G e n e r a l E x p l a n a t i o n  

T h e D C A a l g o r i t h m i s d y n a m i c : t h e d e c i s i o n a b o u t t h e r i g h t s e n s e o f a  

w o r d i s d e l a y e d , t h e r e f o r e , s e v e r a l e x c l u s i v e c h a i n s c o e x i s t a t t h e s a m e  

t i m e . F o r e x a m p l e , w h e n p r o c e s s i n g t h e s e q u e n c e o f n o u n s \  w a t e r   " , 

\  o c e a n   " , t h e a l g o r i t h m c r e a t e s t w o a l t e r n a t i v e c o m b i n a t i o n s :  

1 . A c h a i n t h a t c o n t a i n s t h e w o r d \  w a t e r   " i n t h e s e n s e \ b o d y o f  

w a t e r " a n d \  o c e a n   " w i t h t h e s a m e s e n s e ;  

2 . t w o s e p a r a t e c h a i n s o f \  w a t e r   " a n d \  o c e a n   " , e a c h w i t h a l l p o s s i b l e  

s e n s e s o f t h e s e w o r d s , e x c l u d i n g c o n n e c t e d s e n s e s ( s e n s e s t h a t a r e  

c h o s e n f o r t h e r s t a l t e r n a t i v e ) .  

Page 38: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 38/95

Page 39: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 39/95

3 0  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

l e x i c a l - c h a i n   A s e t o f c h a i n e n t r i e s .  

i n t e r p r e t a t i o n   a s e t o f c h a i n s t h a t c a n a l l c o - o c c u r w i t h o u t c o n t r a -  

d i c t i o n s ;  

c o m p o n e n t   a s e t o f i n t e r p r e t a t i o n s t h a t a r e m u t u a l l y e x c l u s i v e .  

3 . 6 . 3 F u n c t i o n s  

W e d e s c r i b e o u r a l g o r i t h m f u n c t i o n b y f u n c t i o n , f r o m t h e t o p - l e v e l o n e  

(  b u i l d - c h a i n s  ) d o w n .  

b u i l d - c h a i n s ( t e x t )  

1 . S e g m e n t t h e t e x t u s i n g H e a r s t ' s a l g o r i t h m .  

2 . F o r e a c h s e g m e n t c a l l   b u i l d - s e g m e n t - c h a i n s ( s e g m e n t )   t o g e t a l i s t  

o f c h a i n s f o r t h i s s e g m e n t (  s e g m e n t s - c h a i n s   h o l d s a l i s t o f t h e  

r e s u l t s )  

3 . C a l l   m e r g e - s e g m e n t - c h a i n s ( s e g m e n t s - c h a i n s )   t o m e r g e a l l s e g m e n t  

c h a i n l i s t s .  

b u i l d - s e g m e n t - c h a i n s ( s e g m e n t )  

1 . I n i t i a l i z e   c o m p o n e n t s   t o b e a n e m p t y l i s t o f c o m p o n e n t s .  

2 . F i n d c o l l o c a t i o n s i n t h e t e x t (  e . g .  \  p e r s o n a l - c o m p u t e r   " ) . W e i d e n -  

t i f y c o l l o c a t i o n b y c h e c k i n g p a i r s o f s e q u e n t i a l n o u n s a s a s i n g l e  

t o k e n i n W o r d N e t .  

3 . T o k e n i z a t i o n | s e p a r a t e w o r d s t o t o k e n s .  

4 . T a g g i n g | t a g e a c h w o r d w i t h i t s c o r r e s p o n d i n g p a r t - o f - s p e e c h ,  

a n d i t s n o r m a l i z e d f o r m .  

5 . S e l e c t o n l y s i m p l e n o u n s a n d n o u n c o m p o u n d h e a d s u s i n g a s h a l -  

l o w p a r s e r .  

6 . B u i l d C h a i n s | f o r e a c h w o r d   W  : 

N o t e t h a t t h i s l i s t o f c h a i n s i s n o t c o n s i d e r e d a n i n t e r p r e t a t i o n , i n t e r p r e t a t i o n s  

a r e u s e d o n l y i n s i d e t h e   b u i l d - s e g m e n t - c h a i n s   f u n c t i o n .

Page 40: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 40/95

3 . 6 . D Y N A M I C C H A I N I N G A L G O R I T H M D E S C R I P T I O N   3 1 

i f  W  i s a r e p e t i t i o n o f a p r e v i o u s o c c u r r e n c e t h e n  

A d d  W  w i t h t h e s a m e s e n s e t o t h e s a m e c h a i n  

e l s e b e g i n  

r e l a t e d - c o m p o n e n t s   : = 

c o m p o n e n t s - r e l a t e d - t o - w o r d ( c o m p o n e n t s , W )   * 1 * 

i f  r e l a t e d - c o m p o n e n t s   i s e m p t y t h e n b e g i n  

c r e a t e a n e w c o m p o n e n t w i t h o n l y   W 

a d d i t t o   c o m p o n e n t s  

e l s e b e g i n  

r e m o v e   r e l a t e d - c o m p o n e n t s   f r o m   c o m p o n e n t s  

U  : =  m e r g e - c o m p o n e n t s ( r e l a t e d - c o m p o n e n t s )   * 2 * 

f o r e a c h i n t e r p r e t a t i o n   i n  U  d o 

r e p l a c e   w i t h   s p l i t - i n t e r p r e t a t i o n ( W , I )   i n  U  * 3 * 

f r o m a l l n e w i n t e r p r e t a t i o n s i n   U  : 

c h o o s e   m a x - a c t i v e - i n t e r p r e t a t i o n s  

w i t h h i g h e s t   i n t e r p r e t a t i o n - s c o r e  

a n d b u i l d a n e w c o m p o n e n t f r o m t h e m  

a d d t h i s c o m p o n e n t t o   c o m p o n e n t s  

e n d 

e n d 

7 . F r o m e a c h c o m p o n e n t i n   c o m p o n e n t s   c h o o s e t h e m a x i m a l i n t e r -  

p r e t a t i o n ( u s i n g   i n t e r p r e t a t i o n - s c o r e  )

8 . R e t u r n t h e l i s t o f c h a i n s i n a l l o f t h e s e m a x i m a l i n t e r p r e t a t i o n s  

(  i . e .   a t t e n t h e a b o v e r e s u l t s ) .  

N o t e s  

* 1 *  r e l a t e d - c o m p o n e n t s   i s n o w a l i s t o f c o m p o n e n t s f r o m   c o m p o n e n t s  

w h i c h c o n t a i n i n t e r p r e t a t i o n s t h a t a r e r e l a t e d t o t h e w o r d   W 

* 2 *  U  i s n o w t h e C a r t e s i a n p r o d u c t o f a l l i n t e r p r e t a t i o n s t h a t a r e i n  

r e l a t e d - c o m p o n e n t s  . F o r e x a m p l e , i f   r e l a t e d - c o m p o n e n t s   h o l d s  

X  =  f  (  h  1  ;  2  i  )  ;  (  h  1  i  ;  h  2  i  ) ;  (  h  3  ;  4  i  )  ;  (  h  3  i  ;  h  4  i  ) g 

t h e n t h e r e s u l t o f   m e r g e - c o m p o n e n t s (  X  )  i s 

(  h  1  ;  2  i  ;  h  3  ;  4  i  )  ;  (  h  1  ;  2  i  ;  h  3  i  ;  h  4  i  )  ;  (  h  1  i  ;  h  2  i  ;  h  3  ;  4  i  )  ;  (  h  1  i  ;  h  2  i  ;  h  3  i  ;  h  4  i  )

Page 41: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 41/95

3 2  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

W h e r e i n t h i s e x a m p l e , \  f g  " n o t a t e s a l i s t o f c o m p o n e n t s , \ ] " a  

c o m p o n e n t , \ ( ) " a n i n t e r p r e t a t i o n , \  h i  " a c h a i n , a n d a n u m b e r  

c o r r e s p o n d s t o a w o r d .  

* 3 *  s p l i t - i n t e r p r e t a t i o n ( W , I )   i s t h e r e s u l t o f e m b e d d i n g   W  i n t o t h e i n -  

t e r p r e t a t i o n   , i n a l l p o s s i b l e w a y s ( i n t o e x i s t i n g c h a i n s i f p o s s i b l e ,  

o r t o a n e w c h a i n ) . T h e r e s u l t s a r e l i s t s o f n e w i n t e r p r e t a t i o n s |  

c o m p o n e n t s , s o t h e y a r e a l l a p p e n d e d t o g e t h e r .  

c o m p o n e n t s - r e l a t e d - t o - w o r d ( c o m p o n e n t s , w o r d )  

R e t u r n a l l c o m p o n e n t s i n   c o m p o n e n t s   t h a t a r e r e l a t e d t o   w o r d   , w h e r e  

\ r e l a t e d " m e a n s t h a t   w o r d   i s a s y n o n y m , a n t o n y m o r m e r o n y m o f a  

w o r d i n s o m e c h a i n i n s o m e i n t e r p r e t a t i o n i n t h e c o m p o n e n t . A n o t h e r  

p o s s i b i l i t y i s f o r t h e w o r d t o b e a e i t h e r a n o s p r i n g o r a l e v e l 4 s i b l i n g  

( h a v e a c o m m o n p a r e n t w i t h u p t o p a t h o f l e n g t h 4 b e t w e e n t h e m ) o f  

a n o t h e r w o r d i n t h e W o r d N e t h y p e r o n y m g r a p h .  

m e r g e - c o m p o n e n t s ( c o m p o n e n t s )  

G e t t h e c r o s s - p r o d u c t o f   c o m p o n e n t s  . I n o t h e r w o r d s , c r e a t e a l l p o s s i b l e  

i n t e r p r e t a t i o n s t h a t a r e a r e s u l t o f c o l l e c t i n g o n e i n t e r p r e t a t i o n f r o m  

e a c h c o m p o n e n t i n   c o m p o n e n t s  , a n d m e r g e t h e m a l l t o g e t t h e r e s u l t i n g  

c o m p o n e n t . S e e e x a m p l e i n r e m a r k * 2 * a b o v e .  

s p l i t - i n t e r p r e t a t i o n ( w o r d , i n t e r p )  

R e t u r n a c o m p o n e n t ( a l i s t o f i n t e r p r e t a t i o n s ) t h a t c o n s i s t s o f :  

  T h e g i v e n   i n t e r p   w i t h a n e w c h a i n h o l d i n g   w o r d   b y i t s e l f .  

  T h e l i s t o f i n t e r p r e t a t i o n t h a t i s a c h i e v e d b y a d d i n g   w o r d   t o e a c h  

c h a i n i n   i n t e r p   | o n l y i f i t i s p o s s i b l e t o a d d i t t o t h a t c h a i n .  

m a x - a c t i v e - i n t e r p r e t a t i o n s  

T h i s i s a c o n s t a n t | t h e n u m b e r o f i n t e r p r e t a t i o n s t h a t c a n c o m p e t e  

( c o - o c c u r t o g e t h e r ) . I t i s c u r r e n t l y t o 1 0 .  

Page 42: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 42/95

3 . 6 . D Y N A M I C C H A I N I N G A L G O R I T H M D E S C R I P T I O N   3 3 

i n t e r p r e t a t i o n - s c o r e ( i n t e r p )  

R e t u r n t h e s u m o f c h a i n s c o r e s o f a l l c h a i n s i n   i n t e r p   . T h e s c o r e o f a  

c h a i n   C  i n  i n t e r p   i s c a l c u l a t e d b y t h e s u m o f :  

  f o r e a c h t w o w o r d s   w 

,  w 

i n  C  r e t u r n  

1 0  i f t h e y a r e s y n o n y m s ;  

8  i f t h e y a r e o s p r i n g s ;  

7  i f t h e y a r e a n t o n y m s ;  

4  i f t h e y a r e m e r o n y m s ;  

2  i f t h e y a r e s i b l i n g s .  

m e r g e - s e g m e n t - c h a i n s ( s e g m e n t s - c h a i n s )  

M e r g e t w o c h a i n s i f t h e y c o n t a i n a t l e a s t o n e e q u a l s e n s e . R e t u r n a l i s t  

c o n s i s t i n g o f t h e s e c h a i n s .  

3 . 6 . 4 R u n n i n g e x a m p l e  

H e r e w e g i v e a r u n n i n g e x a m p l e o f t h e   b u i l d - s e g m e n t - c h a i n s   f u n c t i o n .  

S u p p o s e a s e g m e n t c o n s i s t s o f t h e w o r d s \  x 1  " , \  x 2  " , \  x 3  " , \  x 4  "

T h e w o r d \  x 1  " h a s o n e s e n s e , \  x 2  " a n d \  x 3  " h a v e t w o s e n s e s , a n d a r e  

c o n n e c t e d t o e a c h o t h e r b y t h e r s t o f t h e m ; \  x 4  " h a s t h r e e s e n s e s |  

i t i s c o n n e c t e d t o \  x 1  " b y t h e r s t , a n d t o t h e r s t s e n s e o f \  x 3  " b y 

t h e s e c o n d .  

A f t e r p r o c e s s i n g \  x 1  " ,  U  i s e m p t y , s o a n e w c o m p o n e n t   A  w i t h o n e  

i n t e r p r e t a t i o n w i t h t h e o n e w o r d c h a i n \  x 1  " i s c r e a t e d | (  h  x  1  i  )

A f t e r p r o c e s s i n g \  x 2  " ,  U  i s a l s o e m p t y ( t h e t w o w o r d s a r e n o t c o n -  

n e c t e d ) , a n d \  x 2  " i s c o n t a i n e d i n a n e w c o m p o n e n t , s o w e h a v e t w o  

c o m p o n e n t s  :  f  (  h  x  1  i  ) ;  (  h  x  2  i  ) g 

A f t e r g e t t i n g \  x 3  " ,  U  c o n t a i n s o n e c o m p o n e n t (  h  x  2  i  ) ] . T h e i n t e r -  

p r e t a t i o n i n t h i s c o m p o n e n t i s n o w s p l i t t o t w o : o n e t h a t c o n t a i n s a  

c h a i n w i t h \  x 2  " a n d \  x 3  " , a n d a n o t h e r c o n t a i n s a s i n g l e w o r d c h a i n  

w i t h \  x 2  " a n d a s i n g l e w o r d c h a i n \  x 3  " . T h e s e t w o i n t e r p r e t a t i o n s  

c r e a t e s a n e w c o m p o n e n t , t h a t r e p l a c e s t h e o l d o n e , s o n o w w e h a v e :  

f  (  h  x  1  i  ) ;  (  h  x  2  ; x  3  i  )  ;  (  h  x  2  i  ;  h  x  3  i  ) g 

Page 43: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 43/95

3 4  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

N o w t h e r e a r e t w o c o m p o n e n t s . W h e n \  x 4  " i s p r o c e s s e d , a l l c o m -  

p o n e n t s a r e r e l a t e d t o i t . N o w ,   U  c o n t a i n s t h e C a r t e s i a n p r o d u c t o f  

b o t h c o m p o n e n t s , w h i c h i s :  

(  h  x  1  i  ;  h  x  2  ; x  3  i  )  ;  (  h  x  1  i  ;  h  x  2  i  ;  h  x  3  i  )

B o t h i n t e r p r e t a t i o n s a r e s p l i t a c c o r d i n g t o t h e d i e r e n t s e n s e s o f  

\  x 4  " . T h e r s t i n t e r p r e t a t i o n i s s p l i t t o  

(  h  x  1  ; x  4  i  ;  h  x  2  ; x  3  i  ) 

(  h  x  1  i  ;  h  x  2  ; x  3  ; x  4  i  ) 

(  h  x  1  i  ;  h  x  2  ; x  3  ; x  4  i  ;  h  x  4  i  ) 

a n d t h e s e c o n d t o  

(  h  x  1  ; x  4  i  ;  h  x  2  i  ;  h  x  3  i  ) 

(  h  x  1  i  ;  h  x  2  i  ;  h  x  3  ; x  4  i  ) 

(  h  x  1  i  ;  h  x  2  i  ;  h  x  3  i  ;  h  x  4  i  ) 

S o t h e n e w v a l u e o f   c o m p o n e n t s   i s o n e c o m p o n e n t w h i c h i s c o m p o s e d  

o f t h e a b o v e s i x i n t e r p r e t a t i o n s .  

I f t h e r e a r e o n l y \  x 1  " , \  x 2  " , \  x 3  " a n d \  x 4  " i n t h e p a r a g r a p h , t h e n  

a c c o r d i n g t o t h e h i g h e s t v a l u e g i v e n b y t h e s c o r e f u n c t i o n | o n e i n t e r -  

p r e t a t i o n i s t o b e c h o s e n .  

3 . 6 . 5 S c o r i n g C h a i n s  

N o t a l l o f t h e a l g o r i t h m ' s o u t p u t c h a i n s r e p r e s e n t t o p i c c o n c e p t s o f t h e  

t e x t , t h e r e f o r e o n e m u s t r s t i d e n t i f y t h e s t r o n g e s t c h a i n s a m o n g s t .  

T h e r e i s n o f o r m a l w a y t o e v a l u a t e c h a i n s t r e n g t h , w e t h e r e f o r e r e l y  

o n a n e m p i r i c a l m e t h o d o l o g y . W e h a v e d e v e l o p e d a n e n v i r o n m e n t t o  

c o m p u t e a n d g r a p h i c a l l y v i s u a l i z e l e x i c a l c h a i n s t o e v a l u a t e e x p e r i m e n -  

t a l l y h o w t h e y c a p t u r e t h e m a i n t o p i c s o f t h e t e x t s . F i g u r e 3 . 4 s h o w s  

h o w l e x i c a l c h a i n s a r e v i s u a l i z e d t o h e l p h u m a n t e s t e r s e v a l u a t e t h e i r  

i m p o r t a n c e .  

W e h a v e c o l l e c t e d d a t a f o r a s e t o f 3 0 t e x t s e x t r a c t e d f r o m p o p -  

u l a r m a g a z i n e s ( \ T h e E c o n o m i s t " a n d \ S c i e n t i c A m e r i c a n " ) , a l l a r e  

o f p o p u l a r s c i e n c e g e n r e . F o r e a c h t e x t , w e m a n u a l l y r a n k e d c h a i n s  

i n t e r m s o f r e l e v a n c e t o t h e m a i n t o p i c . W e t h e n c o m p u t e d d i e r e n t  

f o r m a l m e a s u r e s o n t h e c h a i n s , i n c l u d i n g : c h a i n l e n g t h , d i s t r i b u t i o n i n  

Page 44: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 44/95

3 . 6 . D Y N A M I C C H A I N I N G A L G O R I T H M D E S C R I P T I O N   3 5 

technique

knowledge

information

datum

model

area

condition

F i g u r e 3 . 4 : V i s u a l r e p r e s e n t a t i o n o f l e x i c a l c h a i n s .  

t h e t e x t , t e x t s p a n c o v e r e d b y t h e c h a i n , d e n s i t y , g r a p h t o p o l o g y ( d i -  

a m e t e r o f t h e w o r d s g r a p h t h r o u g h W o r d N e t r e l a t i o n s ) a n d n u m b e r o f  

r e p e t i t i o n s . T h e r e s u l t s o n o u r d a t a s e t i n d i c a t e t h a t o n l y t h e f o l l o w i n g  

p a r a m e t e r s a r e g o o d p r e d i c t o r s o f a c h a i n s t r e n g t h :  

L e n g t h :   T h e n u m b e r o f o c c u r r e n c e s o f c h a i n m e m b e r s .  

H o m o g e n e i t y i n d e x :   O n e m i n u s t h e n u m b e r o f d i s t i n c t o c c u r r e n c e s  

d i v i d e d b y t h e l e n g t h .  

W e d e s i g n e d a s c o r e f u n c t i o n f o r c h a i n s a s :  

S c o r e ( C h a i n ) = L e n g t h     H o m o g e n e i t y  

Page 45: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 45/95

3 6  C H A P T E R 3 . C O M P U T I N G L E X I C A L C H A I N S  

W h e n r a n k i n g c h a i n s a c c o r d i n g t o t h e i r s c o r e , w e e s t i m a t e t h a t s t r o n g  

c h a i n s a r e t h o s e w h i c h s a t i s f y o u r \ S t r e n g t h C r i t e r i o n " :  

S c o r e ( C h a i n )   >  A v e r a g e ( S c o r e s ) + 2     S t a n d a r d D e v i a t i o n ( S c o r e s )  

T h e s e a r e p r e l i m i n a r y r e s u l t s b u t t h e y a r e s t r i k i n g l y c o n r m e d b y  

o u r e x p e r i e n c e o n 3 0 e x t e n s i v e l y a n a l y z e d t e x t s . W e h a v e e x p e r i m e n t e d  

w i t h d i e r e n t n o r m a l i z a t i o n m e t h o d s f o r t h e s c o r e f u n c t i o n , b u t t h e y  

d o n o t s e e m t o i m p r o v e t h e s e r e s u l t s .  

T h e a v e r a g e n u m b e r o f s t r o n g c h a i n s s e l e c t e d b y t h i s m e t h o d i s 5  

f o r t e x t s o f 1 0 5 5 w o r d s o n a v e r a g e ( m i n i m u m 4 7 4 , m a x i m u m 3 1 9 8 ) ,  

w h e r e 3 2 c h a i n s w e r e o r i g i n a l l y g e n e r a t e d o n a v e r a g e .  

3 . 7 S u m m a r y : B u i l d i n g L e x i c a l C h a i n s  

I n t h i s c h a p t e r w e h a v e p r e s e n t e d t h e D C A a l g o r i t h m f o r b u i l d i n g  

l e x i c a l c h a i n s o n a n a r b i t r a r y t e x t , r e l y i n g o n W o r d N e t a s a l e x i c a l  

d a t a b a s e . T h e D C A i s c h a r a c t e r i z e d b y t h e f o l l o w i n g d e s i g n d e c i s i o n s :  

  K n o w l e d g e s o u r c e : W o r d N e t a n d s y s t e m a t i c r e l a t i o n s o n l y .  

  R e l a t e d n e s s c o n d i t i o n : c o n s t r a i n t s o n t h e p a t h l e n g t h a c c o r d i n g  

t o t h e t y p e o f e d g e s .  

  W o r d d i s t r i b u t i o n : i f t w o w o r d s a r e u s e d i n t h e d e s c r i p t i o n o f t h e  

s a m e s u b t o p i c , t h e n t h e c h a n c e t h a t t h e y a r e r e l a t e d i n c r e a s e s .  

  C a n d i d a t e s e l e c t i o n : w e s e l e c t n o u n s m a r k e d b y B r i l l ' s p a r t - o f -  

s p e e c h t a g g e r , t o g e t h e r w i t h n o u n c o m p o u n d s f o u n d i n W o r d N e t  

a n d n o u n c o m p o u n d s i d e n t i e d b y a s h a l l o w p a r s e r .  

  C l u s t e r i n g s t r a t e g y : o u r a l g o r i t h m d e n e s a d y n a m i c , n o n - g r e e d y  

a p p r o a c h t o t h e d e n i t i o n o f w h i c h a c t i v e c h a i n c a n r e c e i v e a  

c a n d i d a t e w o r d .  

W e e v a l u a t e m o s t o f t h e s e d e s i g n d e c i s i o n s i n t h e f o l l o w i n g c h a p t e r ,  

d e n i n g a n i n t r i n s i c e v a l u a t i o n s t r a t e g y f o r t h e l e x i c a l c h a i n e r r s t .  

Page 46: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 46/95

C h a p t e r 4  

E v a l u a t i n g t h e L e x i c a l C h a i n e r  

4 . 1 E v a l u a t i n g M e t h o d s  

4 . 1 . 1 E v a l u a t i o n F r a m e w o r k  

O u r o b j e c t i v e i s t o e v a l u a t e t h e q u a l i t y o f s e m a n t i c c l u s t e r i n g t h a t i s  

p r o d u c e d b y t h e D C A a l g o r i t h m . U s i n g t h e t e r m s o f K a r e n S p a r c k  

J o n e s 1 5 ] t h i s i s a t a s k - m o t i v a t e d n o n - o b s e r v a b l e , i n t e r n a l t o t h e o r y ]

e v a l u a t i o n , w i t h i n t r i n s i c o r i e n t a t i o n . C h a i n q u a l i t y c a n n o t b e e v a l u -  

a t e d d i r e c t l y . I n s t e a d , w e e v a l u a t e t h e i m p a c t o f o b s e r v a b l e p a r a m e t e r s  

o n c h a i n s .  

E v a l u a t i o n D e s i g n  

  P e r f o r m a n c e F a c t o r s  

S y s t e m p a r a m e t e r s :  

{  D y n a m i c v s . g r e e d y  

{  T e x t d i v i s i o n  

{  C a n d i d a t e w o r d s  

{  N u m b e r o f c o m p e t i t i v e a l t e r n a t i v e s .  

E n v i r o n m e n t v a r i a b l e s :  

{  C o h e r e n c e / c o h e s i o n p r o p e r t y o f t e x t  

3 7 

Page 47: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 47/95

Page 48: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 48/95

4 . 1 . E V A L U A T I N G M E T H O D S   3 9 

4 . 1 . 2 T o p i c I d e n t i c a t i o n M e a s u r e  

T h e g o a l o f t h i s m e a s u r e i s t o i d e n t i f y t h a t o u r d i s a m b i g u a t i o n d o e s  

n o t h a v e a n i m p a c t o n t h e s e l e c t i o n o f i m p o r t a n t w o r d s . O u r o p e r a t i v e  

d e n i t i o n o f \ i m p o r t a n t w o r d s " a r e w o r d s t h a t b e l o n g t o c h a i n s w h o s e  

s c o r e a r e g r e a t e r t h a n t h e c u t o s c o r e . T h e   a p p l i c a t i o n m e t h o d   u s e d i s :  

1 . B u i l d c h a i n s u s i n g a d i s a m b i g u a t e d c o r p u s |   i d e a l c h a i n s  

2 . B u i l d c h a i n s u s i n g t h e a l g o r i t h m b e i n g c h e c k e d |   o u t p u t c h a i n s  

3 . F i n d i m p o r t a n t w o r d s d e r i v e d f r o m   i d e a l c h a i n s   a n d  o u t p u t c h a i -  

n s  . C a l c u l a t e t h e p r e c i s i o n a n d r e c a l l b e t w e e n t h e s e t w o s e t s .  

R e s u l t s :   T h e r e s u l t s , p r e s e n t e d i n t h e f o l l o w i n g t a b l e , s h o w h i g h  

a g r e e m e n t i n i d e n t i c a t i o n o f i m p o r t a n t t e r m s .  

P r e c i s i o n R e c a l l  

D C A 9 2 7 2  

W e c a n c o n c l u d e t h a t o u r d i s a m b i g u a t i o n s t r a t e g y d o e s n o t h a v e  

a n i m p a c t o n t h e s e l e c t i o n o f i m p o r t a n t w o r d s .  

4 . 1 . 3 W o r d S e n s e D i s a m b i g u a t i o n R a t i o  

I n t h i s s e c t i o n w e d e s c r i b e o u r a p p l i c a t i o n m e t h o d s f o r m e a s u r i n g w o r d  

s e n s e d i s a m b i g u a t i o n .  

M e t r i c s f o r D i s a m b i g u a t i o n  

T h e t r a d i t i o n a l d i s a m b i g u a t i o n m e t r i c i s a z e r o - o n e f u n c t i o n | 1 f o r  

e q u a l s e n s e s a n d 0 o t h e r w i s e .  

T h i s m e t r i c i s   s t r i c t   i n t h e s e n s e t h a t i t d o e s n o t c o n s i d e r s e m a n t i c  

d i s t a n c e b e t w e e n d i s t i n c t s e n s e s . I n a d d i t i o n , w e u s e a w e a k e r m e t r i c s  

t h a t c o n s i d e r s t h e f a c t t h a t a w o r d i s d i s a m b i g u a t e d c o r r e c t l y i f i t s s e n s e  

i s \ r e l a t e d " t o t h e r i g h t s e n s e . T h e o p e r a t i o n a l d e n i t i o n o f r e l a t e d n e s s  

i s t h e s a m e a s t h e o n e u s e d i n t h e c h a i n i n g a l g o r i t h m ( s e e p a g e 2 1 ) .  

H o w c a n t h i s w e a k m e t r i c s c o n t r i b u t e ?  

Page 49: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 49/95

4 0  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

1 . W e a k m e t r i c s a r e m o r e a p p r o p r i a t e f o r e v a l u a t i o n o f t h e c h a i n -  

i n g p r o c e s s , b e c a u s e w e a r e s a t i s e d b y a n y s e n s e t h a t r e l a t e s a  

w o r d t o i t s c o r r e c t c l u s t e r . I f t h e r e a r e s e v e r a l s u c h s e n s e s , t h e n  

c h o o s i n g b e t w e e n t h e m d o e s n o t i n u e n c e t h e r e s u l t i n g c h a i n s .  

2 . T h e d i e r e n c e b e t w e e n t h e e v a l u a t i o n s b a s e d o n t h e s e m e t r i c s  

c a n h e l p t o c h a r a c t e r i z e e r r o r s i n t h e d i s a m b i g u a t i o n m e t h o d s .  

I n o t h e r w o r d s , t o s e e h o w \ h a r d " i s a n e r r o r .  

S e n s e R e d u c t i o n v s . S e n s e D i s a m b i g u a t i o n  

A c c o r d i n g t o o u r d i s a m b i g u a t i o n s t r a t e g y , a w o r d c a n b e l o n g t o t w o  

d i e r e n t c h a i n s . I n o t h e r w o r d s , t h e a l g o r i t h m d o e s n o t m a k e a n a l  

d i s a m b i g u a t i o n d e c i s i o n , b u t o n l y r e d u c e s t h e n u m b e r o f a c c e p t a b l e  

s e n s e s . F o r e x a m p l e , a l l o c c u r r e n c e s o f a p a r t i c u l a r w o r d i n s o m e p a r a -  

g r a p h s c a n b e d i s a m b i g u a t e d t o s e n s e o n e , a n d i n o t h e r p a r a g r a p h s  

t o s e n s e t w o . F r o m 4 . 5 p o s s i b l e s e n s e s o n t h e a v e r a g e f o r t h e c a n d i -  

d a t e w o r d s , t h e a l g o r i t h m r e d u c e s s e n s e s t o 1 . 9 . T h e r e f o r e , o n e o f t h e  

m e a s u r e s o f d i s a m b i g u a t i o n i s s e n s e r e d u c t i o n .  

A n o t h e r p o s s i b i l i t y i s t o e v a l u a t e c o m p l e t e d i s a m b i g u a t i o n : f o r e a c h  

w o r d t h a t h a s m o r e t h a n o n e s e n s e , c a l c u l a t e h o w m a n y t i m e s t h e r i g h t  

s e n s e i s s e l e c t e d . F o r e x a m p l e , i f f r o m 1 5 o c c u r r e n c e s o f t h e w o r d i n  

t h e t e x t , 9 o c c u r r e n c e s w e r e d i s a m b i g u a t e d t o t h e r i g h t s e n s e a n d 6  

o c c u r r e n c e s t o t h e w r o n g o n e , t h e n t h e d i s a m b i g u a t i o n o f t h e w o r d  

i s 0 . 6 .  

T h i s t r a d i t i o n a l d i s a m b i g u a t i o n m e a s u r e i s n o t v e r y a c c u r a t e i n o u r  

c a s e | w e u s e r e d u c t i o n t o m o r e t h a n o n e s e n s e , a n d t h i s s t a n d s a g a i n s t  

t h e t r a d i t i o n a l a s s u m p t i o n t h a t a w o r d h a s o n l y o n e s e n s e a l l o v e r a  

t e x t  

. W e a r e i n t e r e s t e d i n n d i n g s o m e t h i n g t h a t i s b e t w e e n t h e r s t  

a n d t h e s e c o n d m e a s u r e s | a m e t h o d t h a t r e d u c e s s e n s e s e t s t o s i n g l e  

s e n s e s . I n t h e c a s e t h a t o u r a l g o r i t h m d i d n o t c h o o s e o n e , w e c h o o s e  

t h e s e n s e o f t h e w o r d t h a t c o n n e c t s i t t o t h e s t r o n g e r c h a i n f o r t h e  

p u r p o s e o f e v a l u a t i o n .  

T o d e m o n s t r a t e t h e f a c t t h a t m u l t i - s e n s e w o r d s a r e r a r e , w e s a w t h a t i n o u r  

d i s a m b i g u a t e d c o r p u s o n l y 4 . 5 % o f a l l n o u n s h a v e 2 s e n s e s a n d 0 . 5 % h a v e 3 s e n s e s  

i n t h e s a m e t e x t .

Page 50: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 50/95

4 . 2 . I N F L U E N C E O F P E R F O R M A N C E F A C T O R S   4 1 

F o r e x a m p l e , s u p p o s e a w o r d   w  a p p e a r s t e n t i m e s i n a t e x t , s e v e n  

o c c u r r e n c e s i n o n e c h a i n   C 

, a n d t h r e e i n a n o t h e r c h a i n ,   C 

| a n d  

s u p p o s e t h a t t h e   C 

s e n s e i s c o r r e c t . A c c o r d i n g t o t h e r s t m e a s u r e ,   w 

w a s 1 0 0 % c o r r e c t l y d i s a m b i g u a t e d ; a c c o r d i n g t o t h e s e c o n d i t i s 7 0 %  

c o r r e c t l y d i s a m b i g u a t e d ; a n d w i t h t h e t h i r d m e a s u r e i t i s 1 0 0 % i f   C 

i s 

s t r o n g e r a n d 0 % i f n o t .  

4 . 2 I n u e n c e o f P e r f o r m a n c e F a c t o r s  

I n t h i s s e c t i o n w e c o n s i d e r d i e r e n t f a c t o r s t h a t i n u e n c e c h a i n i n g :  

s y s t e m p a r a m e t e r s a n d e n v i r o n m e n t v a r i a b l e s .  

4 . 2 . 1 I n u e n c e o f A l g o r i t h m P a r a m e t e r s  

W e r s t c h e c k o u r p r i m a r y a s s u m p t i o n s a b o u t t h e v a l u e s o f t h e a l -  

g o r i t h m p a r a m e t e r s :   c a n d i d a t e t e r m s  ,  s e g m e n t a t i o n   a n d  d y n a m i c v s .  

g r e e d y s t r a t e g y  , u s i n g d i s a m b i g u a t i o n r a t i o a s a n e v a l u a t i o n m e a s u r e .  

C a n d i d a t e T e r m s  

W e r s t e v a l u a t e t h e i n u e n c e o f c a n d i d a t e t e r m s . O u r r e a s o n t o u s e  

n o u n c o m p o u n d s i n s t e a d o f n o u n s i s b a s e d o n t h e a s s u m p t i o n t h a t t h e y  

r e p r e s e n t b e t t e r t o p i c a l i t y ( c o n c e p t ) t h a n s i n g l e n o u n s .  

W e c o m p a r e t h e i n u e n c e o f a d d i t i o n o f n o u n c o m p o u n d s t o c a n d i -  

d a t e w o r d s i n s t e a d o f s i n g l e n o u n s . T h e r e s t o f t h e p a r a m e t e r s a r e s e t  

i n t h e f o l l o w i n g w a y : d i v i s i o n a c c o r d i n g t o H e a r s t ' s s e g m e n t a t i o n , a n d  

d y n a m i c s t r a t e g y .  

R e s u l t s :   T h e r e s u l t s o f t h i s c o m p a r i s o n a r e s h o w n i n F i g u r e 4 . 1 . A s  

s e e n , t h e d i e r e n c e b e t w e e n u s i n g s i n g l e n o u n c a n d i d a t e w o r d s a n d o u r  

s t r a t e g y o f u s i n g n o u n c o m p o u n d s i s s l i g h t l y i n f a v o r o f s i n g l e n o u n s ,  

u p t o a r o u n d t h e i m p o r t a n t 5 0 % o f a l l w o r d s . T h i s i s a c c o r d i n g t o a l l  

t h r e e m e a s u r e s t a k e n .  

W h a t c a n b e l e a r n e d f r o m t h e s e r e s u l t s ?   I n c o n t r a d i c t i o n t o  

o u r a s s u m p t i o n , t h e a d d i t i o n o f n o u n c o m p o u n d s d o e s n o t i m p r o v e  

Page 51: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 51/95

4 2  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

60

65

70

75

80

85

90

0 10 20 30 40 50 60 70

   S  e  n  s  e  r  e   d  u  c   t   i  o  n  r  a   t   i  o

Precent of words, sorted by chain score

Noun compoundsSingle nouns

45

50

55

60

65

70

75

0 10 20 30 40 50 60 70

   D   i  s  a  m   b   i  g  u  a   t   i  o  n  r  a   t   i  o

Precent of words, sorted by chain score

Noun compoundsSingle nouns

45

50

55

60

65

70

75

80

0 10 20 30 40 50 60 70

   D   i  s  a  m   b   i  g  u  a   t

   i  o  n  r  a   t   i  o  a  c  c  o  r   d   i  n  g   t  o   f   i  r  s   t  s  e  n  s  e

Precent of words, sorted by chain score

Noun compoundsSingle nouns

F i g u r e 4 . 1 : N o u n c o m p o u n d v s . s i n g l e n o u n s .  

Page 52: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 52/95

4 . 2 . I N F L U E N C E O F P E R F O R M A N C E F A C T O R S   4 3 

d i s a m b i g u a t i o n . T h e i n t e r e s t i n g q u e s t i o n i s w h y s i n g l e n o u n s y i e l d  

b e t t e r d i s a m b i g u a t i o n r e s u l t s u p t o s o m e b o u n d a r y ( w h i c h i s s p e c i c  

t o t h e a p p l i c a t i o n m e t h o d s ) , a n d o n l y b e y o n d t h a t b o u n d a r y d o e s o u r  

c h o i c e b e c o m e b e t t e r . A p o s s i b l e e x p l a n a t i o n c a n b e t h e f a c t t h a t a  

n u m b e r o f i m p o r t a n t n o u n s a p p e a r i n t h e t e x t b o t h a s m o d i e r s a n d a s  

h e a d s , s o i f a n i m p o r t a n t n o u n w a s d i s a m b i g u a t e d c o r r e c t l y w e a d d a l l  

i t s a p p e a r a n c e s ( i n c l u d i n g t h e o n e s i n m o d i e r r o l e s ) a n d i n t h i s w a y  

i n c r e a s e t h e d i s a m b i g u a t i o n m e a s u r e .  

S e g m e n t a t i o n  

W e n o w c h e c k o u r h y p o t h e s i s a b o u t t h e i n u e n c e o f s e g m e n t a t i o n o n  

t h e c h a i n i n g p r o c e s s : u s i n g s e g m e n t s t h a t a r e i d e n t i e d b y H e a r s t ' s  

a l g o r i t h m a s t e x t u n i t s i m p r o v e s c l u s t e r i n g . T h e i s s u e s t o b e v e r i e d  

a r e :  

  D o e s t h e d i v i s i o n o f t h e t e x t i n t o p i e c e s i m p r o v e c h a i n i n g ?  

  I s H e a r s t ' s s e g m e n t a t i o n b e t t e r t h a n o t h e r p o s s i b l e o n e s ?  

E v a l u a t i o n p r o c e d u r e  

1 . C o m p a r e s e g m e n t a t i o n a g a i n s t c h a i n i n g t h e w h o l e t e x t ;  

2 . C o m p a r e H e a r s t s e g m e n t a t i o n a g a i n s t u s e o f a l l p a r a g r a p h b o u n d -  

a r i e s ;  

3 . C o m p a r e H e a r s t s e g m e n t a t i o n a g a i n s t r a n d o m l y c h o s e n p a r a g r -  

a p h b o u n d a r i e s .  

W e t r e a t d y n a m i c a n d g r e e d y s t r a t e g y s e p a r a t e l y .  

R e s u l t s :   T h e r e s u l t s a r e i n F i g u r e s 4 . 2 t h r o u g h 4 . 5 .  

  T h e G r e e d y s t r a t e g y  

S e n s e r e d u c t i o n   T h e r e i s a m e a n i n g f u l i m p r o v e m e n t w h e n u s -  

i n g t h e d i v i s i o n s t r a t e g y o v e r c h a i n i n g t h e w h o l e t e x t , m o r e  

t h a n 1 0 % . T h e r e i s n o s i g n i c a n t d i e r e n c e b e t w e e n u s i n g  

p a r a g r a p h s u s i n g H e a r s t ' s s e g m e n t s . R a n d o m s e g m e n t s g i v e  

s l i g h t l y w o r s e r e s u l t s .  

Page 53: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 53/95

4 4  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

40

45

50

55

60

65

70

75

0 10 20 30 40 50 60 70

   S  e  n  s  e  r  e   d  u  c   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

45

50

55

60

65

70

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m   b   i  g  u  a   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

45

50

55

60

65

70

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m

   b   i  g  u  a   t   i  o  n  r  a   t   i  o  a  c  c  o  r   d   i  n  g   t  o   f   i  r  s   t  s  e  n  s  e

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

F i g u r e 4 . 2 : D i v i s i o n s t r a t e g i e s c o m p a r i s o n , t h e g r e e d y c a s e ( s t r o n g  

m e t r i c s ) .  

Page 54: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 54/95

Page 55: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 55/95

4 6  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

45

50

55

60

65

70

75

80

85

0 10 20 30 40 50 60 70

   S  e  n  s  e  r  e   d  u  c   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

45

50

55

60

65

70

75

80

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m   b   i  g  u  a   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

45

50

55

60

65

70

75

80

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m

   b   i  g  u  a   t   i  o  n  r  a   t   i  o  a  c  c  o  r   d   i  n  g   t  o   f   i  r  s   t  s  e  n  s  e

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

F i g u r e 4 . 4 : D i v i s i o n s t r a t e g i e s c o m p a r i s o n , t h e d y n a m i c c a s e ( s t r o n g  

m e t r i c s ) .  

Page 56: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 56/95

4 . 2 . I N F L U E N C E O F P E R F O R M A N C E F A C T O R S   4 7 

50

55

60

65

70

75

80

85

0 10 20 30 40 50 60 70

   S  e  n  s  e  r  e   d  u  c   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

50

55

60

65

70

75

80

85

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m   b   i  g  u  a   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

50

55

60

65

70

75

80

85

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m

   b   i  g  u  a   t   i  o  n  r  a   t   i  o  a  c  c  o  r   d   i  n  g   t  o   f   i  r  s   t  s  e  n  s  e

Percent of words, sorted by chain score

Division to Hearst’s segmentsDivision by paragraphs

Random divisionNo division

F i g u r e 4 . 5 : D i v i s i o n s t r a t e g i e s c o m p a r i s o n , t h e d y n a m i c c a s e ( w e a k  

m e t r i c s ) .  

Page 57: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 57/95

4 8  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

S e n s e d i s a m b i g u a t i o n   U s i n g t h e w h o l e t e x t s t r a t e g y i s s l i g h t l y  

b e t t e r . N o d i e r e n c e b e t w e e n d i v i s i o n o n p a r a g r a p h s a n d  

d i v i s i o n o n H e a r s t s e g m e n t s . R a n d o m s e g m e n t s g i v e s l i g h t l y  

w o r s e r e s u l t s .  

S e n s e d i s a m b i g u a t i o n b a s e d o n s t r o n g c h a i n   T h e f o u r m e -  

t h o d s p r o d u c e d r o u g h l y t h e s a m e r e s u l t s , w i t h a s l i g h t a d -  

v a n t a g e o f n o d i v i s i o n w h e n t a k i n g l e s s t h a n 2 0 % o f t h e  

i m p o r t a n t w o r d s .  

  T h e D y n a m i c s t r a t e g y  

S e n s e r e d u c t i o n   U s i n g d i v i d e d t e x t i s m u c h b e t t e r t h a n u s i n g  

t h e w h o l e t e x t m e t h o d | a n i m p r o v e m e n t o f 1 5 % . P a r a -  

g r a p h b a s e d s e g m e n t a t i o n i s a b i t b e t t e r t h a n H e a r s t s e g -  

m e n t a t i o n .  

S e n s e d i s a m b i g u a t i o n   U s i n g t h e w h o l e t e x t s t r a t e g y i s b e t t e r  

t h a n u s i n g d i v i d e d t e x t s o n t h e r s t 2 0 % o f i m p o r t a n t w o r d s ,  

a n d t h e r e i s n o d i e r e n c e f r o m 2 5 % o f w o r d s .  

S e n s e d i s a m b i g u a t i o n b a s e d o n s t r o n g c h a i n   T h e r e w a s n o  

s i g n i c a n t d i e r e n c e a m o n g t h e f o u r d i v i s i o n m e t h o d s .  

W h a t c a n b e l e a r n e d f r o m t h e s e r e s u l t s ?   T h e r e i s n o s i g n i c a n t  

i n u e n c e o f t h e s e g m e n t a t i o n o n t h e g r e e d y v s . d y n a m i c s t r a t e g i e s .  

T h e r e f o r e , w e d o n o t d i s t i n g u i s h b e t w e e n t h e m i n t h e f o l l o w i n g d i s c u s -  

s i o n .  

  B y t h e f a c t t h a t s e n s e d i s a m b i g u a t i o n b a s e d o n s t r o n g c h a i n s  

g i v e s t h e s a m e r e s u l t s o v e r a l l f o u r m e t h o d s , w e c a n a s s u m e t h a t  

i n t h i s c a s e t h e t h r e e d i v i s i o n m e t h o d s a p p r o x i m a t e t h e w h o l e  

t e x t c h a i n i n g s t r a t e g y , w h i c h t r i e s t o b u i l d t h e l o n g e s t c h a i n s a l l  

o v e r t h e t e x t a n d c h o o s e s e n s e s t h a t c o n t r i b u t e t o t h i s .  

  T h e r e i s a s i g n i c a n t c h a n g e f r o m t h e d i e r e n c e b e t w e e n u s i n g  

d i v i s i o n a n d u s i n g t h e w h o l e t e x t m e t h o d i n s e n s e r e d u c t i o n , a n d  

t h e d i e r e n c e s i n s e n s e d i s a m b i g u a t i o n a n d s e n s e d i s a m b i g u a t i o n  

w h i c h i s b a s e d o n s t r o n g c h a i n s . T h i s s h o w s t h a t t h e d y n a m i c  

s t r a t e g y h a s a b i g p o t e n t i a l i n d i s a m b i g u a t i o n , b u t a d d i t i o n a l  

Page 58: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 58/95

4 . 2 . I N F L U E N C E O F P E R F O R M A N C E F A C T O R S   4 9 

t e c h n i q u e s a n d k n o w l e d g e s o u r c e s a r e n e e d e d t o p i n p o i n t t h e r i g h t  

s e n s e a f t e r t h i s r s t r e d u c t i o n s t e p .  

  T h e r e s u l t s c o n t r a d i c t o u r a s s u m p t i o n a b o u t t h e i m p o r t a n c e o f  

H e a r s t s e g m e n t a t i o n i n t h e c h a i n i n g p r o c e s s . D i v i s i o n b a s e d o n  

p a r a g r a p h s i s n o t w o r s e , a n d s o m e t i m e s b e t t e r t h a n b a s e d o n  

H e a r s t s e g m e n t a t i o n . T h i s c a n b e e x p l a i n e d b y t h e g e n r e o f t h e  

a r t i c l e s u s e d | s c i e n t i c p a p e r s u s u a l l y h a v e g o o d d i v i s i o n t o  

s e g m e n t s m a r k e d a s p a r a g r a p h s .  

  R a n d o m d i v i s i o n i s n o t a s b a d a s w a s e x p e c t e d . W e h a v e n o  

e x p l a n a t i o n f o r t h i s f a c t .  

  T h e D i e r e n c e b e t w e e n t h e u s a g e o f t h e t w o m e t r i c s w a s t h e s a m e  

i n a l l f o u r m e t h o d s | w e a k m e t r i c s a d d a r o u n d 4 % t o t h e r e s u l t s .  

T o c o n c l u d e | d i v i s i o n c o n t r i b u t e s t o c h a i n i n g , a n d p a r a g r a p h s  

s e e m t o b e g o o d e n o u g h t o i m p r o v e c h a i n i n g .  

D y n a m i c v s . G r e e d y  

I n t h i s s e c t i o n w e c h e c k o u r h y p o t h e s i s t h a t d y n a m i c s t r a t e g y i m p r o v e s  

c h a i n i n g . W e c o m p a r e t h e d y n a m i c s t r a t e g y a g a i n s t t h e g r e e d y s t r a t -  

e g y , s e t t i n g o t h e r p a r a m e t e r s o f t h e a l g o r i t h m i n t h e f o l l o w i n g w a y :  

d i v i s i o n a c c o r d i n g t o H e a r s t s e g m e n t a t i o n , a n d c a n d i d a t e w o r d s t h a t  

a r e c h o s e n a r e n o u n c o m p o u n d s .  

R e s u l t s :   T h e r e s u l t s a r e i n F i g u r e s 4 . 2 t h r o u g h 4 . 5 .  

A l l o f o u r d i s a m b i g u a t i o n m e a s u r e s s h o w s a   s i g n i c a n t a d v a n t a g e  

o f t h e d y n a m i c s t r a t e g y y i e l d s o v e r t h e g r e e d y o n e .  

T h e d i e r e n c e i n t h e s e n s i t i v i t y o f t h e m e t h o d s t o t h e t y p e o f m e t r i c  

s h o w s t h a t t h e d y n a m i c m e t h o d t e n d s t o m a k e l e s s s e v e r e m i s t a k e s t h a n  

t h e g r e e d y m e t h o d .  

4 . 2 . 2 I n u e n c e o f E n v i r o n m e n t P r o p e r t i e s  

W e c a n d i v i d e e n v i r o n m e n t p r o p e r t i e s t o t w o g r o u p s : t e x t p r o p e r t i e s  

a n d t h e s a u r u s p r o p e r t i e s . W e a r e l i m i t e d i n d o i n g r e a l c o m p a r a t i v e  

a n a l y s i s h e r e , b e c a u s e t h e o n l y t h e s a u r u s w e c a n u s e i s W o r d N e t .  

Page 59: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 59/95

5 0  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

55

60

65

70

75

80

85

0 10 20 30 40 50 60 70

   S  e  n  s  e  r  e   d  u  c   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Greedy algorithmDynamic algorithm

45

50

55

60

65

70

75

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m   b   i  g  u  a   t   i  o  n  r  a   t   i  o

Percent of words, sorted by chain score

Greedy algorithmDynamic algorithm

45

50

55

60

65

70

75

80

0 10 20 30 40 50 60 70

   S  e  n  s  e   d   i  s  a  m   b   i  g

  u  a   t   i  o  n  r  a   t   i  o  a  c  c  o  r   d   i  n  g   t  o   f   i  r  s   t  s  e  n  s  e

Percent of words, sorted by chain score

Greedy algorithmDynamic algorithm

F i g u r e 4 . 6 : G r e e d y v s . d y n a m i c s t r a t e g i e s , u s i n g s t r o n g m e t r i c s .  

Page 60: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 60/95

Page 61: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 61/95

5 2  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

T h e s a u r u s I n u e n c e  

T h e a v e r a g e n u m b e r o f s e n s e s i n o u r e v a l u a t i o n d a t a i s 4 . 5 . T h e m a x -  

i m a l n u m b e r w a s r e a c h e d f o r t h e w o r d \  l i n e   " | 2 9 s e n s e s . W o r d N e t  

d o e s n o t c o n t a i n a n y i n f o r m a t i o n a b o u t f r e q u e n c y o f s e n s e s  

, i t d o e s n o t  

d i s t i n g u i s h b e t w e e n f r e q u e n t s e n s e s a n d \ e x o t i c " o n e s (  e . g .  \  m a c h i n e   " 

w i t h t h e s e n s e o f a n \ e c i e n t p e r s o n " ) . O u r h y p o t h e s i s i s t h a t r e d u c -  

t i o n o f s e n s e s t o \  c o m m o n   " s e n s e s c a n i m p r o v e c h a i n q u a l i t y .  

W e c h e c k t h i s h y p o t h e s i s i n t h e f o l l o w i n g w a y : w e r e d u c e t h e o r i g -  

i n a l s e n s e s o f p o l y s e m o u s w o r d s i n t h e d i s a m b i g u a t e d c o r p u s t o t w o  

s e n s e s | t h e c o r r e c t o n e a n d o n e t h a t i s c h o s e n r a n d o m l y f r o m t h e  

o r i g i n a l s e n s e s . W e a l s o p e r f o r m e d t h e s a m e p r u n i n g o f s e n s e s t o t h r e e .  

T h e r e s u l t s , a c c o r d i n g t o t h r e e e v a l u a t i o n m e t h o d s , s h o w m e a n i n g -  

f u l i m p r o v e m e n t i n d i s a m b i g u a t i o n w h e n t w o s e n s e s a r e u s e d : s e n s e r e -  

d u c t i o n g i v e s 8 7 % o n 4 0 % o f t h e i m p o r t a n t w o r d s , s e n s e d i s a m b i g u a t i o n  

r a t i o a r e a r o u n d 8 3 % o n 4 0 % o f i m p o r t a n t w o r d s . P r u n i n g W o r d N e t t o  

t h r e e s e n s e s g i v e s s l i g h t l y w o r s e r e s u l t s , b u t t h e y a r e s t i l l s i g n i c a n t l y  

b e t t e r t h a n t h e r e s u l t s b a s e d o n W o r d N e t w i t h 4 . 5 s e n s e s i n a v e r a g e :  

s e n s e r e d u c t i o n g i v e s 8 4 % , s e n s e d i s a m b i g u a t i o n r a t i o a r e a r o u n d 7 8 %  

o n 4 0 % o f t h e i m p o r t a n t w o r d s .  

A f t e r r e d u c i n g t h e n u m b e r o f s e n s e s t o t w o , t h e d i e r e n c e b e t w e e n  

t h e g r e e d y a n d t h e d y n a m i c s t r a t e g y i s 3 % , a n d a f t e r r e d u c i n g t o  

3 s e n s e s t h e d i e r e n c e i s 5 % ( i n t h e o r i g i n a l W o r d N e t t h e d i e r e n c e  

r e a c h e s 1 0 % ) .  

W h a t c a n b e l e a r n e d f r o m t h e s e r e s u l t s ?  

  T h e a l g o r i t h m i s v e r y s e n s i t i v e t o t h e n u m b e r o f s e n s e s i n t h e  

t h e s a u r u s . \ C l e a n i n g " W o r d N e t o f r a r e s e n s e s o r s o m e p r e p r o -  

c e s s i n g , b a s e d o n k n o w l e d g e o t h e r t h a n c o h e r e n c e , c a n b e v e r y  

u s e f u l .  

  T h e g r e e d y a l g o r i t h m i s m u c h m o r e s e n s i t i v e t o t h e n u m b e r o f  

s e n s e s . I n t h e t w o s e n s e s c a s e t h e t w o s t r a t e g i e s a r e v e r y s i m i l a r .  

T h i s w o r k w a s w r i t t e n b e f o r e t h e W o r d N e t d a t a b a s e w a s m o d i e d | n o w i t  

i n c l u d e s s o m e s e n s e f r e q u e n c y i n f o r m a t i o n . T i m e c o n s t r a i n t s , a n d l a c k o f u p d a t e d  

d i s a m b i g u a t e d c o r p u s d i d n o t a l l o w t e s t i n g o u r s y s t e m w i t h i t .

Page 62: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 62/95

4 . 3 . L E S S O N S L E A R N E D F R O M T H E E V A L U A T I O N   5 3 

T h i s f a c t s h o w s t h a t o n s o m e k i n d s o f t h e s a u r u s , t h e g r e e d y s t r a t -  

e g y i s s u c i e n t . B u t a s t h e n u m b e r o f s e n s e s g r o w s , t h e d y n a m i c  

s t r a t e g y p r o v e s m o r e r o b u s t t h a n t h e g r e e d y o n e .  

C o h e s i o n P r o p e r t i e s  

T h e c o h e s i v e p r o p e r t y o f t h e t e x t i s a d o m i n a n t f a c t o r i n c h a i n c o n s t r u c -  

t i o n . W e a s s u m e t h a t t h e r e i s o w o f c o n n e c t e d i n f o r m a t i o n f r o m s e n -  

t e n c e t o s e n t e n c e , a n d t h e w o r d s , r e l a t e d a c c o r d i n g t o c o m m o n s e n s e ,  

r e p r e s e n t t h e s a m e c o n c e p t i n a p a r t i c u l a r c o n t e x t . W h e n t h e t e x t i s  

m o r e c o h e s i v e , t h e r e i s m o r e d a t a f o r b u i l d i n g l e x i c a l c h a i n s .  

I n o r d e r t o c h e c k h o w m u c h c o h e s i o n i n u e n c e t h e p e r f o r m a n c e  

o f o u r a l g o r i t h m , w e c o m p a r e c o h e s i v e t e x t s w i t h n o n - c o h e s i v e t e x t s .  

W e c r e a t e n o n - c o h e s i v e t e x t b y p a s t i n g s e n t e n c e s f r o m t w o t e x t s o n  

d i e r e n t t o p i c s . W e c o m p a r e t h e d i s a m b i g u a t i o n m e a s u r e s o n s o u r c e  

t e x t s a n d o n t h e w o r d s o f t h e s o u r c e t e x t s , w h e n t h e y a r e p a r t o f t h e  

n o n - c o h e s i v e t e x t .  

T h e r e s u l t s p r o v e s o u r a s s u m p t i o n . T h e d i e r e n c e i n s e n s e r e d u c t i o n  

w a s 3 0 % . T h e r e w a s n o s i g n i c a n t d i e r e n c e b e t w e e n s e n s i t i v i t y t o  

c o h e r e n c e b e t w e e n t h e g r e e d y a n d t h e d y n a m i c a l g o r i t h m .  

C o n c l u s i o n s : t h e a l g o r i t h m i s v e r y s e n s i t i v e t o t h e c o h e s i v e n e s s o f  

t h e t e x t , t h e r e f o r e , i t c a n n o t b e u s e d o n l o w - c o h e s i v e t e x t s .  

4 . 3 S u m m a r y : L e s s o n s L e a r n e d f r o m t h e  

E v a l u a t i o n  

  W e f o u n d t h a t t h e r e i s a c r u c i a l d o m i n a n c e o f e n v i r o n m e n t f a c t o r s  

o v e r s y s t e m p a r a m e t e r s f o r t h e p e r f o r m a n c e o f o u r a l g o r i t h m . I n  

f a c t , c h a n g e s i n t h e t h e s a u r u s q u a l i t y a n d t e x t c o h e r e n c e f e a t u r e s  

h a v e a n i m m e n s e e e c t o n t h e q u a l i t y o f c h a i n s p r o d u c e d b y o u r  

a l g o r i t h m .  

  O u r r e s u l t s a l s o i m p l i e s t h a t a l l c h a i n i n g a l g o r i t h m s t h a t a r e d e -  

r i v e d f r o m t h e g e n e r i c a l g o r i t h m p r e s e n t e d a b o v e , m u s t b e u s e d  

o n l y o n c o h e r e n t t e x t s .  

Page 63: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 63/95

5 4  C H A P T E R 4 . E V A L U A T I N G T H E L E X I C A L C H A I N E R  

  A s m e n t i o n e d a b o v e c l e a n i n g W o r d N e t o f r a r e s e n s e s , a n d a g -  

g r e g a t i o n o f s i m i l a r s e n s e s c a n d r a m a t i c a l l y i n c r e a s e t h e p e r f o r -  

m a n c e .  

  I n o u r e v a l u a t i o n w e v e r i e d o u r p a r a m e t e r s e t t i n g a s m o s t a p -  

p r o p r i a t e :  

{  D y n a m i c s t r a t e g y .  

{  S e g m e n t a t i o n u s i n g p a r a g r a p h s .  

{  S i n g l e n o u n s a s c a n d i d a t e t e r m s .  

  A n u n e x p e c t e d r e s u l t t h a t w e o b s e r v e d i s t h a t u s i n g H e a r s t ' s  

s e g m e n t a t i o n g o t l o w e r q u a l i t y r e s u l t s , c o m p a r e d t o u s i n g t e x t u a l  

p a r a g r a p h s a s s e g m e n t s .  

Page 64: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 64/95

C h a p t e r 5  

A p p l i c a t i o n o f L e x i c a l C h a i n s  

t o S u m m a r i z a t i o n  

I n t h i s c h a p t e r w e e x p l a i n t h e m o t i v a t i o n u s i n g t e x t c o h e s i o n i n f o r m a -  

t i o n f o r s u m m a r i z a t i o n . W e p r e s e n t a m e t h o d f o r s e n t e n c e e x t r a c t i o n  

b a s e d o n l e x i c a l c h a i n s .  

5 . 1 M o t i v a t i o n  

A s u m m a r y t e x t i s a d e r i v a t i v e o f a s o u r c e t e x t c o n d e n s e d b y s e l e c t i o n  

a n d / o r g e n e r a l i z a t i o n o f i m p o r t a n t c o n t e n t . T h e g l o b a l p r o c e s s m o d e l  

h a s t w o m a j o r p h a s e s :  

  I n t e r p r e t a t i o n   o f t h e s o u r c e t e x t a n d i t s a b s t r a c t i o n t o   s o u r c e  

m e a n i n g r e p r e s e n t a t i o n   ; 

  B u i l d i n g s u m m a r y r e p r e s e n t a t i o n u s i n g t h e s o u r c e m e a n i n g r e p -  

r e s e n t a t i o n .  

T h i s m o d e l e m p h a s i z e s t h e r o l e o f t e x t r e p r e s e n t a t i o n a n d t h e c e n -  

t r a l t r a n s f o r m a t i o n s t a g e . W i t h i n t h i s f r a m e w o r k , s u m m a r i z a t i o n s y s -  

t e m s c a n b e c h a r a c t e r i z e d a c c o r d i n g t o \ t h e n a t u r e o f t h e i r s o u r c e r e p -  

r e s e n t a t i o n , i n c l u d i n g i t s d i s t a n c e f r o m t h e s o u r c e t e x t , i t s r e l a t i v e e m -  

p h a s i s o n   l i n g u i s t i c , c o m m u n i c a t i v e o r d o m a i n i n f o r m a t i o n   a n d t h e r e -  

f o r e t h e s t r u c t u r a l m o d e l i t e m p l o y s a n d t h e w a y t h i s m a r k s i m p o r t a n t  

c o n t e n t " 1 5 ] .  

5 5 

Page 65: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 65/95

5 6  C H A P T E R 5 . L E X I C A L C H A I N S F O R S U M M A R I Z A T I O N  

T h e r e a r e s e v e r a l t e c h n i q u e s t h a t a r e u s e d t o s u m m a r i z e t e x t s , s o m e  

o f t h e m a r e b a s e d o n s h a l l o w s o u r c e r e p r e s e n t a t i o n :  

1 . F o r e x a m p l e , e a r l y s u m m a r i z a t i o n s y s t e m 1 8 ] d i r e c t l y e x p l o i t  

l i n g u i s t i c s o u r c e i n f o r m a t i o n , b a s e d o n t h e i n t u i t i o n t h a t t h e m o s t  

f r e q u e n t w o r d s r e p r e s e n t t h e m o s t i m p o r t a n t c o n c e p t s o f t h e t e x t .  

T h i s r e p r e s e n t a t i o n a b s t r a c t s t e x t i n t o f r e q u e n c y t a b l e .  

2 . A n o t h e r m e t h o d w h i c h i s a l s o b a s e d o n l i n g u i s t i c i n f o r m a t i o n i s  

t h e  c u e p h r a s e m e t h o d  , w h i c h u s e s m e t a - l i n g u i s t i c m a r k e r s ( f o r  

e x a m p l e , \  i n c o n c l u s i o n   " , \  t h e p a p e r d e s c r i b e s  " ) t o s e l e c t i m p o r -  

t a n t p h r a s e s 4 ] . T h e c u e p h r a s e m e t h o d i s b a s e d o n t h e a s s u m p -  

t i o n t h a t t h e s e b o n u s p h r a s e s p r o v i d e \ r h e t o r i c a l " c o n t e x t f o r  

i d e n t i f y i n g i m p o r t a n t s e n t e n c e s .  

T h e s o u r c e a b s t r a c t i o n i n t h i s c a s e i s c u e w o r d s a n d s e n t e n c e s  

t h a t c o n t a i n t h e m .  

3 . A n o t h e r i n f o r m a t i o n t y p e i s u s e d i n t h e   l o c a t i o n m e t h o d   | h e a d -  

i n g s , s e n t e n c e s i n t h e b e g i n n i n g a n d e n d o f t h e t e x t c o n t a i n i m -  

p o r t a n t i n f o r m a t i o n t o t h e s u m m a r y .  

4 . D i s c o u r s e r e p r e s e n t a t i o n o f s o u r c e t e x t w a s u s e d a s s o u r c e a b -  

s t r a c t i o n b y O n o 2 5 ] a n d M a r c u 2 0 ] . T h e i r a s s u m p t i o n i s t h a t  

\ t h e c o n c e p t s o f r h e t o r i c a l a n a l y s i s a n d n u c l e a r i t y c a n b e u s e d  

e e c t i v e l y f o r d e t e r m i n i n g t h e m o s t i m p o r t a n t u n i t s o f t h e t e x t "  

( M a r c u ) . B o t h a l g o r i t h m s a r e b a s e d o n r h e t o r i c a l m a r k e r s f o r  

t r e e s c o n s t r u c t i o n .  

O n t h e o t h e r h a n d , s u m m a r i e s c a n b e b u i l t o n a d e e p s e m a n t i c  

a n a l y s i s o f t h e t e x t :  

1 . F o r i n s t a n c e , M U C - s t y l e t e m p l a t e s w e r e u s e d a s a b s t r a c t i o n o f t h e  

s o u r c e t e x t b y ( M c K e o w n a n d R a d e v , 2 1 ] ) t o p r o d u c e c o h e r e n t  

s u m m a r y o f s e v e r a l t e x t s d e s c r i b i n g t h e s a m e e v e n t . A n o t h e r  

e x a m p l e o f s u c h a b s t r a c t i o n i s t h e D e J o n g s c r i p t s , t h a t r e l i e s o n  

i n e x i b l e s p e c i c a t i o n o f t h e k i n d o f i n f o r m a t i o n s o u g h t .  

Page 66: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 66/95

Page 67: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 67/95

5 8  C H A P T E R 5 . L E X I C A L C H A I N S F O R S U M M A R I Z A T I O N  

d o e s n o t s u p p l y i n f o r m a t i o n a b o u t s e m a n t i c a l l y r e l a t e d t e r m s , o n e c a n -  

n o t c a p t u r e t h e \ a b o u t n e s s " o f t h e t e x t , a n d t h e r e f o r e t h e s u m m a r y w i l l  

n o t c a p t u r e t h e m a i n p o i n t o f t h e o r i g i n a l t e x t .  

T h e u s e o f r e l a t e d w o r d s i n t e x t | l e x i c a l c o h e s i o n | i s o n e o f t h e  

d e v i c e s t h a t p r o v i d e c o h e s i o n . A s w e d e s c r i b e d i n C h a p t e r 2 l e x i c a l  

c o h e s i o n o n o n e h a n d c a n b e e a s i l y c a l c u l a t e d , o n t h e o t h e r h a n d , i t  

i s o n e o f t h e s u r f a c e s i g n s o f d i s c o u r s e s t r u c t u r e . T h e s e g i v e s u s m o t i -  

v a t i o n t o i n v e s t i g a t e l e x i c a l c h a i n s a s a n a b s t r a c t i o n o f t h e s o u r c e t e x t  

f o r t h e p u r p o s e o f p r o d u c i n g a s u m m a r y .  

5 . 2 B u i l d i n g S u m m a r i e s U s i n g L e x i c a l  

C h a i n s  

W e n o w i n v e s t i g a t e h o w l e x i c a l c h a i n s c a n s e r v e a s a s o u r c e r e p r e s e n t a -  

t i o n o f t h e o r i g i n a l t e x t t o b u i l d a s u m m a r y . T h e n e x t q u e s t i o n i s h o w  

t o b u i l d a s u m m a r y r e p r e s e n t a t i o n f r o m t h i s s o u r c e r e p r e s e n t a t i o n .  

T h e m o s t p r e v a l e n t d i s c o u r s e t o p i c w i l l p l a y a n i m p o r t a n t r o l e i n  

t h e s u m m a r y . W e r s t p r e s e n t t h e i n t u i t i o n w h y l e x i c a l c h a i n s a r e a  

g o o d i n d i c a t o r o f t h e c e n t r a l t o p i c o f a t e x t . G i v e n a n a p p r o p r i a t e  

m e a s u r e o f s t r e n g t h , w e s h o w t h a t p i c k i n g t h e c o n c e p t s r e p r e s e n t e d b y  

s t r o n g l e x i c a l c h a i n s g i v e s a b e t t e r i n d i c a t i o n o f t h e c e n t r a l t o p i c o f a  

t e x t t h a n s i m p l y p i c k i n g t h e m o s t f r e q u e n t w o r d s i n t h e t e x t ( w h i c h  

f o r m s t h e z e r o - h y p o t h e s i s ) .  

F o r e x a m p l e , w e s h o w i n A p p e n d i x A . 1 a s a m p l e t e x t a b o u t B a y e s i -  

a n N e t w o r k t e c h n o l o g y . T h e r e , t h e c o n c e p t o f n e t w o r k w a s r e p r e s e n t e d  

b y t h e w o r d s \  n e t w o r k   " w i t h 6 o c c u r r e n c e s , \  n e t  " w i t h 2 , a n d \  s y s -  

t e m  " w i t h 4 . T h e s u m m a r y r e p r e s e n t a t i o n h a s t o r e e c t t h a t a l l t h e s e  

w o r d s r e p r e s e n t t h e   s a m e   c o n c e p t ; o t h e r w i s e , t h e s u m m a r y g e n e r a t i o n  

s t a g e w o u l d e x t r a c t i n f o r m a t i o n s e p a r a t e l y f o r e a c h t e r m . T h e c h a i n  

r e p r e s e n t a t i o n a p p r o a c h a v o i d s c o m p l e t e l y t h i s p r o b l e m , b e c a u s e a l l  

t h e s e t e r m s o c c u r i n t h e s a m e c h a i n , w h i c h r e e c t s t h e f a c t t h a t t h e y  

r e p r e s e n t t h e s a m e c o n c e p t .  

A n a d d i t i o n a l a r g u m e n t f o r t h e c h a i n r e p r e s e n t a t i o n a s o p p o s e d t o  

a s i m p l e w o r d f r e q u e n c y m o d e l i s t h e c a s e w h e n a s i n g l e c o n c e p t i s  

r e p r e s e n t e d b y a n u m b e r o f w o r d s , e a c h w i t h r e l a t i v e l y l o w f r e q u e n c y .  

Page 68: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 68/95

5 . 2 . B U I L D I N G S U M M A R I E S U S I N G L E X I C A L C H A I N S   5 9 

I n t h e s a m e B a y e s i a n N e t w o r k s a m p l e t e x t , t h e c o n c e p t o f \  i n f o r m a -  

t i o n   " w a s r e p r e s e n t e d b y t h e w o r d s \  i n f o r m a t i o n   " ( 3 ) , \  d a t u m   " ( 2 ) ,  

\  k n o w l e d g e   " ( 3 ) , \  c o n c e p t  " ( 1 ) a n d \  m o d e l  " ( 1 ) . I n t h i s t e x t , \  i n f o r -  

m a t i o n   " i s a m o r e i m p o r t a n t c o n c e p t t h a n \  c o m p u t e r  " w h i c h o c c u r s  

4 t i m e s . B e c a u s e t h e \  i n f o r m a t i o n   " c h a i n c o m b i n e s t h e n u m b e r o f o c -  

c u r r e n c e s o f a l l i t s m e m b e r s , i t c a n o v e r c o m e t h e w e i g h t o f t h e s i n g l e  

w o r d \  c o m p u t e r  "

5 . 2 . 1 E x t r a c t i n g S i g n i c a n t S e n t e n c e s  

O n c e s t r o n g c h a i n s h a v e b e e n s e l e c t e d , t h e n e x t s t e p o f t h e s u m m a r i z a -  

t i o n a l g o r i t h m i s t o e x t r a c t f u l l s e n t e n c e s f r o m t h e o r i g i n a l t e x t b a s e d  

o n c h a i n d i s t r i b u t i o n .  

W e i n v e s t i g a t e d t h r e e a l t e r n a t i v e s f o r t h i s s t e p .  

H e u r i s t i c 1 :  

F o r e a c h c h a i n i n t h e s u m m a r y r e p r e s e n t a t i o n c h o o s e t h e s e n t e n c e t h a t  

c o n t a i n s t h e r s t a p p e a r a n c e o f a c h a i n m e m b e r i n t h e t e x t . T h i s i s  

b a s e d o n t h e i n t u i t i o n t h a t a s e n t e n c e i n w h i c h a c h a i n b e g i n s , g i v e s  

t h e n e c e s s a r y i n f o r m a t i o n f o r t h e i d e n t i c a t i o n o f t h e c o n c e p t w h i c h  

t h e c h a i n r e p r e s e n t s , a n d i t s p a r t i c u l a r c o n t e x t i n t h e t e x t .  

T h i s h e u r i s t i c p r o d u c e d t h e f o l l o w i n g s u m m a r y f o r t h e t e x t i s s h o w n  

i n A p p e n d i x A . 1 :  

W h e n M i c r o s o f t S e n i o r V i c e P r e s i d e n t S t e v e B a l l m e r r s t h e a r d h i s  

c o m p a n y w a s p l a n n i n g t o m a k e a h u g e i n v e s t m e n t i n a n I n t e r n e t s e r -  

v i c e o e r i n g m o v i e r e v i e w s a n d l o c a l e n t e r t a i n m e n t i n f o r m a t i o n i n  

m a j o r c i t i e s a c r o s s t h e n a t i o n , h e w e n t t o C h a i r m a n B i l l G a t e s w i t h  

h i s c o n c e r n s . M i c r o s o f t ' s c o m p e t i t i v e a d v a n t a g e , h e r e s p o n d e d , w a s  

i t s e x p e r t i s e i n B a y e s i a n n e t w o r k s .

B a y e s i a n n e t w o r k s a r e c o m p l e x d i a g r a m s t h a t o r g a n i z e t h e b o d y o f  

k n o w l e d g e i n a n y g i v e n a r e a b y m a p p i n g o u t c a u s e | a n d | e e c t  

r e l a t i o n s h i p s a m o n g k e y v a r i a b l e s a n d e n c o d i n g t h e m w i t h n u m b e r s  

t h a t r e p r e s e n t t h e e x t e n t t o w h i c h o n e v a r i a b l e i s l i k e l y t o a e c t a n -  

o t h e r .

P r o g r a m m e d i n t o c o m p u t e r s , t h e s e s y s t e m s c a n a u t o m a t i c a l l y g e n e r -  

a t e o p t i m a l p r e d i c t i o n s o r d e c i s i o n s e v e n w h e n k e y p i e c e s o f i n f o r m a -  

t i o n a r e m i s s i n g .

Page 69: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 69/95

6 0  C H A P T E R 5 . L E X I C A L C H A I N S F O R S U M M A R I Z A T I O N  

W h e n M i c r o s o f t i n 1 9 9 3 h i r e d E r i c H o r v i t z , D a v i d H e c k e r m a n a n d  

J a c k B r e e s e , p i o n e e r s i n t h e d e v e l o p m e n t o f B a y e s i a n s y s t e m s , c o l -  

l e a g u e s i n t h e e l d w e r e s u r p r i s e d .

T h e p r o b l e m w i t h t h i s a p p r o a c h i s t h a t a l l w o r d s i n a c h a i n r e e c t  

t h e s a m e c o n c e p t , b u t t o a d i e r e n t e x t e n t . F o r e x a m p l e , i n t h e A I  

c h a i n , ( A p p e n d i x A . 2 , C h a i n 3 ) t h e t o k e n \  s c i e n c e   " i s r e l a t e d t o t h e  

c o n c e p t \  A I  " , b u t t h e w o r d s \  A I  " a n d \    e l d   " a r e m o r e s u i t a b l e t o  

r e p r e s e n t t h e m a i n t o p i c \  A I  " i n t h e c o n t e x t o f t h e t e x t . T h a t i s , n o t  

a l l c h a i n m e m b e r s a r e g o o d r e p r e s e n t a t i v e s o f t h e t o p i c ( e v e n t h o u g h  

t h e y a l l c o n t r i b u t e t o i t s m e a n i n g ) .  

H e u r i s t i c 2 :  

W e t h e r e f o r e d e n e a c r i t e r i o n t o e v a l u a t e t h e a p p r o p r i a t e n e s s o f a c h a i n  

m e m b e r t o r e p r e s e n t i t s c h a i n b a s e d o n i t s f r e q u e n c y o f o c c u r r e n c e  

i n t h e c h a i n . W e f o u n d e x p e r i m e n t a l l y t h a t s u c h w o r d s , c a l l t h e m  

r e p r e s e n t a t i v e   w o r d s , h a v e a f r e q u e n c y i n t h e c h a i n n o l e s s t h a n t h e  

a v e r a g e w o r d f r e q u e n c y i n t h e c h a i n . F o r e x a m p l e , i n t h e t h i r d c h a i n  

t h e r e p r e s e n t a t i v e w o r d s a r e \    e l d   " a n d \  A I  "

W e t h e r e f o r e d e n e a s e c o n d h e u r i s t i c b a s e d o n t h e n o t i o n o f r e p r e -  

s e n t a t i v e w o r d s : f o r e a c h c h a i n i n t h e s u m m a r y r e p r e s e n t a t i o n , c h o o s e  

t h e s e n t e n c e t h a t c o n t a i n s t h e r s t a p p e a r a n c e o f a r e p r e s e n t a t i v e c h a i n  

m e m b e r i n t h e t e x t .  

I n t h i s s p e c i a l c a s e t h i s h e u r i s t i c g i v e s t h e s a m e r e s u l t a s t h e r s t  

o n e .  

H e u r i s t i c 3 :  

O f t e n , t h e s a m e t o p i c i s d i s c u s s e d i n a n u m b e r o f p l a c e s i n t h e t e x t , s o  

i t s c h a i n i s d i s t r i b u t e d a c r o s s t h e w h o l e t e x t . S t i l l , i n s o m e t e x t u n i t ,  

t h i s g l o b a l t o p i c i s t h e c e n t r a l t o p i c ( f o c u s ) o f t h e s e g m e n t . W e t r y t o  

i d e n t i f y t h i s u n i t a n d e x t r a c t s e n t e n c e s r e l a t e d t o t h e t o p i c f r o m t h i s  

s e g m e n t ( o r s u c c e s s i v e s e g m e n t s ) o n l y .  

W e c h a r a c t e r i z e t h i s t e x t u n i t a s a c l u s t e r o f s u c c e s s i v e s e g m e n t s  

w i t h h i g h d e n s i t y o f c h a i n m e m b e r s . O u r t h i r d h e u r i s t i c i s b a s e d o n  

t h i s a p p r o a c h .  

Page 70: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 70/95

5 . 3 . S E N T E N C E E X T R A C T I O N U S I N G L E X I C A L C H A I N S   6 1 

F o r e a c h c h a i n , w e n d t h e t e x t u n i t w h e r e t h e c h a i n i s h i g h l y  

c o n c e n t r a t e d . E x t r a c t t h e s e n t e n c e w i t h t h e r s t c h a i n a p p e a r a n c e i n  

t h i s c e n t r a l u n i t . C o n c e n t r a t i o n i s c o m p u t e d a s t h e n u m b e r o f c h a i n  

m e m b e r s o c c u r r e n c e s i n a s e g m e n t d i v i d e d b y t h e n u m b e r o f n o u n s i n  

t h e s e g m e n t . A c h a i n h a s h i g h c o n c e n t r a t i o n i f i t s h a s t h e m a x i m u m  

d e n s i t y o f a l l c h a i n s i n t h e t e x t s e g m e n t . A c l u s t e r i s g r o u p o f s u c c e s s i v e  

s e g m e n t s s u c h t h a t e v e r y s e g m e n t c o n t a i n s c h a i n m e m b e r s .  

N o t e t h a t i n a l l t h e s e t h r e e t e c h n i q u e s o n l y o n e s e n t e n c e i s e x t r a c t e d  

f o r e a c h c h a i n ( r e g a r d l e s s o f i t s s t r e n g t h ) .  

F o r m o s t t e x t s w e t e s t e d , t h e r s t a n d s e c o n d t e c h n i q u e s p r o d u c e  

t h e s a m e r e s u l t s , b u t w h e n t h e y a r e d i e r e n t , t h e o u t p u t o f t h e s e c o n d  

t e c h n i q u e i s b e t t e r . G e n e r a l l y , t h e s e c o n d t e c h n i q u e p r o d u c e s t h e b e s t  

s u m m a r y . W e c h e c k e d t h e s e m e t h o d s o n o u r 3 0 t e x t s d a t a s e t . S u r p r i s -  

i n g l y , t h e t h i r d h e u r i s t i c , w h i c h i n t u i t i o n p r e d i c t s a s t h e m o s t s o p h i s -  

t i c a t e d , g i v e s t h e l e a s t i n d i c a t i v e r e s u l t s . T h i s m a y b e d u e t o s e v e r a l  

f a c t o r s : o u r c r i t e r i a f o r ` c e n t r a l i t y ' o r ` c l u s t e r i n g ' m a y b e i n s u c i e n t  

o r , m o r e l i k e l y , t h e p r o b l e m s e e m s t o b e r e l a t e d t o t h e i n t e r a c t i o n w i t h  

t e x t s t r u c t u r e . T h e t h i r d h e u r i s t i c s t e n d s t o e x t r a c t s e n t e n c e s f r o m t h e  

m i d d l e o f t h e t e x t a n d t o e x t r a c t s e v e r a l s e n t e n c e s f r o m d i s t a n t p l a c e s  

i n t h e t e x t f o r a s i n g l e c h a i n .  

5 . 3 S u m m a r y : S e n t e n c e E x t r a c t i o n B a s e d  

o n L e x i c a l C h a i n s  

I n t h i s c h a p t e r w e p r e s e n t e d a n a l g o r i t h m f o r s e n t e n c e e x t r a c t i o n b a s e d  

o n l e x i c a l c h a i n s . T h i s i s o n o n e h a n d c o m p u t a b l e a n d o n t h e o t h e r  

h a n d c o n t a i n s m o r e i n f o r m a t i o n t h a n r e g u l a r s h a l l o w t e c h n i q u e s .  

I n t h e n e x t c h a p t e r w e c o m p a r e o u r s u m m a r i z e r r e s u l t s w i t h t w o  

o t h e r a v a i l a b l e s u m m a r i z a t i o n s y s t e m s r e c e n t l y m a d e a v a i l a b l e ( S u m -  

m e r 9 7 ) a n d n d o u r a p p r o a c h t o g i v e r e s u l t s s i g n i c a n t l y c l o s e r t o  

h u m a n j u d g e s ( u s i n g m a j o r i t y r u l e ) t h a n t h e o t h e r s y s t e m s .  

Page 71: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 71/95

6 2  C H A P T E R 5 . L E X I C A L C H A I N S F O R S U M M A R I Z A T I O N  

Page 72: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 72/95

Page 73: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 73/95

6 4  C H A P T E R 6 . S U M M A R Y E V A L U A T I O N  

D o c u m e n t N u m b e r   5 3 6 0 7 5  

D o c u m e n t T i t l e S t a t e - S p o n s o r e d D e a t h S q u a d s B l o c k i n g T h i r d W o r l d D e v e l o p m e n t  

S e n t S u b 1 S u b 2 S u b 3 S u b 4 S u b 5 S y s A S y s B S y s C  

N u m 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0 1 0 | 2 0  

1 + + + + + + + + + + + + + +  

2 + + + + + + + + +  

3 + + + + + + +  

5 + 

6 + + + +  

7 + + +  

8 + 

1 0 + 

1 1 

1 2 

1 3 

1 4 + 

1 5 

1 6 + + +  

T a b l e 6 . 1 : A s a m p l e s u m m a r y d a t a b a s e f o r a d o c u m e n t .  

2 0 ] . W e r a n t h e m o n t h e 4 0 d o c u m e n t s t o g e n e r a t e 1 0 % a n d 2 0 %  

s u m m a r i e s f o r e a c h d o c u m e n t .  

A t o t a l o f 1 6 s u m m a r i e s w e r e p r o d u c e d f o r e a c h d o c u m e n t . T a b l e 6 . 1  

s h o w s a s a m p l e s u m m a r y d a t a b a s e f o r a d o c u m e n t . T h e d o c u m e n t s  

w e r e s e l e c t e d f r o m t h e T R E C c o l l e c t i o n 5 ] . T h e y a r e n e w s a r t i c l e s  

o n c o m p u t e r s , t e r r o r i s m , h y p n o s i s a n d n u c l e a r t r e a t i e s . T h e a v e r a g e  

l e n g t h o f t h e a r t i c l e s i s 3 0 s e n t e n c e s . H u m a n s u b j e c t s a r e g r a d u a t e  

s t u d e n t s i n t h e D e p a r t m e n t o f C o m p u t e r S c i e n c e a t C o l u m b i a U n i v e r -  

s i t y , C o r n e l l U n i v e r s i t y , a n d B e e r - S h e v a U n i v e r s i t y i n I s r a e l .  

6 . 2 R e s u l t s a n d A n a l y s i s  

6 . 2 . 1 A g r e e m e n t A m o n g H u m a n S u b j e c t s  

W e m e a s u r e d a g r e e m e n t a m o n g h u m a n s u b j e c t s u s i n g   p e r c e n t a g r e e -  

m e n t  , a m e t r i c d e n e d b y 3 2 ] f o r t h e s e n s e d i s a m b i g u a t i o n t a s k , b u t  

a l s o u s e d i n o t h e r a p p l i c a t i o n s s u c h a s d i s c o u r s e s e g m e n t a t i o n 1 1 , 8 ] .  

P e r c e n t a g r e e m e n t i s t h e r a t i o o f o b s e r v e d a g r e e m e n t s w i t h t h e m a j o r i t y  

o p i n i o n t o p o s s i b l e a g r e e m e n t s w i t h t h e m a j o r i t y o p i n i o n . F o r o u r e x -  

p e r i m e n t s , a g r e e m e n t a m o n g 3 o r m o r e s u b j e c t s i s a m a j o r i t y o p i n i o n .  

T h e t o t a l p o s s i b l e a g r e e m e n t s w i t h t h e m a j o r i t y o p i n i o n i s t h e n u m -  

b e r o f h u m a n s u b j e c t s t i m e s t h e n u m b e r o f s e n t e n c e s i n a d o c u m e n t .  

Page 74: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 74/95

6 . 2 . R E S U L T S A N D A N A L Y S I S   6 5 

O b s e r v e d a g r e e m e n t e q u a l s t o t h e n u m b e r o f t i m e s t h a t a s u b j e c t ' s d e -  

c i s i o n a g r e e s w i t h t h e m a j o r i t y o p i n i o n , i n c l u d i n g b o t h t h e d e c i s i o n t o  

e x t r a c t t h e s e n t e n c e a n d n o t t o e x t r a c t t h e s e n t e n c e . T h e r e s u l t s a r e  

s h o w n i n T a b l e 6 . 2 .  

L e n g t h A v g . A g r e e m e n t M a x M i n  

1 0 % 9 6 % 1 0 0 % 8 7 %  

2 0 % 9 0 % 1 0 0 % 8 3 %  

T a b l e 6 . 2 : A g r e e m e n t a m o n g 5 h u m a n s u b j e c t s f o r 4 0 d o c u m e n t s .  

W e c a n d r a w t w o c o n c l u s i o n s f r o m t h e a b o v e r e s u l t s : ( 1 ) w h e n h u -  

m a n s u b j e c t s a r e r e q u i r e d t o s u m m a r i z e a n a r t i c l e w i t h i n t h e   s a m e  

s h o r t l e n g t h , t h e y a r e q u i t e c o n s i s t e n t w i t h w h a t s h o u l d b e i n c l u d e d .  

T h i s i s i n d i c a t e d b y t h e h i g h p e r c e n t a g e o f a g r e e m e n t f o r t h e 1 0 %  

l e n g t h s u m m a r i e s . ( 2 ) T h e d e g r e e o f a g r e e m e n t a m o n g h u m a n s u b j e c t s  

t e n d s t o d e c r e a s e a s t h e l e n g t h o f s u m m a r y i n c r e a s e s . T h i s i s s h o w n b y  

l o w e r p e r c e n t a g r e e m e n t a m o n g   s a m e   h u m a n s u b j e c t s w h e n s u m m a r y  

l e n g t h i n c r e a s e s f r o m 1 0 % t o 2 0 % i n t h e e x p e r i m e n t . N o t e t h i s s t a t e -  

m e n t i s n o t v a l i d w h e n t h e l e n g t h o f s u m m a r y i s o u t o f c e r t a i n r a n g e .  

F o r e x a m p l e , t h e p e r c e n t a g r e e m e n t a p p a r e n t l y i n c r e a s e s a s t h e l e n g t h  

i n c r e a s e s f r o m 9 0 % t o 1 0 0 % .  

T h e a b o v e o b s e r v a t i o n a g r e e s w i t h t h o s e p a t t e r n s n o t i c e d b y o t h e r  

r e s e a r c h e r s 3 ] : h u m a n s u b j e c t s a r e q u i t e c o n s i s t e n t w i t h r e s p e c t t o  

w h a t t h e y p e r c e i v e a s b e i n g t h e m o s t i m p o r t a n t b u t l e s s c o n s i s t e n t  

w i t h r e s p e c t t o w h a t t h e y p e r c e i v e a s b e i n g l e s s i m p o r t a n t .  

T h e p e r c e n t a g r e e m e n t i n o u r e x p e r i m e n t i s s u r p r i s i n g l y h i g h c o m -  

p a r e d t o r e s u l t s p r e s e n t e d b y o t h e r r e s e a r c h e r s . 2 0 ] f o u n d p e r c e n t  

a g r e e m e n t o f 1 3 j u d g e s o v e r 5 t e x t s f r o m S c i e n t i c A m e r i c a i s 7 1 % .  

1 2 ] f o u n d t h a t e x t r a c t s s e l e c t e d b y f o u r d i e r e n t h u m a n j u d g e s h a d  

o n l y 2 5 % o v e r l a p . 3 0 ] f o u n d t h a t t h e m o s t i m p o r t a n t 2 0 % p a r a g r a p h s  

e x t r a c t e d b y 2 s u b j e c t s h a v e o n l y 4 6 % o v e r l a p . T w o m a i n r e a s o n s f o r  

t h i s h i g h p e r c e n t a g r e e m e n t a r e t h e s t y l e o f T R E C a r t i c l e s a n d o u r  

r e s t r i c t i o n s o n u n i f o r m l e n g t h . T h e 4 0 d o c u m e n t s u s e d i n t h e e x p e r -  

i m e n t h a v e v e r y s i m i l a r t e x t s t r u c t u r e : a n i n t r o d u c t i o n f o l l o w e d b y  

d e t a i l s , e x a m p l e s , f a c t s , t h e n a s e c o n d a r y p o i n t , s o o n a n d s o f o r t h .  

Page 75: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 75/95

6 6  C H A P T E R 6 . S U M M A R Y E V A L U A T I O N  

M i c r o s o f t L e x i c a l C h a i n D i s c o u r s e S t r u c t u r e  

P r e c R e c a l l P r e c R e c a l l P r e c R e c a l l  

1 0 % 3 3 3 7 6 1 6 7 4 6 6 4  

2 0 % 3 2 3 9 4 7 6 4 3 6 5 5  

T a b l e 6 . 3 : E v a l u a t i o n o f s u m m a r i z a t i o n p r o g r a m s .  

T h e o t h e r r e a s o n i s o u r r e s t r i c t i o n o n u n i f o r m s u m m a r y l e n g t h . T h i s  

e l i m i n a t e s d i e r e n c e s d u e t o p e r c e p t i o n o f o p t i m a l s u m m a r y l e n g t h ; i n  

m o s t o t h e r e x p e r i m e n t s , r e s e a r c h e r s d i d n o t r e q u i r e h u m a n j u d g e s t o  

c r e a t e a s u m m a r y o f a g i v e n l e n g t h .  

6 . 2 . 2 S t a t i s t i c a l S i g n i c a n c e  

U s i n g t h e s a m e m e t h o d o l o g y i n 1 1 , 8 , 2 0 ] , w e a p p l i e d C o c h r a n ' s t e s t  

t o o u r d a t a . F o r o u r a p p l i c a t i o n , C o c h r a n ' s t e s t e v a l u a t e s t h e n u l l  

h y p o t h e s i s t h a t t h e t o t a l n u m b e r o f h u m a n s u b j e c t s e x t r a c t i n g t h e s a m e  

s e n t e n c e i s r a n d o m l y d i s t r i b u t e d . C o c h r a n ' s s t a t i s t i c   Q  a p p r o x i m a t e s  

t h e   

d i s t r i b u t i o n w i t h   j  ?  1 d e g r e e s o f f r e e d o m , w h e r e   j  i s t h e n u m b e r  

o f e l e m e n t s i n t h e d a t a s e t , f o r o u r a p p l i c a t i o n , t h e n u m b e r o f s e n t e n c e s  

i n a d o c u m e n t . O u r r e s u l t s s h o w t h a t t h e a g r e e m e n t a m o n g s u b j e c t s i s  

h i g h l y s i g n i c a n t . T h a t i s , t h e p r o b a b i l i t y t h a t h u m a n s u b j e c t s e x t r a c t  

t h e s a m e s e n t e n c e i s m u c h h i g h e r t h a n w o u l d b e e x p e c t e d b y c h a n c e .  

F o r a l l 4 0 d o c u m e n t s , t h e p r o b a b i l i t y i s v e r y l o w :   p <  1 0 

?  6 

6 . 2 . 3 S y s t e m s C o m p a r i s o n  

T h e \ i d e a l " s u m m a r y w a s c o n s t r u c t e d b y t a k i n g t h e m a j o r i t y o p i n i o n  

o f v e h u m a n s u m m a r i e s a t t h e s a m e l e n g t h , t h e p r e c i s i o n a n d r e c a l l  

w e r e u s e d a s s i m i l a r i t y m e a s u r e s . T h e r e s u l t s a r e s h o w n i n T a b l e 6 . 3 .  

A c c o r d i n g t o o u r d a t a , o u r l e x i c a l c h a i n s u m m a r i z e r i s c l o s e r t o t h e  

h u m a n c o n s t r u c t e d s u m m a r i e s .  

Page 76: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 76/95

C h a p t e r 7  

C o n c e p t u a l M a p s  

I n t h i s c h a p t e r w e d i s c u s s t h e s u b j e c t o f \ c o n c e p t u a l m a p s " | r e p r e -  

s e n t a t i o n o f a s o u r c e t e x t u s i n g l i n k s a m o n g l e x i c a l c h a i n s . F i r s t , w e  

i n t r o d u c e t h e w o r k o f H a s a n | \ C o h e r e n c e a n d C o h e s i v e H a r m o n y " ,  

a s a t h e o r e t i c a l b a s i s f o r b u i l d i n g c o n c e p t u a l m a p s . T h e n , w e p r e s e n t  

o u r a l g o r i t h m f o r c o m p u t i n g c o n c e p t u a l m a p s .  

7 . 1 C h a i n I n t e r a c t i o n a n d \ C o h e s i v e H a r -  

m o n y "  

U p t o t h i s p o i n t , w e d i s c u s s e d t h e c o n t r i b u t i o n o f l e x i c a l c h a i n s t o t e x t  

c o h e s i o n , b u t t h e i s s u e o f c h a i n i n t e r a c t i o n i n t h e t e x t w a s i g n o r e d . T h i s  

s u b j e c t w a s i n t r o d u c e d b y H a s a n 2 8 ] i n t h e c o n t e x t o f h e r r e s e a r c h o f  

c o r r e l a t i o n b e t w e e n c o h e r e n c e a n d \ c o h e s i v e h a r m o n y " . T h e g o a l o f  

t h i s r e s e a r c h w a s t o e x p l o r e w h e t h e r c o h e s i o n c a n p r o v i d e a r e l i a b l e  

m e a s u r e m e n t o f c o h e r e n c e .  

T h e r s t a s s u m p t i o n w a s t h a t t h e d e g r e e o f c o h e r e n c e c o r r e l a t e d  

w i t h t h e n u m e r i c a l o r t h e c a t e g o r i c a l v a r i a t i o n o f c o h e s i v e t i e s . T h i s  

h y p o t h e s i s w a s t e s t e d b y c o m p a r i n g t h e c o h e s i v e n e s s m e a s u r e o f t h e  

t e x t w i t h t h e n u m b e r o f c o h e s i v e t i e s i n i t .  

T h e t e s t m a t e r i a l w a s c h i l d r e n ' s s t o r i e s w i t h d i e r e n t l e v e l s o f c o -  

h e r e n c e A 1 0 , A 9 a n d A 1 3 ( t h e s e a r e i n T a b l e s 7 . 1 t o 7 . 3 ) . T h e j u d g e s  

r a n k e d A 1 0 a s t h e m o s t c o h e r e n t o f t h e t h r e e a n d A 1 3 a t t h e l e a s t .  

T h e r a t i o b e t w e e n   p e r i p h e r a l t o k e n s   ( P T ) | t o k e n s w h i c h a r e n o t  

6 7 

Page 77: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 77/95

6 8  C H A P T E R 7 . C O N C E P T U A L M A P S  

t h e r e w a s o n c e a l i t t l e g i r l a n d a l i t t l e b o y a n d a d o g  

a n d t h e s a i l o r w a s t h e i r d a d d y  

a n d t h e l i t t l e d o g g y w a s w h i t e  

a n d t h e y l i k e t h e i r d o g g y  

a n d t h e y s t r o k e i t  

a n d t h e y f e d i t  

a n d h e r u n a w a y  

a n d t h e n ( u m t h e l i t t l e d o g ) d a d d y ( u m ) h a d t o g o o n a s h i p  

a n d t h e c h i l d r e n m i s s e d ' e m  

a n d t h e y b e g a n t o c r y  

T a b l e 7 . 1 : A 1 0  

t h e r e w a s a g i r l a n d a b o y  

t h e r e w a s a d o g a n d a s a i l o r  

t h e d o g w a s a f u r r y d o g  

a n d t h e g i r l a n d t h e d o g w e r e s i t t i n g d o w n  

a n d t h e s a i l o r w a s s t a n d i n g u p  

a n d t h e t e d d y - b e a r w a s l y i n g d o w n a s l e e p  

a n d t h e s a i l o r w a s l o o k i n g a t ( t h e d o g ) b e a r  

t h e l i t t l e g i r l w a s l a y i n g d o w n t o o  

s h e w a s n ' t a s l e e p  

a n d t h e b o y w a s s i t t i n g u p  

h e w a s l o o k i n g a t t h e b e a r t o o  

T a b l e 7 . 2 : A 9  

o n c e u p o n a t i m e ( t h e r e w a s t w o l i t t l e ) t h e r e w a s a l i t t l e g i r l a n d a b o y  

a n d t h e y w e n t a b o a r d a s h i p  

a n d t h e s a i l o r s a i d t o t h e m t o g o a n d n d a c a r r i a g e  

d o n ' t g o o n t h e s h i p h e r e b e c a u s e I ' m t r y i n g t o d i v e  

b u t t h e d o g c a m e a l o n g  

a n d t h r e w h i m s e l f i n t o t h e s e a  

a n d t h e n h e c a m e b a c k  

a n d ( a l l ) t h e y a l l w e n t h o m e  

a n d h a d a p a r t y  

a n d t h e y l i v e d h a p p i l y e v e r a f t e r  

T a b l e 7 . 3 : A 1 3  

Page 78: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 78/95

7 . 1 . C H A I N I N T E R A C T I O N A N D \ C O H E S I V E H A R M O N Y "   6 9 

P T R T T T  

A 1 0 3 4 0 4 3  

A 9 2 3 0 3 2  

A 1 3 1 2 3 4 4 6  

T a b l e 7 . 4 : M e a s u r e s o f c o h e s i v e t i e s i n t h e t e x t s .  

s u b s u m e d i n c h a i n s a n d   r e l e v a n t t o k e n s   ( R T ) | t o k e n s s u b s u m e d i n  

c h a i n s , w a s c h o s e n a s a p o s s i b l e m e a s u r e o f t h e t e x t c o h e r e n c e . T a -  

b l e 7 . 4 s h o w s n o s i g n i c a n t c o r r e l a t i o n o f t h i s m e a s u r e t o t h e d e g r e e o f  

c o h e r e n c e p e r c e i v e d b y r e a d e r s i n t h e s e t e x t s . O t h e r p r o p o s e d m e t r i c s ,  

s u c h a s t h e n u m b e r o f t i e s p e r c l a u s e a n d t h e l e n g t h o f t h e c h a i n s , d o  

n o t r e e c t t h e d i e r e n c e i n c o h e r e n c e b e t w e e n t h e t e x t s a s w e l l . T h e  

n a l a s s u m p t i o n w a s t h a t c h a i n i n t e r a c t i o n h a v e t o b e c o n s i d e r e d .  

A c h a i n i s c o n s t r u c t e d b a s e d o n a s e m a n t i c p r i n c i p l e w h i c h c r e a t e s  

u n i t y a m o n g s t i t s m e m b e r s . E a c h c h a i n r e p r e s e n t s a \ r e l a t i v e l y s e l f -  

c o n t a i n e d c e n t e r o f u n i t y . " W h e n t h e s e c e n t e r s o f u n i t y a r e b r o u g h t  

t o g e t h e r t h r o u g h c h a i n i n t e r a c t i o n , \ c o h e s i v e h a r m o n y " i s a c h i e v e d .  

H a s a n e m p h a s i z e s t h e d o m i n a n t r o l e o f c h a i n i n t e r a c t i o n a s a s o u r c e o f  

u n i t y i n t h e t e x t .  

A c c o r d i n g t o H a s a n , c h a i n i n t e r a c t i o n o c c u r s o n l y i f t w o o r m o r e  

m e m b e r s o f a c h a i n s t a n d i n t h e s a m e f u n c t i o n a l r e l a t i o n w i t h t w o o r  

m o r e m e m b e r s o f t h e o t h e r c h a i n . N o t a l l c h a i n m e m b e r s p a r t i c i p a t e  

i n c h a i n i n t e r a c t i o n . H a s a n c a l l s t h e c h a i n m e m b e r s w h i c h p a r t i c i p a t e  

i n c h a i n i n t e r a c t i o n a s   c e n t r a l t o k e n s   ( C T ) . T h e h y p o t h e s i s i s t h a t t h e  

C T s o f a t e x t a r e d i r e c t l y r e l e v a n t t o t h e c o h e r e n t d e v e l o p m e n t o f t h e  

t o p i c i n t h e t e x t . H a s a n e x p r e s s e s t h e d e g r e e o f c o h e s i v e h a r m o n y a s t h e  

r a t i o b e t w e e n t o t a l t e x t s t o k e n s t o c e n t r a l t o k e n s i n t h e t e x t . A n o t h e r  

m e a s u r e o f c o h e r e n c e t h a t s h e p r o p o s e s i s t h e r a t i o o f p e r i p h e r a l t o k e n s  

t o c e n t r a l t o k e n s , s o t h a t t h e h i g h e r t h e r a t i o o f C T t o P T , t h e m o r e  

c o h e r e n t t h e t e x t w o u l d b e . R e s u l t s p r e s e n t e d i n T a b l e 7 . 5 s u p p o r t  

t h e s e p r e d i c t i o n s .  

B y a n a l y z i n g a n 8 0 t e x t s d a t a , H a s a n f o u n d t h a t a n y r a n k i n g b y  

t h e m e a s u r e o f c o h e s i v e h a r m o n y | p e r c e n t a g e o f t h e C T o v e r T T |  

\ c o n s i s t e n t l y c o r r e l a t e d w i t h r e a d e r ' s j u d g m e n t o n h o w t h e t e x t s r a n k e d  

Page 79: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 79/95

Page 80: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 80/95

7 . 2 . B U I L D I N G C O N C E P T U A L M A P S   7 1 

F i g u r e 7 . 1 : E x a m p l e o f a c o n c e p t u a l m a p .  

Page 81: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 81/95

7 2  C H A P T E R 7 . C O N C E P T U A L M A P S  

i n t u i t i o n t h a t , i f t w o c o n c e p t s , n o t r e l a t e d t o o n e a n o t h e r a c c o r d i n g t o  

c o m m o n k n o w l e d g e , a r e r e l a t e d i n t h e t e x t , t h e n a n e x p l i c i t r e l a t i o n  

b e t w e e n t h e m m u s t e x i s t i n t h e t e x t .  

7 . 2 . 2 A l g o r i t h m f o r C o n c e p t u a l M a p C o n s t r u c t i o n  

W e p r o p o s e t h e f o l l o w i n g a l g o r i t h m t o b u i l d c o n c e p t u a l m a p s o n c e  

l e x i c a l c h a i n s h a v e b e e n i d e n t i e d :  

1 . C a l c u l a t e c h a i n s a n d s e l e c t i m p o r t a n t c h a i n s .  

2 . F o r e v e r y t w o c h a i n s n d a l l u n i t s i n w h i c h w o r d s o f t h e s e t w o  

c h a i n s c o - o c c u r .  

3 . F o r e v e r y c h a i n , c h o o s e a w o r d t h a t r e p r e s e n t s t h e c o n c e p t . ( W e  

c u r r e n t l y s e l e c t t h e m o s t f r e q u e n t o n e . )  

4 . P u t t h e e d g e s b e t w e e n t w o c o n c e p t s t h a t i n t e r a c t | h a v e a t l e a s t  

t w o c o - o c c u r r e n c e s , a c c o r d i n g t o H a s a n .  

T h e c r u c i a l p o i n t o f t h i s a l g o r i t h m i s t h e s e c o n d s t e p . C u r r e n t l y  

w e u s e a s a u n i t e l e m e n t t h e w h o l e s e n t e n c e , a n d t h i s i n c r e a s e t h e  

n u m b e r o f r e l a t e d c o n c e p t s , e s p e c i a l l y i f a t e x t c o n s i s t s o f m u l t i - c l a u s e  

s e n t e n c e s . P a r t i a l s o l u t i o n t o t h i s p r o b l e m i s t o d i v i d e c o m p l e x s e n -  

t e n c e s t o c l a u s e s , a n d u s e c l a u s e a s a u n i t e l e m e n t i n o u r s e c o n d s t e p .  

C u r r e n t l y , t h e r e i s n o r o b u s t t o o l a v a i l a b l e f o r u s f o r c l a u s e d i v i s i o n .  

P r e c i s e r e c o g n i t i o n o f c h a i n i n t e r a c t i o n r e q u i r e s i n f o r m a t i o n a b o u t t h e  

s y n t a c t i c r o l e s o f w o r d s i n t h e s e n t e n c e , t h i s r e q u i r e s u s i n g a p a r s e r . I f  

a p a r s e r i s a v a i l a b l e , t h e m a j o r i t y o f c h a i n i n t e r a c t i o n s c a n b e i d e n t i e d  

f r o m t h e p a r s e r ' s o u t p u t b y r e g u l a r e x p r e s s i o n s .  

E x a m p l e s :  

v e r b ( w 1 , w 2 )  

w 1  w 2  a r e a r g u m e n t s o f t h e s a m e  

v e r b  

\  M i c h a e l c r e a t e d F U F   " 

p r o p ( w 1 , w 2 )  

w 1  w 2  a r e m e m b e r s o f t h e s a m e  

p r o p o s i t i o n a l p h r a s e  

\  O w e n f r o m C o g e n T e x  " 

A m o r e p r o b l e m a t i c c a s e f o r i d e n t i c a t i o n a r e t h e c a s e s w h e r e w o r d s  

d o n o t i n t e r a c t d i r e c t l y , b u t t h e i r g r o u p s d o i n t e r a c t . F o r e x a m p l e , i n  

t h e s e n t e n c e \  a m a c h i n e t o c o n t r o l t h e r a t e o f d r u g w a s i n v e n t e d b y a  

Page 82: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 82/95

7 . 2 . B U I L D I N G C O N C E P T U A L M A P S   7 3 

g r o u p o f r e s e a r c h e r s f r o m H C I   " , t h e g r o u p s \  a m a c h i n e t o c o n t r o l t h e  

r a t e o f d r u g  " a n d \  a g r o u p o f r e s e a r c h e r s f r o m H C I  " a r e r e l a t e d a s  

a r g u m e n t s o f t h e v e r b \ i n v e n t " . S e m a n t i c a l l y , t h e c o n c e p t s \  m a c h i n e   " 

a n d \  r e s e a r c h e r s   " i n t e r a c t i n t h i s s e n t e n c e ( \ t h e r e s e a r c h e r s i n v e n t e d  

t h e m a c h i n e " ) , b u t s y n t a c t i c a l l y , t h e y d o n o t h a v e a n y d i r e c t i n t e r a c -  

t i o n . A q u i c k s o l u t i o n c a n b e t o c o n s i d e r i n d i r e c t i n t e r a c t i o n a s a c a s e  

o f c h a i n i n t e r a c t i o n . H o w e v e r , a c c o r d i n g t o t h i s d e c i s i o n , t h e c o n c e p t s  

\ r a t e " a n d \ H C I " w i l l b e c o n s i d e r e d r e l a t e d , w h i l e t h e y a r e n o t . A n  

a c c u r a t e l i s t o f s y n t a c t i c r e l a t i o n s w h i c h i m p l y c h a i n i n t e r a c t i o n i s a  

s u b j e c t f o r f u t u r e r e s e a r c h .  

T o c o n c l u d e , o u r c o m p u t a t i o n a l m o d e l m a k e i t p o s s i b l e t o b u i l d  

c o n c e p t u a l m a p s , b u t t h e u s e o f a p a r s e r a n d s p e c i c a t i o n o f s y n t a c t i c  

r e l a t i o n s o f c h a i n i n t e r a c t i o n w i l l s i g n i c a n t l y i n c r e a s e p e r f o r m a n c e .  

Page 83: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 83/95

Page 84: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 84/95

C h a p t e r 8  

C o n t r i b u t i o n s , L i m i t a t i o n s a n d  

F u t u r e W o r k  

8 . 1 C o n t r i b u t i o n s  

8 . 1 . 1 T h e C h a i n i n g A l g o r i t h m  

  W e i m p l e m e n t e d a n e w a l g o r i t h m f o r c o m p u t i n g c h a i n s | - a  

d y n a m i c a l g o r i t h m b a s e d o n t e x t s e g m e n t a t i o n .  

  W e p r e s e n t e d a g e n e r i c c o m p u t a t i o n a l m o d e l f o r c h a i n c o m p u t a -  

t i o n , w h i c h g e n e r a l i z e s v a r i o u s e x i s t i n g l e x i c a l c h a i n a l g o r i t h m s .  

  A n i n t r i n s i c e v a l u a t i o n i s p e r f o r m e d b y i d e n t i f y i n g h o w s u c c e s s -  

f u l t h e l e x i c a l c h a i n e r i s i n d i s a m b i g u a t i n g n o u n s i n t h e c o n t e x t .  

W e v e r i e d t h a t o u r v a l u e s e t t i n g s f o r s y s t e m p a r a m e t e r s w e r e  

o p t i m a l .  

  T h e i n u e n c e o f T h e s a u r u s q u a l i t y a n d t e x t p r o p e r t i e s w e r e f o u n d  

t o b e c r u c i a l f o r t h e c h a i n i n g a l g o r i t h m .  

8 . 1 . 2 S u m m a r i z a t i o n  

  W e p r e s e n t e d a n e w s u m m a r i z a t i o n a l g o r i t h m , b a s e d o n a m o d e l  

o f t h e t o p i c p r o g r e s s i o n i n t h e t e x t d e r i v e d f r o m l e x i c a l c h a i n s .  

7 5 

Page 85: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 85/95

7 6  C H A P T E R 8 . C O N T R I B U T I O N S A N D F U T U R E W O R K  

  A n e x t r i n s i c e v a l u a t i o n w a s p e r f o r m e d , t h a t w a s u s e d t o d e t e r -  

m i n e t o t h e e x t e n t t o w h i c h t h e s e n t e n c e s e x t r a c t e d b y t h e s u m -  

m a r i z e r m a t c h t h o s e t h a t h u m a n j u d g e s w o u l d e x t r a c t . W e c o m -  

p a r e d o u r s u m m a r i z e r w i t h t w o o t h e r a v a i l a b l e s u m m a r i z a t i o n  

s y s t e m s a n d f o u n d o u r a p p r o a c h t o g i v e r e s u l t s s i g n i c a n t l y c l o s e r  

t o h u m a n j u d g e s ( u s i n g t h e m a j o r i t y r u l e ) t h a n t h e o t h e r s y s t e m s .  

  W e p r e s e n t e d a n a l t e r n a t i v e m e t h o d o f s o u r c e t e x t r e p r e s e n t a t i o n  

b a s e d o n i n t e r a c t i o n o f m a i n t e x t c o n c e p t s | \ c o n c e p t u a l m a p s " .  

8 . 2 L i m i t a t i o n s & F u t u r e W o r k  

8 . 2 . 1 T h e S u m m a r i z a t i o n S y s t e m  

W e h a v e i d e n t i e d t h e f o l l o w i n g m a i n p r o b l e m s w i t h o u r s u m m a r i z a t i o n  

m e t h o d :  

  S e n t e n c e g r a n u l a r i t y | a l l o f o u r m e t h o d s e x t r a c t w h o l e s e n t e n c e s  

a s s i n g l e u n i t s . T h i s h a s s e v e r a l d r a w b a c k s : l o n g s e n t e n c e s h a v e  

s i g n i c a n t l y h i g h e r l i k e l i h o o d t o b e s e l e c t e d , t h e y a l s o i n c l u d e  

m a n y c o n s t i t u e n t s w h i c h w o u l d n o t h a v e b e e n s e l e c t e d o n t h e i r  

o w n m e r i t . T h e a l t e r n a t i v e i s e x t r e m e l y c o s t l y , i t i n v o l v e s p a r s i n g  

o f t h e s e n t e n c e s , t h e e x t r a c t i o n o f o n l y t h e c e n t r a l c o n s t i t u e n t s  

f r o m t h e s o u r c e t e x t a n d t h e r e g e n e r a t i o n o f a s u m m a r y t e x t u s i n g  

t e x t g e n e r a t i o n t e c h n i q u e s .  

  E x t r a c t e d s e n t e n c e s c o n t a i n a n a p h o r a l i n k s t o t h e r e s t o f t h e t e x t .  

T h i s h a s b e e n i n v e s t i g a t e d a n d o b s e r v e d b y 2 ] . S e v e r a l h e u r i s t i c s  

h a v e b e e n p r o p o s e d i n t h e l i t e r a t u r e t o a d d r e s s t h i s p r o b l e m 2 6 ] ,  

2 7 ] a n d 2 ] . T h e s t r o n g e s t s e e m s t o b e t o i n c l u d e t o g e t h e r w i t h  

t h e e x t r a c t e d s e n t e n c e t h e o n e i m m e d i a t e l y p r e c e d i n g i t . U n -  

f o r t u n a t e l y , w h e n w e s e l e c t t h e r s t s e n t e n c e i n a s e g m e n t , t h e  

p r e c e d i n g s e n t e n c e d o e s n o t b e l o n g t o t h e p a r a g r a p h a n d i t s i n -  

s e r t i o n h a s a d e t r i m e n t a l e e c t o n t h e o v e r a l l c o h e r e n c e o f t h e  

s u m m a r y . A p r e f e r a b l e s o l u t i o n w o u l d b e t o r e p l a c e a n a p h o r a  

w i t h t h e i r r e f e r e n t , b u t a g a i n t h i s i s a n e x t r e m e l y c o s t l y s o l u t i o n .  

Page 86: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 86/95

Page 87: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 87/95

7 8  C H A P T E R 8 . C O N T R I B U T I O N S A N D F U T U R E W O R K  

Page 88: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 88/95

A p p e n d i x A  

B a y e s i a n N e t w o r k s T e x t  

A . 1 T h e R a w T e x t  

W h e n M i c r o s o f t S e n i o r V i c e P r e s i d e n t S t e v e B a l l m e r r s t h e a r d h i s c o m p a n y w a s p l a n -  

n i n g t o m a k e a h u g e i n v e s t m e n t i n a n I n t e r n e t s e r v i c e o e r i n g m o v i e r e v i e w s a n d l o c a l

e n t e r t a i n m e n t i n f o r m a t i o n i n m a j o r c i t i e s a c r o s s t h e n a t i o n , h e w e n t t o C h a i r m a n B i l l

G a t e s w i t h h i s c o n c e r n s .

A f t e r a l l , B a l l m e r h a s b i l l i o n s o f d o l l a r s o f h i s o w n m o n e y i n M i c r o s o f t s t o c k , a n d  

e n t e r t a i n m e n t i s n ' t e x a c t l y t h e c o m p a n y ' s s t r o n g p o i n t .

B u t G a t e s d i s m i s s e d s u c h r e s e r v a t i o n s . M i c r o s o f t ' s c o m p e t i t i v e a d v a n t a g e , h e r e -  

s p o n d e d , w a s i t s e x p e r t i s e i n B a y e s i a n n e t w o r k s .

A s k e d r e c e n t l y w h e n c o m p u t e r s w o u l d n a l l y b e g i n t o u n d e r s t a n d h u m a n s p e e c h , G a t e s  

b e g a n d i s c u s s i n g t h e c r i t i c a l r o l e o f \ B a y e s i a n " s y s t e m s .

A s k a n y o t h e r s o f t w a r e e x e c u t i v e a b o u t a n y t h i n g B a y e s i a n a n d y o u ' r e l i a b l e t o g e t a  

b l a n k s t a r e .

I s G a t e s o n t o s o m e t h i n g ? I s t h i s a l i e n - s o u n d i n g t e c h n o l o g y M i c r o s o f t ' s n e w s e c r e t  

w e a p o n ?  

B a y e s i a n n e t w o r k s a r e c o m p l e x d i a g r a m s t h a t o r g a n i z e t h e b o d y o f k n o w l e d g e i n a n y  

g i v e n a r e a b y m a p p i n g o u t c a u s e - a n d - e e c t r e l a t i o n s h i p s a m o n g k e y v a r i a b l e s a n d e n -  

c o d i n g t h e m w i t h n u m b e r s t h a t r e p r e s e n t t h e e x t e n t t o w h i c h o n e v a r i a b l e i s l i k e l y t o  

a e c t a n o t h e r .

P r o g r a m m e d i n t o c o m p u t e r s , t h e s e s y s t e m s c a n a u t o m a t i c a l l y g e n e r a t e o p t i m a l p r e d i c -  

t i o n s o r d e c i s i o n s e v e n w h e n k e y p i e c e s o f i n f o r m a t i o n a r e m i s s i n g .

W h e n M i c r o s o f t i n 1 9 9 3 h i r e d E r i c H o r v i t z , D a v i d H e c k e r m a n a n d J a c k B r e e s e , p i o n e e r s  

i n t h e d e v e l o p m e n t o f B a y e s i a n s y s t e m s , c o l l e a g u e s i n t h e e l d w e r e s u r p r i s e d . T h e e l d  

w a s s t i l l a n o b s c u r e , l a r g e l y a c a d e m i c e n t e r p r i s e .

T o d a y t h e e l d i s s t i l l o b s c u r e . B u t s c r a t c h t h e s u r f a c e o f a r a n g e o f n e w M i c r o s o f t  

p r o d u c t s a n d y o u ' r e l i k e l y t o n d B a y e s i a n n e t w o r k s e m b e d d e d i n t h e s o f t w a r e . A n d  

B a y e s i a n n e t s a r e b e i n g b u i l t i n t o m o d e l s t h a t a r e u s e d t o p r e d i c t o i l a n d s t o c k p r i c e s ,

7 9 

Page 89: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 89/95

Page 90: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 90/95

Page 91: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 91/95

8 2  A P P E N D I X A . B A Y E S I A N N E T W O R K S T E X T  

Page 92: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 92/95

B i b l i o g r a p h y  

1 ] R e g i n a B a r z i l a y a n d M i c h a e l E l h a d a d . U s i n g l e x i c a l c h a i n s f o r  

t e x t s u m m a r i z a t i o n . I n   A C L / E A C L - 9 7 s u m m a r i z a t i o n w o r k s h o p  , 

p a g e s 1 0 { 1 8 , M a d r i d , 1 9 9 7 .  

2 ] W i l l i a m J . B l a c k . P a r s i n g , l i n g u i s t i c r e s o u r c e s a n d s e m a n t i c a n a l -  

y s i s , f o r a b s t r a c t i n g a n d c a t e g o r i z a t i o n . 1 9 9 4 .  

3 ] J o h n s o n R o n a l d E . R e c a l l o f p r o s e a s a f u n c t i o n o f s t r u c t u r a l  

i m p o r t a n c e o f l i n g u i s t i c u n i t s .   J o u r n a l o f V e r b a l L e a r n i n g a n d  

V e r b a l B e h a v i o u r  , 9 : 1 2 { 2 0 , 1 9 7 0 .  

4 ] H . P . E d m u n s o n . N e w m e t h o d s i n a u t o m a t i c a b s t r a c t i n g .   J o u r n a l  

o f t h e A C M   , 1 6 ( 2 ) : 2 6 4 { 2 8 5 , 1 9 6 9 .  

5 ] D o n n a H a r m a n . T r e c . I n   A n O v e r v i e w o f T h e T h i r d T e x t R e -  

t r e i v a l C o n f e r e n c e  , G a i t h e s b u r g , M D , 1 9 9 4 . N a t i o n a l I n s t i t u t e o f  

S t a n d a r d s a n d T e c h n o l o g y .  

6 ] M i c h a e l H a s a n a n d R u q a i y a H a l l i d a y .   C o h e s i o n i n E n g l i s h   . L o n g -  

m a n , L o n d o n , 1 9 7 6 .  

7 ] M i c h a e l H a s a n a n d R u q a i y a H a l l i d a y .   A n I n t r o d u c t i o n t o F u n c -  

t i o n a l G r a m m a r  . E d w a r d A r n o l d , L o n d o n , 1 9 8 5 .  

8 ] M . H e a r s t . M u l t i - p a r a g r a p h s e g m e n t a t i o n o f e x p o s i t o r y t e x t . I n  

P r o c e e d i n g s o f t h e 3 2 t h A n n u a l M e e t i n g o f t h e A s s o c i a t i o n f o r  

C o m p u t a t i o n a l L i n g u i s t i c s ( A C L - 9 4 )  , p a g e s 9 { 1 6 , L a s C r u c e s , N e w  

M e x i c o , 1 9 9 4 .  

8 3 

Page 93: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 93/95

8 4  B I B L I O G R A P H Y  

9 ] G r a e m e H i r s t a n d D a v i d S t - O n g e . L e x i c a l c h a i n s a s r e p r e s e n t a -  

t i o n o f c o n t e x t f o r t h e d e t e c t i o n a n d c o r r e c t i o n o f m a l a p r o p i s m s .  

I n C h r i s t i a n e F e l l b a u m , e d i t o r ,   W o r d N e t : A n e l e c t r o n i c l e x i c a l  

d a t a b a s e a n d s o m e o f i t s a p p l i c a t i o n s  . C a m b r i d g e , M A : T h e M I T  

P r e s s , 1 9 9 7 t o a p p e a r ] .  

1 0 ] M . H o e y .   P a t t e r n s o f L e x i s i n T e x t  . O x f o r d U n i v e r s i t y P r e s s ,  

O x f o r d , 1 9 9 1 .  

1 1 ] P a s s o n n e a u R e b e c c a J . a n d D i a n e J . L i t m a n . I n t e n t i o n - b a s e d s e g -  

m e n t a t i o n : h u m a n r e l i a b i l i t y a n d c o r r e l a t i o n w i t h l i n g u i s t i c c u e s .  

I n  P r o c e e d i n g s o f t h e 3 1 t h A n n u a l M e e t i n g o f t h e A s s o c i a t i o n f o r  

C o m p u t a t i o n a l L i n g u i s t i c s ( A C L - 9 3 )  , p a g e s 1 4 8 { 1 5 5 , O h i o , 1 9 9 3 .  

1 2 ] R a t h G . J . , R e s n i c k A . , a n d S a v a g e R . T h e f o r m a t i o n o f a b s t r a c t s  

b y t h e s e l e c t i o n o f s e n t e n c e s : P a r t 1 : s e n t e n c e s e l e c t i o n b y m a n  

a n d m a c h i n e s .   A m e r i c a n D o c u m e n t a t i o n  , 1 2 ( 2 ) : 1 3 9 { 1 4 1 , 1 9 6 1 .  

1 3 ] H o b b s J e r r y . C o h e r e n c e a n d c o r e f e r e n c e . T e c h n i c a l R e p o r t T e c h -  

n i c a l n o t e 1 6 8 , S R I I n t e r n a t i o n a l , 1 9 7 8 .  

1 4 ] H o n g - Y a n J i n g , R e g i n a B a r z i l a y , K a t h l e e n M c K e o w n , a n d M i c h a e l  

E l h a d a d . S u m m a r i z a t i o n e v a l u a t i o n m e t h o d s : E x p e r i m e n t s a n d  

a n a l y s i s . I n   P r o c e e d i n g s o f A A A I - 9 8 S y m p o s i u m   , 1 9 9 8 t o a p p e a r ] .  

1 5 ] K a r e n S p a r c k J o n e s . W h a t m i g h t b e i n s u m m a r y ?   I n f o r m a t i o n  

R e t r i e v a l  , 1 9 9 3 .  

1 6 ] K a r e n S p a r c k J o n e s a n d J . R . G a l l i e r s .   E v a l u a t i n g n a t u r a l l a n g u a g e  

p r o c e s s i n g s y s t e m s : a n a n a l y s i s a n d r e v i e w   . N e w Y o r k : S p r i n g e r ,  

1 9 9 6 .  

1 7 ] J u l i a n K u p i e c , J a n P e d e r s o n , a n d F r a n c i n e C h e n . A t r a i n a b l e  

d o c u m e n t s u m m a r i z e r . I n   S I G I R ' 9 5  , p a g e s 6 8 { 7 3 , S e a t t l e , W a s h -  

i n g t o n , 1 9 9 5 .  

1 8 ] H . P . L u h n . T h e a u t o m a t i c c r e a t i o n o f l i t e r a t u r e a b s t r a c t s . I n  

S c h u l t z , e d i t o r ,   H . P . L u h n : P i o n e e r o f I n f o r m a t i o n S c i e n c e  . S p a r -  

t a n , 1 9 6 8 .  

Page 94: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 94/95

B I B L I O G R A P H Y   8 5 

1 9 ] W . C . M a n n a n d S . T h o m p s o n . R h e t o r i c a l s t r u c t u r e t h e o r y : d e -  

s c r i p t i o n a n d c o n s t r u c t i o n s o f t e x t s t r u c t u r e s . I n G e r a r d K e m p e n ,  

e d i t o r ,   N a t u r a l L a n g u a g e G e n e r a t i o n : N e w R e s u l t s i n A r t i c i a l  

I n t e l l l i g e n c e , P s y c h o l o g y a n d L i n g u i s t i c s  , p a g e s 8 5 { 9 6 . M a r t i n u s  

N i n j h o P u b l i s h e r s , 1 9 8 7 .  

2 0 ] D a n i e l M a r c u . F r o m d i s c o u r s e s t r u c t u r e s t o t e x t s u m m a r i e s . I n  

A C L / E A C L - 9 7 s u m m a r i z a t i o n w o r k s h o p  , p a g e s 8 2 { 8 8 , M a d r i d ,  

1 9 9 7 .  

2 1 ] K a t h l e e n M c K e o w n a n d D r a g o m i r R a d e v . G e n e r a t i n g s u m m a r i e s  

o f m u l t i p l e n e w s a r t i c l e s . I n   S I G I R 9 5 P r o c e e d i n g s  , 1 9 9 5 .  

2 2 ] S e i j i M i i k e , E t s u o I t o h , K e n j i O n o , a n d K a z u o S u m i t a . A f u l l - t e x t  

r e t r i e v a l s y s t e m w i t h a d y n a m i c a b s t r a c t g e n e r a t i o n f u n c t i o n . I n  

S I G I R ' 9 4  , p a g e s 1 5 2 { 1 6 1 , S e a t t l e , W a s h i n g t o n , 1 9 9 4 .  

2 3 ] G e o r g e A . M i l l e r , R i c h a r d B e c k w i t h , C h r i s t i a n e F e l l b a u m , D e r e k  

G r o s s , a n d K a t h e r i n e J . M i l l e r . I n t r o d u c t i o n t o W o r d N e t : A n o n -  

l i n e l e x i c a l d a t a b a s e .   I n t e r n a t i o n a l J o u r n a l o f L e x i c o g r a p h y ( s p e -  

c i a l i s s u e )   , 3 ( 4 ) : 2 3 5 { 3 1 2 , 1 9 9 0 .  

2 4 ] J . M o r r i s a n d G . H i r s t . L e x i c a l c o h e s i o n c o m p u t e d b y t h e s a u r a l  

r e l a t i o n s a s a n i n d i c a t o r o f t h e s t r u c t u r e o f t h e t e x t .   C o m p u t a t i o n a l  

L i n g u i s t i c s  , 1 7 ( 1 ) : p p . 2 1 { 4 5 , 1 9 9 1 .  

2 5 ] K e n j i O n o , K a z u o S u m i t a , a n d S e i j i M i i k e . A b s t r a c t g e n e r a -  

t i o n b a s e d o n r h e t o r i c a l s t r u c t u r e e x t r a c t i o n . I n   P r o c e e d i n g s o f  

t h e 1 5 t h I n t e r n a t i o n a l C o n f e r e n c e o n C o m p u t a t i o n a l L i n g u i s t i c s  

( C O L I N G - 9 4 )  , v o l u m e 1 , p a g e s 3 4 4 { 3 8 4 , K y o t o , J a p a n , 1 9 9 4 .  

2 6 ] C . D . P a i c e . C o n s t r u c t i n g l i t e r a t u r e a b s t r a c t s b y c o m p u t e r : t e c h -  

n i q u e s a n d p r o s p e c t s .   I n f o r m a t i o n P r o c e s s i n g a n d M a n a g e m e n t  , 

2 6 ( 1 ) : 1 7 1 { 1 8 6 , 1 9 9 0 .  

2 7 ] C . D P a i c e a n d G . D . H u s k . T o w a r d s t h e a u t o m a t i c r e c o g m i t i o n o f  

a n a p h o r i c f e a t u r e s i n e n g l i s h t e x t : T h e i m p e r s o n a l p r o n o u n \ i t " .  

C o m p u t e r S p e e c h a n d L a n g u a g e  , 2 : p p . 1 0 9 { 1 3 2 , 1 9 9 1 .  

Page 95: Lex Chains

8/8/2019 Lex Chains

http://slidepdf.com/reader/full/lex-chains 95/95

8 6  B I B L I O G R A P H Y  

2 8 ] H a s a n R .   R e a d i n g C o m p r e h e n s i o n  , c h a p t e r C o h e r e n c e a n d C o h e -  

s i v e H a r m o n y . 1 9 8 4 .  

2 9 ] P R o g e t .   R o g e t ' s I n t e r n a t i o n a l T h e s a u r u s  . H a r p e r a n d R o w P u b -  

l i s h e r s I n c . , 4 t h e d i t i o n , 1 9 7 7 .  

3 0 ] G . S a l t o n , A . S i n g h a l , M . M i t r a , a n d C . B u c k l e y . A u t o m a t i c t e x t  

s t r u c t u r i n g a n d s u m m a r i z a t i o n .   I n f o r m a t i o n P r o c e s s i n g a n d M a n -  

a g e m e n t  , 3 3 ( 2 ) : 1 9 3 { 2 0 8 , 1 9 9 7 .  

3 1 ] M a r k A . S t a i r m a n d .   A C o m p u t a t i o n a l A n a l y s i s o f L e x i c a l C o -  

h e s i o n w i t h A p p l i c a t i o n s i n I n f o r m a t i o n R e t r i e v a l  . P h D t h e s i s ,  

C e n t e r f o r C o m p u t a t i o n a l L i n g u i s t i c s , U M I S T , M a n c h e s t e r , 1 9 9 6 .  

3 2 ] G a l e W i l l i a m , K e n n e t h W . C h u r c h , a n d D a v i d Y a r o w s k y . E s t i m a t -  

i n g u p p e r a n d l o w e r b o u n d s o n t h e p e r f o r m a n c e o f w o r d - s e n s e d i s -  

a m b i g u a t i o n p r o g r a m s . I n   P r o c e e d i n g s o f t h e 3 0 t h A n n u a l M e e t i n g  

o f t h e A s s o c i a t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s ( A C L - 9 2 )  , p a g e s  

2 4 9 { 2 5 6 , 1 9 9 2 .