A Maximum Likelihood Approach to Continuos Speech Recognition

Post on 14-Apr-2018

215 views 0 download

Transcript of A Maximum Likelihood Approach to Continuos Speech Recognition

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    1/12

    I E E E TRANSACTIONS O N PATTERN ANALYSIS A ND MACHINE INTELLIGENCE, VOL. P A M I - 5 , NO . 2 , MARCH 1 9 8 3

    A Maximum L i k e l i h o o d A p p r o a c h t o C o n t i n u o u sS p e e c h R e c o g n i t i o nLALIT R . BAHL, MEMBE R , IEEE, FREDERICK J E L I N E K , FELLOW, IEEE, AND R O B E R T L . MERCER

    A b s t r a c t - S p e e c h r e c o g n i t i o n i s f o r m u l a t e d a s a p r o b l e m o f maximuml i k e l i h o o d d e c o d i n g . T h i s f o r m u l a t i o n r e q u i r e s s t a t i s t i c a l m o d e l s o f t h es p e e c h p r o d u c t i o n p r o c e s s . I n t h i s p a p e r , we d e s c r i b e a n u m b e r o f s t a -t i s t i c a l m o d e l s f o r u s e i n s p e e c h r e c o g n i t i o n . We g i v e s p e c i a l a t t e n t i o nt o d e t e r m i n i n g t h e p a r a m e t e r s f o r s u c h m o d e l s f r o m s p a r s e d a t a . Wea l s o d e s c r i b e t w o d e c o d i n g m e t h o d s , o n e a p p r o p r i a t e f o r c o n s t r a i n e da r t i f i c i a l l a n g u a g e s a n d o n e a p p r o p r i a t e f o r m o r e r e a l i s t i c d e c o d i n gt a s k s . To i l l u s t r a t e t h e u s e f u l n e s s o f t h e m e t h o d s d e s c r i b e d , we r e v i e wa n u m b e r o f d e c o d i n g r e s u l t s t h a t h a v e b e e n o b t a i n e d w i t h t h e m .I n d e x T e r m s - M a r k o v m o d e l s , maximum l i k e l i h o o d , p a r a m e t e r e s t i -m a t i o n , s p e e c h r e c o g n i t i o n , s t a t i s t i c a l m o d e l s .

    I . I N T R O D U C T I O NTHE AIM o f r e s e a r c h i n a u t o m a t i c s p e e c h r e c o g n i t i o n i st h e d e v e l o p m e n t o f a d e v i c e t h a t t r a n s c r i b e s n a t u r a l s p e e c ha u t o m a t i c a l l y . T h r e e a r e a s o f s p e e c h r e c o g n i t i o n r e s e a r c h c a nb e d i s t i n g u i s h e d : 1 ) i s o l a t e d w o r d r e c o g n i t i o n w h e r e w o r d s a r es e p a r a t e d b y d i s t i n c t p a u s e s ; 2 ) c o n t i n u o u s s p e e c h r e c o g n i t i o nw h e r e s e n t e n c e s a r e p r o d u c e d c o n t i n u o u s l y i n a n a t u r a l m a n -n e r ; a n d 3 ) s p e e c h u n d e r s t a n d i n g w h e r e t h e a i m i s n o t t r a n -s c r i p t i o n b u t u n d e r s t a n d i n g i n t h e s e n s e t h a t t h e s y s t e m ( e . g . ,a r o b o t o r a d a t a b a s e q u e r y s y s t e m ) r e s p o n d s c o r r e c t l y t o as p o k e n i n s t r u c t i o n o r r e q u e s t . C o m m e r c i a l l y a v a i l a b l e p r o d -u c t s e x i s t f o r i s o l a t e d w o r d r e c o g n i t i o n w i t h v o c a b u l a r i e s o fu p t o s e v e r a l h u n d r e d w o r d s .A l t h o u g h t h i s a r t i c l e i s c o n f i n e d t o c o n t i n u o u s s p e e c h r e c o g -n i t i o n ( C S R ) , t h e s t a t i s t i c a l m e t h o d s d e s c r i b e d a r e a p p l i c a b l et o t h e o t h e r t w o a r e a s o f r e s e a r c h a s w e l l . A c o u s t i c s , p h o n e t -i c s , a n d s i g n a l p r o c e s s i n g a r e d i s c u s s e d h e r e o n l y a s r e q u i r e d t op r o v i d e b a c k g r o u n d f o r t h e e x p o s i t i o n o f s t a t i s t i c a l m e t h o d su s e d i n t h e r e s e a r c h c a r r i e d o u t a t I B M .P r o d u c t s w h i c h r e c o g n i z e c o n t i n u o u s l y s p o k e n s m a l l v o c a b u -l a r i e s a r e a l r e a d y o n t h e m a r k e t b u t t h e g o a l o f u n r e s t r i c t e dc o n t i n u o u s s p e e c h r e c o g n i t i o n i s f a r f r o m b e i n g r e a l i z e d . A l lc u r r e n t r e s e a r c h i s c a r r i e d o u t r e l a t i v e t o t a s k d o m a i n s w h i c hg r e a t l y r e s t r i c t t h e s e n t e n c e s t h a t c a n b e u t t e r e d . T h e s e t a s kd o m a i n s a r e o f t w o k i n d s : t h o s e w h e r e t h e a l l o w e d s e n t e n c e sa r e p r e s c r i b e d a p r i o r i b y a g r a m m a r d e s i g n e d b y t h e e x p e r i -m e n t e r ( r e f e r r e d t o a s a r t i f i c i a l t a s k s ) , a n d t h o s e r e l a t e d t o al i m i t e d a r e a o f n a t u r a l d i s c o u r s e w h i c h t h e e x p e r i m e n t e r t r i e st o m o d e l f r o m o b s e r v e d d a t a ( r e f e r r e d t o a s n a t u r a l t a s k s ) .E x a m p l e s o f n a t u r a l t a s k s a r e t h e t e x t o f b u s i n e s s l e t t e r s ,p a t e n t a p p l i c a t i o n s , b o o k r e v i e w s , e t c .

    M a n u s c r i p t r e c e i v e d F e b r u a r y 2 3 , 1 9 8 1 ; r e v i s e d S e p t e m b e r 2 8 , 1 9 8 2 .T h e a u t h o r s a r e w i t h t h e IB M T . J . W a t s o n R e s e a r c h C e n t e r , Y o r k -t o w n H e i g h t s , NY 1 0 5 9 8 .

    TE T ACOUSTIC LINGUISTICGENERATOR----aSPEAKER PROCESSOR _ _ . D E C O D E R

    SPEECH RECOGNIZERF i g . 1 . A c o n t i n u o u s s p e e c h r e c o g n i t i o n s y s t e m .

    TEXT SPEAKER ACOUSTIC LINGUISTIC wGENERATOR PROCESSOR DECODERACOUSTIC CHANNEL

    F i g . 2 . T h e c o m m un i ca t i o n t h e o r y v i e w o f s p e e c h r e c o g n i t i o n .I n a d d i t i o n t o t h e c o n s t r a i n t i m p o s e d b y t h e t a s k d o m a i n ,t h e e x p e r i m e n t a l e n v i r o n m e n t i s o f t e n r e s t r i c t e d i n s e v e r a lo t h e r ways. F o r e x a m p l e , a t IBM s p e e c h i s r e c o r d e d w i t h ah e a d s e t m i c r o p h o n e ; t h e s y s t e m i s t u n e d t o a s i n g l e t a l k e r ; t h et a l k e r i s p r o m p t e d b y a s c r i p t , f a l s e s t a r t s a r e e l i m i n a t e d , e t c . ;r e c o g n i t i o n o f t e n r e q u i r e s many s e c o n d s o f CPU t i m e f o r e a c hs e c o n d o f s p e e c h .T h e b a s i c CSR s y s t e m c o n s i s t s o f an a c o u s t i c p r o c e s s o r( A P ) f o l l o w e d b y a l i n g u i s t i c d e c o d e r ( L D ) a s shown i n F i g . 1 .T r a d i t i o n a l l y , t h e a c o u s t i c p r o c e s s o r i s d e s i g n e d t o a c t a s a

    p h o n e t i c i a n , t r a n s c r i b i n g t h e s p e e c h w a v e f o r m i n t o a s t r i n g o fp h o n e t i c s y m b o l s , w h i l e t h e l i n g u i s t i c d e c o d e r t r a n s l a t e s t h ep o s s i b l y g a r b l e d p h o n e t i c s t r i n g i n t o a s t r i n g o f w o r d s . I nmore r e c e n t w o r k [ 1 ] - [ 6 ] , t h e a c o u s t i c p r o c e s s o r d o e s n o tp r o d u c e a p h o n e t i c t r a n s c r i p t i o n , b u t r a t h e r p r o d u c e s a s t r i n go f l a b e l s e a c h o f w h i c h c h a r a c t e r i z e s t h e s p e e c h w a v e f o r m l o -c a l l y over a s h o r t t i m e i n t e r v a l ( s e e S e c t i o n I I ) .I n F i g . 2 , s p e e c h r e c o g n i t i o n i s f o r m u l a t e d a s a p r o b l e m i nc o m m u n i c a t i o n t h e o r y . T h e s p e a k e r a n d a c o u s t i c p r o c e s s o ra r e c o m b i n e d i n t o an a c o u s t i c c h a n n e l , t h e s p e a k e r t r a n s f o r m -i n g t h e t e x t i n t o a s p e e c h w a v e f o r m a n d t h e a c o u s t i c processora c t i n g as a d a t a t r a n s d u c e r a n d compressor. T h e c h a n n e l p r o -v i d e s t h e l i n g u i s t i c d e c o d e r w i t h a n o i s y s t r i n g f r o m w h i c h i tm u s t recover t h e m e s s a g e - i n t h i s case t h e o r i g i n a l t e x t . One i sf r e e t o m o d i f y t h e c h a n n e l b y a d j u s t i n g t h e a c o u s t i c p r o c e s s o rb u t u n l i k e i n c o m m u n i c a t i o n s , o ne c a n n o t c h o o s e t h e c o d e b e -cause i t i s f i x e d b y t h e l a n g u a g e b e i n g s p o k e n . I t i s p o s s i b l e t oa l l o w f e e d b a c k f r o m t h e d e c o d e r t o t h e a c o u s t i c p r o c e s s o r b u tt h e m a t h e m a t i c a l consequences o f s u c h a s t e p a r e n o t w e l lu n d e r s t o o d . B y n o t i n c l u d i n g f e e d b a c k we f a c i l i t a t e a c o n s i s -t e n t a n d s t r e a m l i n e d f o r m u l a t i o n o f t h e l i n g u i s t i c d e c o d i n gp r o b l e m .T h e r e s t o f t h i s a r t i c l e i s d i v i d e d a s f o l l o w s . S e c t i o n II g i v e sa b r i e f s u m m a ry o f a c o u s t i c p r o c e s s i n g t e c h n i q u e s . S e c t i o n

    0 1 6 2 - 8 8 2 8 / 8 3 / 0 3 0 0 - 0 1 7 9 $ 0 1 . 0 0 1 9 8 3 I E E E

    1 7 9

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    2/12

    IEEE TRANSACTIONS O N PATTERN ANALYSIS A ND MACHINE INTELLIGENCE, V O L . P A M I - 5 , N O . 2 , MARCH 1 9 8 3I I I f o r m u l a t e s t h e p r o b l e m o f l i n g u i s t i c d e c o d i n g a n d s h o w st h e n e c e s s i t y o f s t a t i s t i c a l m o d e l i n g o f t h e t e x t a n d o f t h ea c o u s t i c c h a n n e l . S e c t i o n I V i n t r o d u c e s M a r k o v m o d e l s o fs p e e c h p r o c e s s e s . S e c t i o n V d e s c r i b e s a n e l e g a n t l i n g u i s t i cd e c o d e r b a s e d o n d y n a m i c p r o g r a m m i n g t h a t i s p r a c t i c a l u n d e rc e r t a i n c o n d i t i o n s . S e c t i o n V I d e a l s w i t h t h e p r a c t i c a l a s p e c t so f t h e s e n t e n c e h y p o t h e s i s s e a r c h c o n d u c t e d b y t h e l i n g u i s t i cd e c o d e r . S e c t i o n s V I I a n d V I I I i n t r o d u c e a l g o r i t h m s f o r e x -t r a c t i n g m o d e l p a r a m e t e r v a l u e s a u t o m a t i c a l l y f r o m d a t a . S e c -t i o n I X d i s c u s s e s m e t h o d s o f a s s e s s i n g t h e p e r f o r m a n c e o f CSRs y s t e m s , a n d t h e r e l a t i v e d i f f i c u l t y o f r e c o g n i t i o n t a s k s . F i -n a l l y , i n S e c t i o n X w e i l l u s t r a t e t h e c a p a b i l i t i e s o f c u r r e n t r e c -o g n i t i o n s y s t e m s b y d e s c r i b i n g t h e r e s u l t s o f c e r t a i n r e c o g n i -t i o n e x p e r i m e n t s .

    I I . A C O U S T I C P R O C E S S O R SAn a c o u s t i c p r o c e s s o r ( A P ) a c t s a s a d a t a c o m p r e s s o r o f t h es p e e c h w a v e f o r m . T h e o u t p u t o f t h e AP s h o u l d 1 ) p r e s e r v et h e i n f o r m a t i o n i m p o r t a n t t o r e c o g n i t i o n a n d 2 ) b e a m e n a b l e

    t o s t a t i s t i c a l c h a r a c t e r i z a t i o n . I f t h e AP o u ' t p u t c a n b e e a s i l yi n t e r p r e t e d b y p e o p l e , i t i s p o s s i b l e t o j u d g e t h e e x t e n t t ow h i c h t h e AP f u l f i l l s r e q u i r e m e n t 1 ) .T y p i c a l l y , a n AP i s a s i g n a l p r o c e s s o r , w h i c h t r a n s f o r m s t h es p e e c h w a v e f o r m i n t o a s t r i n g o f p a r a m e t e r v e c t o r s , f o l l o w e db y a p a t t e r n c l a s s i f i e r , w h i c h t r a n s f o r m s t h e s t r i n g o f p a r a m e -t e r v e c t o r s i n t o a s t r i n g o f l a b e l s f r o m a f i n i t e a l p h a b e t . I f t h ep a t t e r n c l a s s i f i e r i s a b s e n t , t h e n t h e AP p r o d u c e s a n u n l a b e l e ds t r i n g o f p a r a m e t e r v e c t o r s . I n a s e g m e n t i n g A P , t h e s p e e c hw a v e f o r m i s s e g m e n t e d i n t o d i s t i n c t p h o n e t i c e v e n t s ( u s u a l l yp h o n e s 1 ) a n d e a c h o f t h e s e ' v a r y i n g l e n g t h p o r t i o n s i s t h e nl a b e l e d .A t i m e - s y n c h r o n o u s AP p r o d u c e s p a r a m e t e r v e c t o r s c o m -p u t e d f r o m s u c c e s s i v e f i x e d - l e n g t h i n t e r v a l s o f t h e s p e e c hw a v e f o r m . T h e d i s t a n c e f r o m t h e p a r a m e t e r v e c t o r t o e a c h o fa f i n i t e s e t o f s t a n d a r d p a r a m e t e r v e c t o r s , o r p r o t o t y p e s , i sc o m p u t e d . T h e l a b e l f o r t h e p a r a m e t e r v e c t o r i s t h e name o ft h e p r o t o t y p e t o w h i c h i t i s c l o s e s t .I n e a r l y a c o u s t i c p r o c e s s o r s , p r o t o t y p e s w e r e o b t a i n e d f r o ms p e e c h d a t a l a b e l e d b y a n e x p e r t p h o n e t i c i a n . I n m o r e r e c e n ta c o u s t i c p r o c e s s o r s , p r o t o t y p e s a r e o b t a i n e d a u t o m a t i c a l l yf r o m u n l a b e l e d s p e e c h d a t a [ 3 ] , [ 4 ] .A t y p i c a l e x a m p l e o f a t i m e - s y n c h r o n o u s AP i s t h e I B Mc e n t i s e c o n d a c o u s t i c p r o c e s s o r ( C S A P ) . T h e a c o u s t i c p a r a m -e t e r s u s e d b y CSAP a r e t h e e n e r g i e s i n e a c h o f 8 0 f r e q u e n c yb a n d s i n s t e p s o f 1 0 0 H z c o v e r i n g t h e r a n g e f r o m 0 - 8 0 0 0 H z .T h e y a r e c o m p u t e d o n c e e v e r y c e n t i s e c o n d u s i n g a 2 c s w i n -d o w . T h e p a t t e r n c l a s s i f i e r h a s 4 5 p r o t o t y p e s c o r r e s p o n d i n gr o u g h l y t o t h e p h o n e s o f E n g l i s h . E a c h p r o t o t y p e f o r a g i v e ns p e a k e r i s o b t a i n e d f r o m s e v e r a l s a m p l e s o f h i s s p e e c h w h i c hh a s b e e n c a r e f u l l y l a b e l e d b y a p h o n e t i c i a n .

    I I I . L I N G U I S T I C DECODERT h e AP p r o d u c e s a n o u t p u t s t r i n g y . F r o m t h i s s t r i n g y , t h el i n g u i s t i c d e c o d e r ( L D ) m a k e s a n e s t i m a t e w o f t h e w o r ds t r i n g w p r o d u c e d b y t h e t e x t g e n e r a t o r ( s e e F i g . 1 ) . T o m i n i -1 F o r a n i n t r o d u c t o r y d i s c u s s i o n o f p h o n e t i c s , s e e L y o n s 1 7 , p p .9 9 - 1 3 2 1

    m i z e t h e p r o b a b i l i t y o f e r r o r , w m u s t b e c h o s e n s o t h a tP ( l w | y ) = m a x P ( w | y ) .

    w

    B y B a y e s ' r u l eP ( W ) P ( Y I w )P ( w f I y ) = ~ P ( y )

    ( 3 . 1 )

    ( 3 . 2 )S i n c e P ( y ) d o e s n o t d e p e n d o n w , m a x i m i z i n g P ( w j y ) i s e q u i v -a l e n t t o m a x i m i z i n g t h e l i k e l i h o o d P ( w , y ) = P ( w ) P ( y f w ) .H e r e P ( w ) i s t h e a p r i o r i p r o b a b i l i t y t h a t t h e w o r d s e q u e n c e ww i l l b e p r o d u c e d b y ' t h e t e x t g e n e r a t o r , a n d P ( y 1 w ) i s t h ep r o b a b i l i t y w i t h w h i c h t h e a c o u s t i c c h a n n e l ( s e e F i g . 1 ) t r a n s -f o r m s t h e w o r d s t r i n g w i n t o t h e AP o u t p u t s t r i n g y .T o e s t i m a t e P ( w ) , t h e LD r e q u i r e s a p r o b a b i l i s t i c m o d e l o ft h e t e x t g e n e r a t o r , w h i c h w e r e f e r t o a s t h e l a n g u a g e m o d e l .F o r m o s t a r t i f i c i a l t a s k s , t h e l a n g u a g e m o d e l i n g p r o b l e m i sq u i t e s i m p l e . O f t e n t h e l a n g u a g e i s s p e c i f i e d b y a s m a l l f i n i t e -s t a t e o r c o n t e x t - f r e e g r a m m a r t o w h i c h p r o b a b i l i t i e s c a n b ee a s i l y a t t a c h e d . F o r e x a m p l e , t h e R a l e i g h l a n g u a g e ( s e e S e c -t i o n I V ) i s s p e c i f i e d b y F i g . 7 w h e r e a l l w o r d s p o s s i b l e a t a n yp o i n t a r e c o n s i d e r e d e q u a l l y l i k e l y .F o r n a t u r a l t a s k s t h e e s t i m a t i o n o f P ( w ) i s much m o r e d i f f i -c u l t . L i n g u i s t i c s h a s n o t p r o g r e s s e d t o t h e p o i n t t h a t i t c a np r o v i d e a g r a m m a r f o r a s i z a b l e s u b s e t o f n a t u r a l E n g l i s h ,w h i c h i s u s e f u l f o r s p e e c h r e c o g n i t i o n . I n a d d i t i o n , t h e i n t e r -e s t i n l i n g u i s t i c s h a s b e e n i n s p e c i f y i n g t h e s e n t e n c e s o f a l a n -g u a g e , b u t n o t t h e i r p r o b a b i l i t i e s . O u r a p p r o a c h h a s b e e n t om o d e l t h e t e x t g e n e r a t o r a s a M a r k o v s o u r c e , t h e p a r a m e t e r so f w h i c h a r e e s t i m a t e d f r o m a l a r g e s a m p l e o f t e x t .T o e s t i m a t e P ( y 1 w ) , t h e o t h e r c o m p o n e n t o f t h e l i k e l i h o o d ,t h e LD r e q u i r e s a p r o b a b i l i s t i c m o d e l o f t h e a c o u s t i c c h a n -n e l , w h i c h m u s t a c c o u n t f o r t h e s p e a k e r ' s p h o n o l o g i c a l a n da c o u s t i c - p h o n e t i c v a r i a t i o n s a n d f o r t h e p e r f o r m a n c e o f t h ea c o u s t i c p r o c e s s o r . O n c e m o d e l s a r e a v a i l a b l e f o r c o m p u t i n gP ( w ) a n d P ( y { w ) , i t i s i n p r i n c i p l e p o s s i b l e f o r t h e LD t o c o m -p u t e t h e l i k e l i h o o d o f e a c h s e n t e n c e i n t h e l a n g u a g e a n d d e t e r -m i n e t h e m o s t l i k e l y w d i r e c t l y . H o w e v e r , e v e n a s m a l l a r t i f i -c i a l l a n g u a g e s u c h a s t h e R a l e i g h l a n g u a g e h a s s e v e r a l m i l l i o np o s s i b l e s e n t e n c e s . I t i s t h e r e f o r e n e c e s s a r y i n p r a c t i c e t oc a r r y o u t a s u b o p t i m a l s e a r c h . A d y n a m i c p r o g r a m m i n gs e a r c h a l g o r i t h m , t h e a p p l i c a b i l i t y o f w h i c h i s l i m i t e d t o t a s k so f m o d e r a t e c o m p l e x i t y , i s d e s c r i b e d i n S e c t i o n V . A m o r eg e n e r a l t r e e s e a r c h d e c o d i n g a l g o r i t h m i s d e s c r i b e d i n S e c -t i o n V I . I V . MARKOV SOURCE MODELING OFS P E E C H P R O C E S S E SN o t a t i o n a n d T e r m i n o l o g y

    B y a M a r k o v s o u r c e , w e mean a c o l l e c t i o n o f s t a t e s c o n -n e c t e d t o o n e a n o t h e r b y t r a n s i t i o n s w h i c h p r o d u c e s y m b o l sf r o m a f i n i t e a l p h a b e t . E a c h t r a n s i t i o n t f r o m a s t a t e s h a sa s s o c i a t e d w i t h i t a p r o b a b i l i t y q , ( t ) w h i c h i s t h e p r o b a b i l i t yt h a t t w i l l b e c h o s e n n e x t w h e n s i s r e a c h e d . F r o m t h e s t a t e so f a M a r k o v s o u r c e w e c h o o s e o n e s t a t e a s t h e i n i t i a l s t a t e a n do n e s t a t e a s t h e f i n a l s t a t e . T h e M a r k o v s o u r c e t h e n a s s i g n sp r o b a b i l i t i e s t o a l l s t r i n g s o f t r a n s i t i o n s f r o m t h e i n i t i a l s t a t et o t h e f i n a l s t a t e . F i g . 3 s h o w s a n e x a m p l e o f a M a r k o v s o u r c e .

    1 8 0

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    3/12

    B A H L e t a l . : CONTINUOUS SPEECH R EC O G N I T I O N

    0

    0

    F i g . 3 . A M a r k o v s o u r c e .We d e f i n e a M a r k o v s o u r c e m o r e f o r m a l l y a s f o l l o w s . L e t Sb e a f i n i t e s e t o f s t a t e s , J a f i n i t e s e t o f t r a n s i t i o n s , a n d ( d af i n i t e a l p h a b e t . Tw o e l e m e n t s o f 8 , s 1 a n d S F a r e d i s t i n g u i s h e da s i n i t i a l a n d f i n a l s t a t e s , r e s p e c t i v e l y . T h e s t r u c t u r e o f a M a r -k o v s o u r c e i s a 1 - 1 m a p p i n g M: J f - + S X ( X S . I f M ( t )( 1 , a , r ) t h e n w e r e f e r t o 1 a s t h e p r e d e c e s s o r s t a t e o f t , a a s t h eo u t p u t s y m b o l a s s o c i a t e d w i t h t , a n d r a s t h e s u c c e s s o r s t a t e o ft ; w e w r i t e I = L ( t ) , a = A ( t ) , a n d r = R ( t ) .T h e p a r a m e t e r s o f a M a r k o v s o u r c e a r e p r o b a b i l i t i e s q , ( t ) ,sES - { S F } , t E , s u c h t h a tq s ( t ) = O i f s # L ( t )

    a n dE q s ( t ) = I , s E S - { S F } .t

    I n g e n e r a l , t h e t r a n s i t i o n p r o b a b i l i t i e s a s s o c i a t e d w i t h o n es t a t e a r e d i f f e r e n t f r o m t h o s e a s s o c i a t e d w i t h a n o t h e r . H o w -e v e r , t h i s n e e d n o t a l w a y s b e t h e c a s e . We s a y t h a t s t a t e s 1 i st i e d t o s t a t e s 2 i f t h e r e e x i s t s a 1 - 1 c o r r e s p o n d e n c e T , , 2 : T oJ s u c h t h a t q s 1 ( t ) = q , 2 ( T s , , 2 ( t ) ) f o r a l l t r a n s i t i o n s t . I t i se a s i l y v e r i f i e d t h a t t h e r e l a t i o n s h i p o f b e i n g t i e d i s a n e q u i v a -l e n c e r e l a t i o n a n d h e n c e i n d u c e s a p a r t i t i o n o f S i n t o s e t s o fs t a t e s w h i c h a r e m u t u a l l y t i e d .A s t r i n g o f n t r a n s i t i o n s 2 t l n f o r w h i c h L ( t 1 ) = s , i s c a l l e d ap a t h ; i f R ( t , ) = S F , t h e n w e r e f e r t o i t a s a c o m p l e t e p a t h . T h ep r o b a b i l i t y o f a p a t h t l i s g i v e n b y

    nP ( j ) q s I ( t i ) f H q R ( t i _ l ) ( t i ) . ( 4 . 2 )i = 2A s s o c i a t e d w i t h p a t h t n i s a n o u t p u t s y m b o l s t r i n g a ' = A ( t n ) .A p a r t i c u l a r o u t p u t s t r i n g a n , may i n g e n e r a l a r i s e f r o m moret h a n o n e p a t h . T h u s , t h e p r o b a b i l i t y P ( a l ' ) i s g i v e n b yp ( a n ) = E p ( t n ) b ( A ( t n ) , a s n ) ( 4 . 3 )nt Iw h e r e

    1 i f a= b6 ( a , b ) = 0 o t h e r w i s e . ( 4 . 4 )o t h e r w i s e .A M a r k o v s o u r c e f o r w h i c h e a c h o u t p u t s t r i n g a ' d e t e r m i n e s au n i q u e p a t h i s c a l l e d a u n i f i l a r M a r k o v s o u r c e .

    2 t e i s a s h o r t - h a n d n o t a t i o n f o r t h e c o n c a t e n a t i o n o f t h e s y m b o l st l , t 2 , - * * , t n . S t r i n g s a r e i n d i c a t e d i n b o l d f a c e t h r o u g h o u t .

    ( 4 . 1 )

    F i g . 4 . A Markov s o u r c e w i t h n u l l t r a n s i t i o n s .

    b i t . . . b m t ,

    F i g . 5 . A f i l t e r e d M a r k o v s o u r c e .b i # ) b 2 0 b 3

    F i g . 6 . A s e q u e n c e o f t r a n s i t i o n s t o i l l u s t r a t e s p a n n i n g . b , s p a n s t l ;b 2 s p a n s t 2 , t 3 , t 4 ; a n d b 3 s p a n s t 5 , t 6 -I n p r a c t i c e i t i s u s e f u l t o a l l o w t r a n s i t i o n s w h i c h p r o d u c e n oo u t p u t . T h e s e n u l l t r a n s i t i o n s a r e r e p r e s e n t e d d i a g r a m m a t i -c a l l y b y i n t e r r u p t e d l i n e s ( s e e F i g . 4 ) . R a t h e r t h a n d e a l w i t h

    n u l l t r a n s i t i o n s d i r e c t l y , w e h a v e f o u n d i t c o n v e n i e n t t o a s s o -c i a t e w i t h t h e m t h e d i s t i n g u i s h e d l a t t e r 4 . We t h e n a d d t o t h eM a r k o v s o u r c e a f i l t e r ( s e e F i g . 5 ) w h i c h r e m o v e s O , t r a n s f o r m -i n g t h e o u tp ut s e q u e nc e a ' i n t o a n o b s e rv e d s e q ue nc e b ' ,w h e r e b i E 5 I = d - { f } . A l t h o u g h m o r e g e n e r a l s o u r c e s c a nb e h a n d l e d , we s h a l l r e s t r i c t o u r a t t e n t i o n t o s o u r c e s w h i c h d on o t h a v e c l o s e d c i r c u i t s o f n u l l t r a n s i t i o n s .I f t 1 i s a p a t h w h i c h p r o d u c e s t h e o b s e r v e d o u t pu t s e q ue n ceb m , t h e n we s a y t h a t b i s p a n s t j i f t j i s t h e t r a n s i t i o n w h i c hp r o d u c e d b i o r i f t j i s a n u l l t r a n s i t i o n i m m e d i a t e l y p r e c e d i n g at r a n s i t i o n s p a n n e d b y b i . F o r e x a m p l e , i n F i g . 6 , b 1 s p a n st , ; b 2 s p a n s t 2 , t 3 , a n d t 4 ; a n d b 3 s p a n s t S a n d t 6 .A m a j o r a d v a n t a g e o f u s i n g M a r k o v s o u r c e m o d e l s f o r t h et e x t g e n e r a t o r a n d a c o u s t i c c h a n n e l i s t h a t o n c e t h e s t r u c t u r ei s s p e c i f i e d , t h e p a r a m e t e r s c a n b e e s t i m a t e d a u t o m a t i c a l l yf r o m d a t a ( s e e S e c t i o n s V I I a n d V I I I ) . F u r t h e r m o r e , c o m p u -t a t i o n a l l y e f f i c i e n t a l g o r i t h m s e x i s t f o r c o m p u t i n g P ( w ) a n dP ( y | w ) w i t h s u c h m o d e l s ( s e e S e c t i o n s V a n d V I ) . M a r k o vs o u r c e m o d e l s a l s o a l l o w e a s y e s t i m a t i o n o f t h e r e l a t i v e d i f f i -c u l t y o f r e c o g n i t i o n t a s k s ( s e e S e c t i o n I X ) .T h e L a n g u a g e M o d e lS i n c e t h e l a n g u a g e m o d e l h a s t o a s s i g n p r o b a b i l i t i e s t os t r i n g s o f w o r d s , i t i s n a t u r a l f o r i t s o u t p u t a l p h a b e t t o b e t h ev o c a b u l a r y o f t h e l a n g u a g e . H o w e v e r , t h e o u t p u t a l p h a b e t c a ni n c l u d e s h o r t e r u n i t s s u c h a s w o r d s t e m s , p r e f i x e s , s u f f i x e s ,

    a l , . . . , a n t , . . . .MARKOVSOURCE., F I L T E ROURCE

    1 8 1

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    4/12

    IEEE TRANSACTIONS O N PATTERN ANALYSIS A N D MACHINE INTELLIGENCE, VOL. P A M I - S , NO. 2 , MARCH 1 9 8 3c o ' . S ' . e ec r e a t e d b -6g o v e m p a , g nh k e d C f : . dm n a d e 9moved r n o l i onp e r - O t e d namew a n t e d c h o - g e s r a d i od o e s s h i pg h t s s t a t e a p p r o a c h e s: e , e l s f o l o p h o n e ;ng o e s t h . n g r j m e v si o db l o c k c o n d -On t le w e a p o ngreat d u ' a I ' o n I v e s ISS"Sg e n e r a l c o n t r . b u t e d l o c o t i o n sp r . m a r I U. In g o c ' o s s o p o r o t . o n sc an c r , t c . z : d atP f o f t s p e , d I s t u r b d c a p t o m f r o - p l a n s0 0 O" p r o b l o m su, ogn. 0 11 t r o , r l f o r g o t c us elo c age g o v e r n e d c i t y t o w a r d s i t e shad c o u n t r y u - d e r zonesT V "l - I C 11 shoed a p p e o r s l e t t e ro p p r o , , e s m a j o rF d , , n k s m-&-- n a c t L n : o n0- 0 t- , . -t - of f r a g o . n s toger ;S c o o , r P l Wooks re p a r t f o , b u s i n e s sk nd Po o c C o - p T e - & - , o k e s t h o u g h , M e n g i n el a r g e l o rks10. pe a p p h e d nt o moch,nep b r o u g h t t h r o u g h MISS I 4mentny d e t e c t e d a g o , - 0 re c e s s - . I e l y o r d ere d 11 f o u n d l e o s , p r o d u c t. I : r u e 1 1 0 , o u t l a w e d U s e" " C " ' d 0 ) 0 " l yl y ash Ore yS . , . d o s t l yg e , no,k-OW o n . 1 y, , o k * pr r i c I p o l l ya v e pa y 9 , o p e , l y C nce'nderoc,ol-, cove,'a" s d o ya b i s u l v - b e f o , ' etl e ve t o m e t " I l e sp e o p i e r . 1 yPIO h C a l c er e d r r n ,p o o c , PoC t C a l l y 0 v es , , e e ; S ' e D n f , o l p o s t lp U f ' O P 0 s 0e , 3 . t ' e o l , es a l w o y ss l o ve f; no y ."h soc I ' f i c ehor orke, 1,nk v e h . 1 1 0d ' o f f e q u e n l l ys 1 r o n g " y T i - 1 ,e - v l e s s weeki u - r n come mor enevor aboulo O C c . S ' 0 . 0 1 1 Y a f t e r C O r " I D S. ' e c if o l i o .o c k w o d o f l e n onong f, I Id sbg onct S. Sac on s p r o c e e d beWen h o Lc os e u s u a l l y mleb.ses s e e . b y "OS sr a r e l y me h o d so o d b a t , ( * $ I s t a n d soldomly s c , * n t ts. P o , t o n t comma " i W'thoutol d f o , r , , S se I v C ' e s spass-ve grounds s o l d i e r s' g g e d places S Y S te r nsSep T h r l - q u e s1 , , s e a l e ' O s s "

    F i g . 7 . Grammar of th e R a l e i g h l a n g u a g e .e t c . , f r o m w h i c h w o r d s e q u e n c e s c a n b e d e r i v e d . F i g . 7 i s t h em o d e l o f t h e a r t i f i c i a l R a l e i g h l a n g u a g e w h i c h h a s b e e n u s e d i ns o m e o f o u r e x p e r i m e n t s . T h e o u t p u t a l p h a b e t i s t h e 2 5 0 -w o r d v o c a b u l a r y o f t h e l a n g u a g e . F o r d i a g r a m m a t i c c o n v e -n i e n c e , s e t s o f t r a n s i t i o n s b e t w e e n p a i r s o f s t a t e s h a v e b e e n r e -p l a c e d b y s i n g l e t r a n s i t i o n s w i t h a n a s s o c i a t e d l i s t o f p o s s i b l eo u t p u t w o r d s .F o r n a t u r a l l a n g u a g e s , t h e s t r u c t u r e o f t h e m o d e l i s n o t g i v e na p r i o r i . H o w e v e r ,P ( W 7 1 ) = P ( W 1 ) P ( W 2 f W i ) P ( w 3 J w )) P ( w n Iw I)

    nfH P(WkW1) (4.5)k = 1

    a n d s o i t i s n a t u r a l t o c o n s i d e r s t r u c t u r e s f o r w h i c h a w o r ds t r i n g w k y l un i q u e l y d e te rm i ne s t h e s t a t e o f t h e m o d e l . Ap a r t i c u l a r l y s i m p l e m o d e l i s t h e N - g r a m m o d e l w h e r e t h es t a t e a t t i m e k - 1 c o r r e s p o n d s t o t h e N - 1 m o s t r e c e n tw o r d s W k - N + 1 , * , Wk - 1 . T h i s i s e q u i v a l e n t t o u s i n g t h ea p p r o x i m a t i o nP ( w D - H P ( W k k -Nw )k = 1

    N - g r a m m o d e l s a r e c o m p u t a t i o n a l l y p r a c t i c a l o n l y f o r s m a l lv a l u e s o f N . I n o r d e r t o r e f l e c t l o n g e r t e r m m e m o r y , t h e s t a t ec a n b e m a d e d e p e n d e n t o n a s y n t a c t i c a n a l y s i s o f t h e e n t i r ep a s t w o r d s t r i n g w , , a s m i g h t b e o b t a i n e d f r o m an a p p r o -p r i a t e g r a m m a r o f t h e l a n g u a g e .T h e A c o u s t i c C h a n n e l M o d e l

    T h e AP i s d e t e r m i n i s t i c a nd h e nc e t h e s a m e w a v e f o rm w i l la l w a y s g i v e r i s e t o t h e s a m e AP o u t p u t s t r i n g . H o w e v e r , f o r ag i v e n w o r d s e q u e n c e , t h e s p e a k e r c an p r o d u c e a g r e a t v a r i e t yo f w a v e f o r m s r e s u l t i n g i n a c o r r e s p o n d i n g v a r i a t i o n i n t h e APo u t p u t s t r i n g . S o m e o f t h e v a r i a t i o n a r i s e s b e c a u s e t h e r e a r em a n y d i f f e r e n t w a y s t o p r o n o u n c e t h e s a m e w o r d ( t h i s i sc a l l e d p h o n o l o g i c a l v a r i a t i o n ) . O t h e r f a c t o r s i n c l u d e r a t e o f

    F i g . 8 . A w o r d - b a s e d M a r k o v s u b s o u r c e .a r t i c u l a t i o n , t a l k e r ' s p o s i t i o n r e l a t i v e t o t h e m i c r o p h o n e , a m -b i e n t n o i s e , e t c .We w i l l o n l y c o n s i d e r t h e p r o b l e m o f m o d e l i n g t h e a c o u s t i cc h a n n e l f o r s i n g l e w o r d s . M o d e l s f o r w o r d s t r i n g s c a n b e c o n -s t r u c t e d b y c o n c a t e n a t i o n o f t h e s e s i m p l e r , s i n g l e w o r d m o d -e l s . F i g . 8 i s a n e x a m p l e o f t h e s t r u c t u r e o f a M a r k o v s o u r c ef o r a s i n g l e w o r d . T h e d o u b l e a r c s r e p r e s e n t s e t s o f t r a n s i t i o n s ,o n e f o r e a c h s y m b o l i n t h e o u t p u t a l p h a b e t . T h e s t r a i g h t - l i n ep a t h r e p r e s e n t s p r o n u n c i a t i o n s o f a v e r a g e l e n g t h , w h i l e t h et r a n s i t i o n s a b o v e a n d b e l o w c a n l e n g t h e n a n d s h o r t e n t h e p r o -n u n c i a t i o n , r e s p e c t i v e l y . S i n c e t h e p r o n u n c i a t i o n o f a w o r dd e p e n d s o n t h e e n v i r o n m e n t i n w h i c h i t o c c u r s , i t may b e n e c -e s s a r y i n p r a c t i c e t o m a k e t h e p a r a m e t e r s o f t h e m o d e l d e p e n do n t h e p h o n e t i c e n v i r o n m e n t p r o v i d e d b y t h e p r e c e d i n g a n df o l l o w i n g w o r d s .S i n c e t h e s a m e s o u n d s ca n o ccu r i n m a n y d i f f e r e n t w o r d s ,p o r t i o n s o f o n e m o d e l w i l l b e s i m i l a r t o p o r t i o n s o f m a n yo t h e r m o d e l s . T h e n u m b e r o f p a r a m e t e r s r e q u i r e d t o s p e c i f ya l l t h e w o r d m o d e l s c an b e r e d u c e d b y m o d e l i n g s o u n d s o rp h o n e s r a t h e r t h a n w o r d s d i r e c t l y . T h i s l e a d s t o a t w o - l e v e lm o d e l i n w h i c h w o r d s t r i n g s a r e t r a n s f o r m e d i n t o p h o n es t r i n g s w h i c h a r e t h e n t r a n s f o r m e d i n t o AP o u t p u t s t r i n g s . U s -i n g t h i s a p p r o a c h , t h e a c o u s t i c c h a n n e l m o d e l i s b u i l t u p f r o mt w o c o m p o n e n t s : a s e t o f p h o n e t i c s u b s o u r c e s , o n e f o r e a c hw o r d ; a n d a s e t o f a c o u s t i c s u b s o u r c e s , o n e f o r e a c h p h o n e .L e t? b e t h e a l p h a b e t o f p h o n e s u n d e r c o n s i d e r a t i o n . Ap h o n e t i c s u b s o u r c e f o r a w o r d i s a M a r k o v s o u r c e w i t h o u t p u ta l p h a b e t 5 P w h i c h s p e c i f i e s t h e p r o n u n c i a t i o n s p o s s i b l e f o r t h ew o r d a n d a s s i g n s a p r o b a b i l i t y t o e a c h o f t h e m . F i g . 9 s h o w st h e s t r u c t u r e o f a p h o n e t i c M a r k o v s u b s o u r c e f o r t h e w o r d

    1 8 2

    - 6 0 - -

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    5/12

    BAHL e t a l . : CONTINUOUS SPEECH RECOGNITIONhv u

    vF i g . 9 . A p h o n e t i c M a r k o v s u b s o u r c e .

    F i g . 1 0 . An a c o u s t i c M a r k o v s u b s o u r c e .A C O U S T I C ACOUSTICSUBSOURCE SUBSOURCEOF PHONE OF PHONE

    ACOUSTIC I \/SUBSOURCE /O ) ) F P HO NE e A < _t~~~~~I/ACOUSTIC A C O U S T I CSUBSOURCE SUBSOURCEOF PHONE O HNF i g . 1 1 . A p h o n e - b a s e d M a r k o v s o u r c e b a s e d o n t h e p h o n e t i c s u b so u r ceo f F i g . 9 .t w o . T h e s t r u c t u r e s o f t h e s e s u b s o u r c e s may b e d e r i v e d b y t h ea p p l i c a t i o n o f p h o n o l o g i c a l r u l e s t o d i c t i o n a r y p r o n u n c i a t i o n sf o r t h e w o r d s [ 8 ] .A n a c o u s t i c s u b s o u r c e f o r a p h o n e i s a M a r k o v s o u r c e w i t ho u t p u t a l p h a b e t ' Y w h i c h s p e c i f i e s t h e p o s s i b l e AP o u t p u ts t r i n g s f o r t h a t p h o n e a n d a s s i g n s a p r o b a b i l i t y t o e a c h o ft h e m . F i g . 1 0 s h o w s t h e s t r u c t u r e o f a n a c o u s t i c M a r k o v s u b -s o u r c e u s e d w i t h t h e IBM C e n t i s e c o n d A c o u s t i c P r o c e s s o r .B y r e p l a c i n g e a c h o f t h e t r a n s i t i o n s i n t h e p h o n e t i c s u b -s o u r c e b y t h e a c o u s t i c s u b s o u r c e f o r t h e c o r r e s p o n d i n g p h o n e ,w e o b t a i n a M a r k o v s o u r c e m o d e l f o r t h e a c o u s t i c c h a n n e l .T h i s e m b e d d i n g p r o c e s s i s i l l u s t r a t e d i n F i g . 1 1 .W h e r e a s t h e s t r u c t u r e o f t h e p h o n e t i c s u b s o u r c e s c a n b e d e -r i v e d i n a p r i n c i p l e d w a y f r o m p h o n o l o g i c a l r u l e s , t h e s t r u c -t u r e s o f t h e w o r d m o d e l i n F i g . 8 a n d t h e p h o n e m o d e l i n F i g .9 a r e f a i r l y a r b i t r a r y . M a n y p o s s i b l e s t r u c t u r e s s e e m r e a s o n -a b l e ; t h e o n e s s h o w n h e r e a r e v e r y s i m p l e o n e s w h i c h h a v eb e e n u s e d s u c c e s s f u l l y i n r e c o g n i t i o n e x p e r i m e n t s .

    V . V I T E R B I L I N G U I S T I C DECODINGI n t h e p r e c e d i n g s e c t i o n we h a v e s h o w n t h a t a c o u s t i c s u b -s o u r c e s c a n b e e m b e d d e d i n p h o n e t i c s u b s o u r c e s t o p r o d u c e am o d e l f o r t h e a c o u s t i c c h a n n e l . I n a s i m i l a r f a s h i o n w e c a ne m b e d a c o u s t i c c h a n n e l w o r d m o d e l s i n t h e M a r k o v s o u r c es p e c i f y i n g t h e l a n g u a g e m o d e l b y r e p l a c i n g e a c h t r a n s i t i o n b yt h e m o d e l o f t h e c o rr e sp o nd i n g w o r d . T h e r e s u l t i n g M a r k o vs o u r c e i s a m o d e l f o r t h e e n t i r e s t o c h a s t i c p r o c e s s t o t h e l e f to f t h e l i n g u i s t i c d e c o d e r i n F i g . 1 . E a c h c o m p l e t e p a t h t 1t h r o u g h t h e m o d e l d e t e r m i n e s a u n i q u e w o r d s e q u e n c e w=W ( t 4 ) a n d a u n i q u e AP o u t p u t s t r i n g y T = Y ( t j ) a n d h a s t h ea s s o c i a t e d p r o b a b i l i t y P ( t 1 l ) . U s i n g w e l l k n o w n m i n i m u m - c o s tp a t h - f i n d i n g a l g o r i t h m s , i t i s p o s s i b l e t o d e t e r m i n e f o r a g i v e n

    AP s t r i n g y ' , t h e c o m p l e t e p a t h t 1 w h i c h m a x i m i z e s t h ep r o b a b i l i t y P ( t 4 ) s u b j e c t t o t h e c o n s t r a i n t Y ( t 1 ) =y7. A d e -c o d e r b as e d o n t h i s s t r a t e g y w o u l d t h e n p r o d u c e a s i t s o u t p u tW ( t 4 ) . T h i s d e c o d i n g s t r a t e g y i s n o t o p t i ma l s i n c e i t may n o tm a x i m i z e t h e l i k e l i h o o d P ( w , y ) . I n f a c t , f o r a g i v e n p a i r w,yt h e r e a r e many c o m p l e t e p a t h s t f o r w h i c h W ( t ) = w a n dY ( t ) = y . T o m i n i m i z e t h e p r o b a b i l i t y o f e r r o r , o n e m u s t s u mP ( t ) o v e r a l l t h e s e p a t h s a n d s e l e c t t h e w f o r w h i c h t h e s u m i sm a x i m u m . N e v e r t h e l e s s , g o o d r e c o g n i t i o n r e s u l t s h a v e b e e no b t a i n e d u s i n g t h i s s u b o p t i m a l d e c o d i n g s t r a t e g y [ 1 ] , [ 2 ] , [ 9 ] .A s i m p l e m e t h o d f o r f i n d i n g t h e m o s t l i k e l y p a t h i s a d y -n a m i c p r o g r a m m i n g s c h e m e [ 1 0 ] c a l l e d t h e V i t e r b i A l g o r i t h m[ 1 1 ] . L e t T k ( S ) b e t h e m o s t p r o b a b l e p a t h t o s t a t e s w h i c hp r o d u c e s o u t p u t y I k . L e t V k ( S ) = P ( T k ( s ) ) d e n o t e t h e p r o b a b i l -i t y o f t h e p a t h T k ( S ) . We w i s h t o d e t e r m i n e ' T m ( S F ) . 3 B e c a u s eo f t h e M a r k o v n a t u r e o f t h e p r o c e s s , T k ( S ) c a n b e s h o w n t o b ea n e x t e n s i o n o f r k - ( S ' ) f o r s o m e s ' . T h e r e f o r e , T k ( S ) a n dV k ( s ) c a n b e c o m p u t e d r e c u r s i v e l y f r o m T r k - 1 ( s ) a n d V k - 1 ( s )s t a r t i n g w i t h t h e b o u n d a r y c o n d i t i o n s V O ( s 1 ) = 1 a n d ' r ( s 1 )b e i n g t h e n u l l s t r i n g . L e t C ( s , a ) = { t | R ( t ) . s , A ( t ) = a } .T h e n

    V k ( s ) = max { m a x V k - 1 ( L ( t ) ) q L ( t ) ( t ) ,t E C ( s , Y k )max V k ( L ( t ) ) q L ( t ) ( t ) } -t e C ( s , 0 ) ( 5 . 1 )

    I f t h e m a x i m i z i n g t r a n s i t i o n t i s i n C ( S , Y k ) t h e n 1 r k ( S ) =k - 1 ( L ( t ) ) t ; o t h e r w i s e t m u s t b e i n C ( s , 0 ) a n d ' i k ( S ) =T k ( L ( t ) ) t , w h e r e - d e n o t e s c o n c a t e n a t i o n . N o t e t h a t i n ( 5 . 1 )V k ( s ) d e p e n d s o n V k ( L ( t ) ) f o r t E C ( s , ' ) . V k ( L ( t ) ) mustt h e r e f o r e b e c o m p u t e d b e f o r e V k ( s ) . B e c a u s e c l o s e d c i r c u i t so f n u l l l o o p s a r e n o t a l l o w e d , 3 i t i s p o s s i b l e t o o r d e r t h e s t a t e s

    S 1 , S 2 , S 3 , * * * , suc h t h a t t E C ( s k , 0 ) a n d L ( t ) = s ; o n l y i f j

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    6/12

    IEEE TRANSACTIONS ON P A T T E R N ANALYSIS AND MACHINE INTELLIGENCE, VOL. P A M I - 5 , NO. 2 , MARCH 1983t i o n o f t h i s a l i g n m e n t a l l o w s t h e e x p e r i m e n t e r t o j u d g e t h ea d e q u a c y o f h i s m o d e l s a n d p r o v i d e s a n i n t u i t i v e c h e c k o n t h ep e r f o r m a n c e o f t h e A P .

    V I . S T A C K L I N G U I S T I C DECODINGI n t h e p r e v i o u s s e c t i o n w e p r e s e n t e d a d e c o d i n g p r o c e d u r ew h i c h f i n d s t h e m o s t l i k e l y c o m p l e t e p a t h t f o r a g i v e n APo u t p u t s t r i n g y . T h i s d e c o d i n g m e t h o d i s c o m p u t a t i o n a l l yf e a s i b l e o n l y i f t h e s t a t e s p a c e i s f a i r l y s m a l l , a s i s t h e c a s e i nm o s t a r t i f i c i a l t a s k s . H o w e v e r , i n t h e L a s e r t a s k ( d e s c r i b e d i nS e c t i o n X ) , t h e n u m b e r o f s t a t e s i s o f t h e o r d e r o f 1 0 1 1 w h i c hm a k e s t h e V i t e r b i s e a r c h u n a t t r a c t i v e . F u r t h e r m o r e , t h e p r o -c e d u r e i s s u b o p t i m a l b e c a u s e t h e w o r d s t r i n g c o r r e s p o n d i n g t ot h e m o s t l i k e l y p a t h t may n o t b e t h e m o s t l i k e l y w o r d s t r i n g .I n t h i s s e c t i o n w e p r e s e n t a g r a p h - s e a r c h d e c o d i n g m e t h o dw h i c h a t t e m p t s t o f i n d t h e m o s t l i k e l y w o r d s t r i n g . T h i sm e t h o d c a n b e u s e d w i t h l a r g e s t a t e s p a c e s .S e a r c h m e t h o d s w h i c h a t t e m p t t o f i n d o p t i m a l p a t h s t h r o u g hg r a p h s h a v e b e e n u s e d e x t e n s i v e l y i n i n f o r m a t i o n t h e o r y [ 1 2 ]a n d i n a r t i f i c i a l i n t e l l i g e n c e [ 1 3 ] . S i n c e w e a r e i n t e r e s t e d i nf i n d i n g t h e m o s t l i k e l y w o r d s t r i n g , t h e a p p r o p r i a t e g r a p h t os e a r c h i s t h e w o r d g r a p h g e n e r a t e d b y t h e l a n g u a g e m o d e l .When a c o m p l e t e s e a r c h o f t h e l a n g u a g e m o d e l g r a p h i s c o m -p u t a t i o n a l l y i m p r a c t i c a l , s o m e h e u r i s t i c m u s t b e u s e d f o r r e -d u c i n g t h e c o m p u t a t i o n . H e r e we d e s c r i b e o n e s p e c i f i c h e u r i s -t i c m e t h o d t h a t h a s b e e n u s e d s u c c e s s f u l l y . T o r e d u c e t h ea m o u n t o f c o m p u t a t i o n , a l e f t - t o - r i g h t s e a r c h s t a r t i n g a t t h ei n i t i a l s t a t e a n d e x p l o r i n g s u c c e s s i v e l y l o n g e r p a t h s c a n b e c a r -r i e d o u t . T o c a r r y o u t t h i s k i n d o f s e a r c h w e n e e d t o d e f i n e al i k e l i h o o d f u n c t i o n w h i c h a l l o w s u s t o c o m p a r e i n c o m p l e t ep a t h s o f v a r y i n g l e n g t h . An o b v i o u s c h o i c e may s e e m t o b et h e p r o b a b i l i t y o f u t t e r i n g t h e ( i n c o m p l e t e ) s e q u e n c e w a n dp r o d u c i n g s o m e i n i t i a l s u b s e q u e n c e o f t h e o b s e r v e d s t r i n g y ,i . e . ,

    n .nE : N ( W , y1=P ( W ) E P ( y ' i I W ) . ( 6 . 1 )i = O i = oT h e f i r s t t e r m o n t h e r i g h t - h a n d s i d e i s t h e a p r i o r i p r o b a b i l i t yo f t h e w o r d s e q u e n c e w . T h e s e c o n d t e r m , r e f e r r e d t o a s t h ea c o u s t i c m a t c h , i s t h e s u m o v e r i o f t h e p r o b a b i l i t y t h a t w p r o -d u c e s a n i n i t i a l s u b s t r i n g y i o f t h e AP o u t p u t s t r i n g y . U n f o r -t u n a t e l y , t h e v a l u e o f ( 6 . 1 ) w i l l d e c r e a s e w i t h l e n g t h e n i n gw o r d s e q u e n c e s w , m a k i n g i t u n s u i t a b l e f o r c o m p a r i n g i n c o m -p l e t e p a t h s o f d i f f e r e n t l e n g t h s . S o m e f o r m o f n o r m a l i z a t i o nt o a c c o u n t f o r d i f f e r e n t p a t h l e n g t h s i s n e e d e d . A s i n t h eF a n o m e t r i c u s e d f o r s e q u e n t i a l d e c o d i n g [ 1 2 ] , i t i s a d v a n t a -g e o u s t o h a v e a l i k e l i h o o d f u n c t i o n w h i c h i n c r e a s e s s l o w l ya l o n g t h e m o s t l i k e l y p a t h , a n d d e c r e a s e s a l o n g o t h e r p a t h s .T h i s c a n b e a c c o m p l i s h e d b y a l i k e l i h o o d f u n c t i o n o f t h e f o r m

    nA ( w ) = E P ( w , y i ) a O n - i E p ( w ' , y n + 62i= 0 WI f we c o n s i d e r P ( w , yy ) t o b e t h e c o s t a s s o c i a t e d w i t h a c c o u n t -i n g f o r t h e i n i t i a l p a r t o f t h e AP s t r i n g y ' b y t h e w o r d s t r i n gw , t h e n . P ( w ' , y+ l I w , yA ) r e p r e s e n t s t h e e x p e c t e d c o s t o fa c c o u n t i n g f o r t h e r e m a i n d e r o f t h e AP s t r i n g y n + 1 w i t h s o m ec o n t i n u a t i o n w ' o f w . T h e n o r m a l i z i n g f a c t o r a c a n b e v a r i e d

    t o c o n t r o l t h e a v e r a g e r a t e o f g r o w t h o f A ( w ) a l o n g t h e m o s tl i k e l y p a t h . I n p r a c t i c e , a c a n b e c h o se n b y t r i a l a n d e r r o r .An a c c u r a t e e s t i m a t e o f 2 I P ( w ' , y + 1 w , y ) i s , o f c o u r s e ,i m p o s s i b l e i n p r a c t i c e , b u t w e c a n a p p r o x i m a t e i t b y i g n o r i n gt h e d e p e n d e n c e o n w . An e s t i m a t e o f E ( y n + 1 f y ) , t h e a v e r a g ev a l u e o f P ( w ' , y i n + 1 | y ) , c a n b e o b t ai ne d f r o m t r a i n i n g d a t a .I n p r a c t i c e , a M a r k o v - t y p e a p p r o x i m a t i o n o f t h e f o r m( 6 . 3 )(y)ll Y 1 ) E ( y l j | Y i )j= i + 1

    c a n b e u s e d . U s i n g k = 1 i s u s u a l l y a d e q u a t e .T h e l i k e l i h o o d u s e d f o r i n c o m p l e t e p a t h s d u r i n g t h e s e a r c hi s t h e n g i v e n b y( 6 . 4 )( w ) = P ( w ) . P Y 1 | ) O t ,i ( i + I Y 1i= o

    F o r c o m p l e t e p a t h s , t h e l i k e l i h o o d i sA ( w ) = P ( w ) P ( y n w ) , ( 6 . 5 )

    i . e . , t h e p r o b a b i l i t y t h a t w w a s u t t e r e d a n d p r o d u c e d t h e c o m -p l e t e o u t p u t s t r i n g y n .T h e l i k e l i h o o d o f a s u c c e s s o r p a t h w k = W k - Wk c a n b ec o m p u t e d i n c r e m e n t a l l y f r o m t h e l i k e l i h o o d o f i t s i m m e d i a t ep r e d e c e s s o r w k - . T h e a p r i o r i p r o b a b i l i t y P ( w k ) i s e a s i l y o b -t a i n e d f r o m t h e l a n g u a g e m o d e l u s i n g t h e r e c u r s i o n( 6 . 6 )

    T h e a c o u s t i c m a t c h v a l u e s P ( y 1 w k ) c a n b e c o m p u t e d i n c r e -m e n t a l l y i f t h e v a l u e s P ( y | W k - ' ) h a v e b e e n s a v e d [ 1 4 ] .A s e a r c h b a s e d o n t h i s l i k e l i h o o d f u n c t i o n i s e a s i l y i m p l e -m e n t e d b y h a v i n g a s t a c k i n w h i c h e n t r i e s o f t h e f o r m ( w ,A ( w ) ) a r e s t o r e d . T h e s t a c k , o r d e r e d b y d e c r e a s i n g v a l u e s o fA ( w ) , i n i t i a l l y c o n t a i n s a s i n g l e e n t r y c o r r e s p o n d i n g t o t h e i n i -t i a l s t a t e o f t h e l a n g u a g e m o d e l . T h e t e r m s t a c k a s u s e d h e r er e f e r s t o a n o rd e re d l i s t i n w h i c h e n t r i e s c a n b e i n s e r t e d a t a n yp o s i t i o n . A t e a c h i t e r a t i o n o f t h e s e a r c h , t h e t o p s t a c k e n t r y i se x a m i n e d . I f i t i s a n i n c o m p l e t e p a t h , t h e e x t e n s i o n s o f t h i sp a t h a r e e v a l u a t e d a n d i n s e r t e d i n t h e s t a c k . I f t h e t o p p a t h i sa c o m p l e t e p a t h , t h e s e a r c h t e r m i n a t e s w i t h t h e p a t h a t t h et o p o f t h e s t a c k b e i n g t h e d e c o d e d p a t h .S i n c e t h e s e a r c h i s n o t e x h a u s t i v e , i t i s p o s s i b l e t h a t t h e d e -c o d e d s e n t e n c e i s n o t t h e m o s t l i k e l y o n e . A p o o r l y a r t i c u -l a t e d w o r d r e s u l t i n g i n a p o o r a c o u s t i c m a t c h , o r t h e o c c u r -r e n c e o f a w o r d w i t h l o w a p r i o r i p r o b a b i l i t y c a n c a u s e t h el o c a l l i k e l i h o o d o f t h e m o s t l i k e l y p a t h t o f a l l , w h i c h may t h e nr e s u l t i n t h e p a t h b e i n g p r e m a t u r e l y a b a n d o n e d . I n p a r t i c u l a r ,s h o r t f u n c t i o n w o r d s l i k e t h e , a , a n d o f , a r e o f t e n p o o r l y a r -t i c u l a t e d , c a u s i n g t h e l i k e l i h o o d t o f a l l . A t e a c h i t e r a t i o n , a l lp a t h s h a v i n g l i k e l i h o o d w i t h i n a t h r e s h o l d A o f t h e maximuml i k e l i h o o d p a t h i n t h e s t a c k a r e e x t e n d e d . T h e p r o b a b i l i t y o fp r e m a t u r e l y a b a n d o n i n g t h e m o s t l i k e l y p a t h d e p e n d s s t r o n g l yo n t h e c h o i c e o f A w h i c h c o n t r o l s t h e w i d t h o f t h e s e a r c h .S m a l l e r v a l u e s o f A w i l l d e c r e a s e t h e amount o f s e a r c h a t t h ee x p e n s e o f h a v i n g a h i g h e r p r o b a b i l i t y o f n o t f i n d i n g t h e m o s tl i k e l y p a t h . I n p r a c t i c e , A c a n b e a d j u s t e d b y t r i a l a n d e r r o r t og i v e a s a t i s f a c t o r y b a l a n c e b e t w e e n r e c o g n i t i o n a c c u r a c y a n dc o m p u t a t i o n t i m e . M o r e c o m p l i c a t e d l i k e l i h o o d f u n c t i o n s a n d

    1 8 4

    p ( W k ) =p ( W k l W k - 1 ) .1 - ' ) P ( W k 1

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    7/12

    B A H L e t a l . : CONTINUOUS S P E E C H R E C O G N I T I O Ne x t e n s i o n s t r a t e g i e s h a v e a l s o b e e n u s e d b ut t h ey a r e b e y o n dt h e s c o p e o f t h i s p a p e r .

    V I I . AUTOMATIC E S T I M A T I O N OF MARKOV S O U R C EPARAMETERS FROM DATAL e t P i ( t , b 7 ) b e t h e j o i n t p r o b a b i l i t y t h a t b7 i s o b s e r v e d a tt h e o u t p u t o f a f i l t e r e d M a r k o v s o u r c e a n d t h a t t h e i t h o u t p u tb i s p a n s t . 3T h e c o u n t

    ( 7 . 1 )

    w h e r e' y ( t , s , a ) = q L ( t ) ( t ) 6 ( R ( t ) , s ) 6 ( A ( t ) , a ) . ( 7 . 5 )

    A s w i t h t h e V i t e r b i a l g o r i t h m d e s c r i b e d i n S e c t i o n V , t h e a b -s e n c e o f n u l l c i r c u i t s g u a r a n t e e s t h a t t h e s t a t e s c a n b e o r d e r e ds o t h a t c i ( s i ) may b e d e t e r m i n e d f r o m c x i - ( s ) , s E G S , a n dc x i ( s k ) , k < .T h e p r o b a b i l i t i e s , i ( s ) s a t i s f y t h e e q u a t i o n s ( 7 . 6 a )3 m ( S F ) = 1P i 3 ( s ) = E g 3 ( R ( t ) ) t ( t , s , 4 )c ( t , b m ) A P i ( t , b 1 m ) P ( b m )i= l

    i s t h e B a y e s a p o s t e r i o r i e s t i m a t e o f t h e n u m b e r o f t i m e s t h a tt h e t r a n s i t i o n t i s u s e d w h e n t h e s t r i n g b7 i s p r o d u c e d . I f t h ec o u n t s a r e n o r m a l i z e d s o t h a t t h e t o t a l c o u n t f o r t r a n s i t i o n sf r o m a g i v e n s t a t e i s 1 , t h e n i t i s r e a s o n a b l e t o e x p e c t t h a t t h er e s u l t i n g r e l a t i v e f r e q u e n c yf S ( t , b7 ) _ E c ( t , b m ) 6 ( s , L ( t ) ) ( 7 . 2 )

    t 'w i l l a p p r o a c h t h e t r a n s i t i o n p r o b a b i l i t y q s ( t ) a s m i n c r e a s e s .T h i s s u g g e s t s t h e f o l l o w i n g i t e r a t i v e p r o c e d u r e f o r o b t a i n i n ge s t i m a t e s o f q s ( t ) .1 ) M a k e i n i t i a l g u e s s e s q S ( t ) .2 ) S e t j = O .3 ) C o m p u t e P i ( t , b 7 ) f o r a l l i a n d t b a s e d o n q s ( t ) .4 ) C o m p u t e f s ( t , b 7 ) a n d o b t a i n n e w e s t i m a t e s q + I ( t ) -f s ( t , b m ) .5 ) S e t j = j + 1 .6 ) R e p e a t f r o m 3 .T o a p p l y t h i s p r o c e d u r e , w e n e e d a s i m p l e m e t h o d f o r c o m -p u t i n g P i ( t , b n ) . No w P i ( t , b m ) i s j u s t t h e p r o b a b i l i t y t h a t as t r i n g o f t r a n s i t i o n s e n d i n g i n L ( t ) w i l l p r o d u c e t h e o b s e r v e ds e q u e n c e b 1 - , , t i m e s t h e p r o b a b i l i t y t h a t t w i l l b e t a k e n o n c eL ( t ) i s r e a c h e d , t i m e s t h e p r o b a b i l i t y t h a t a s t r i n g o f t r a n s i -t i o n s s t a r t i n g w i t h R ( t ) w i l l p r o d u c e t h e r e m a i n d e r o f t h e o b -s e r v e d s e q u e n c e . I f A ( t ) = 4 , t h e n t h e r e m a i n d e r o f t h e o b -s e r v e d s e q u e n c e i s b M , i f A ( t ) = 4 ) t h e n , o f c o u r s e , A ( t ) = b ia n d t h e r e m a i n d e r o f t h e o b se r v e d s e q ue n ce i s b M 1 . T h u s i fa i ( s ) d e n o t e s t h e p r o b a b i l i t y o f p ro d uc i n g t h e o b s e r v e d s e -q u e n c e b ' b y a s e q u e n c e o f t r a n s i t i o n s e n d i n g i n t h e s t a t e s ,a n d f 3 i ( s ) d e n o t e s t h e p r o b a b i l i t y o f p ro d uc i n g t h e o b s e r v e ds e q u e n c e bm b y a s t r i n g o f t r a n s i t i o n s s t a r t i n g f r o m t h e s t a t es , t h e n

    P i ( t , b7)={ i - 1 ( L ( t ) ) q L ( t ) ( t ) O i 3 ( R ( t ) ) c i - I ( L ( t ) ) q L ( t ) ( t ) O i + 1 ( R ( t 'i f A ( t ) =

    t ) ) i f A ( t ) = b i .T h e p r o b a b i l i t i e s a i ( s ) s a t i s f y t h e e q u a t i o n [ 1 5 ]

    a i 0 ( s ) = E ( s , S I ) +Ea 0 ( L ( t ) ) y ( t , s , 4 )t

    t

    +Ei ( L (t))Y(t, s, ) ) i >1I

    + E P i + 1 ( R ( t ) ) t ( t , s , b i )t i.m,s/:sF ( 7 . 6 b )w h e r e a m + 1 ( S ) = 0 a n d

    t ( t , s , a ) = q L ( t ) ( t ) a 5 ( L ( t ) , s ) 6 ( A ( t ) , a ) . ( 7 . 7 )S t e p 3 ) o f t h e i t e r a t i v e p r o c e d u r e a b o v e t h e n c o n s i s t s o fc o m p u t i n g a x s i n a f o r w a r d p a s s o v e r t h e d a t a , , B i i n a b a c k w a r d

    p a s s o v e r t h e d a t a , a n d f i n a l l y P i ( t , b 7 ) f r o m ( 7 . 3 ) . We r e f e rt o t h e i t e r a t i v e p r o c e d u r e t o g e t h e r w i t h t h e m e t h o d d e s c r i b e df o r c o m p u t i n g P i ( t , b 7 ) a s t h e F o r w a r d - B a c k w a r d A l g o r i t h m .T h e p r o b a b i l i t y , P ( b 7 ) , o f t h e o b s e r v e d s e q u e n c e b 7 i s af u n c t i o n o f t h e p r o b a b i l i t i e s q , ( t ) . T o d i s p l a y t h i s d e p e n d e n c ee x p l i c i t l y , w e w r i t e P ( b 7 , q , ( t ) ) . Baum [ 1 6 ] h a s p r o v e n t h a tP ( b , 5 1 ( t ) ) q P ( b 7 , q 1 ( t ) ) w i t h e q u a l i t y o n l y i f q l ( t ) i s as t a t i o n a r y p o i n t ( e x t r e m u m o r i n f l e x i o n p o i n t ) o f P ( b m , ) .T h i s r e s u l t a l s o h o l d s i f t h e t r a n s i t i o n d i s t r i b u t i o n s o f s o m e o ft h e s t a t e s a r e known a n d h e n c e h e l d f i x e d o r i f s o m e o f t h es t a t e s a r e t i e d 4 t o o n e a n o t h e r t h e r e b y r e d u c i n g t h e n u m b e r o fi n d e p e n d e n t t r a n s i t i o n d i s t r i b u t i o n s .W h e n a p p l i e d t o a M a r k o v s o u r c e l a n g u a g e m o d e l b a s e d o nN - g r a m s a s d e s c r i b e d i n S e c t i o n I V t h e F o r w a r d - B a c k w a r dA l g o r i t h m r e d u c e s s i m p l y t o c o u n t i n g t h e n u m b e r o f t i m e sK ( w f w N - 1 ) , t h a t w ' f o l l o w s t h e s e q u e n c e w N - 1 , a n d s e t t i n gW q 1 K ( w I w i ) ( 7 . 8 )

    w

    T h i s i s e q u i v a l e n t t o maximum l i k e l i h o o d e s t i m a t i o n o f t h et r a n s i t i o n p r o b a b i l i t i e s .W h e n a p p l i e d t o a M a r k o v s o u r c e m o d e l f o r t h e a c o u s t i cc h a n n e l , t h e F o r w a r d - B a c k w a r d A l g o r i t h m i s more i n t e r e s t i n g .L e t u s f i r s t c o n s i d e r t h e w o r d - b a s e d c h a n n e l m o d e l i n d i c a t e di n F i g . 8 . A k n o w n t e x t w l i s r e a d b y t h e s p e a k e r a n d p r o -c e s s e d b y t h e a c o u s t i c p r o c e s s o r t o p r o d u c e a n o u t p u t s t r i n gy 7 . T h e M a r k o v s o u r c e c o r r e s p o n d i n g t o t h e t e x t i s c o n -s t r u c t e d f r o m t h e s u b s o u r c e s f o r t h e w o r d s w i t h t h e a s s u m p -t i o n t h a t s t a t e s o f t h e s o u r c e w h i c h a r i s e f r o m t h e s a m e s u b -s o u r c e s t a t e a r e t i e d . T h e F o r w a r d - B a c k w a r d A l g o r i t h m t h e ni s u s e d t o e s t i m a t e t h e t r a n s i t i o n p r o b a b i l i t i e s o f t h e s u b -s o u r c e s f r o m t h e o u t p u t s t r i n g y m . To o b t a i n r e l i a b l e e s t i -m a t e s o f t h e s u b s o u r c e t r a n s i t i o n p r o b a b i l i t i e s , i t i s n e c e s s a r yt h a t e a c h w o r d i n t h e v o c a b u l a r y o c c u r s u f f i c i e n t l y o f t e n i n

    4 F o r d e f i n i t i o n o f t y i n g , se e S e c t i o n I V , N o t a t i o n a n d T e r m i n o l o g y .F o r d e t a i l s o f t h e F o r w a r d - B a c k w a r d A l g o r i t h m e x t e n d e d t o m a c h i n e sw i t h t i e d s t a t e s , s e e [ 1 5 1 .

    1 8 5

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    8/12

    IEEE T R A N S A C T I O N S ON PATTERN ANALYSIS AND MA CHI N E INTELLIGENCE, VOL. P A M I - 5 , NO . 2 , MARCH 1 9 8 3t h e t e x t w ' . F o r l a r g e v o c a b u l a r i e s t h i s may r e q u i r e a nb i t a n t a m o u n t o f r e a d i n g .T h e u s e o f t h e p h o n e - b a s e d m o d e l s h o w n i n F i g . Ho v e r c o m e t h i s p r o b l e m . T h e M a r k o v s o u r c e f o r t h e tc o n s t r u c t e d f r o m p h o n e t i c a n d a c o u s t i c s u b s o u r c e s as c r i b e d i n S e c t i o n I V . S t a t e s i n t h e s o u r c e a r i s i n g f r o rs a m e a c o u s t i c s u b s o u r c e s t a t e a r e a s s u m e d t o b e t i e d . I nt i o n , s t a t e s f r o m d i f f e r e n t p h o n e t i c s u b s o u r c e s a r e a s s u mb e t i e d i f t r a n s i t i o n s l e a v i n g t h e s t a t e s r e s u l t f r o m t h ep h o n o l o g i c a l r u l e s . W i t h t h e s e a s s u m p t i o n s t h e t r a i n i n gc a n b e c o n s i d e r a b l y s h o r t e r s i n c e i t n e e d o n l y i n c l u d ec i e n t l y many i n s t a n c e s o f e a c h p h o n e a n d e a c h p h o n e t i c r

    V I I I . PARAMETER ESTIMATION F R O MI N S U F F I C I E N T DATAI t i s o f t e n t h e c a s e i n p r a c t i c e t h a t t h e d a t a a v a i l a b l e as u f f i c i e n t f o r a r e l i a b l e d e t e r m i n a t i o n o f a l l o f t h e p a r a no f a M a r k o v m o d e l . F o r e x a m p l e , t h e t r i g r a m m o d e l f cL a s e r P a t e n t T e x t c o r p u s [ 1 8 ] u s e d a t IBM R e s e a r c h i s Io n 1 . 5 m i l l i o n w o r d s . T r i g r a m s w h i c h d o n o t o cc u r a :

    t h e s e 1 . 5 m i l l i o n w o r d s a r e a s s i g n e d z e r o p r o b a b i l i t y b y :mum l i k e l i h o o d e s t i m a t i o n , a d e g e n e r a t e c a s e o f t h e F o r +B a c k w a r d A l g o r i t h m . E v e n t h o u g h e a c h o f t h e s e t r i g r av e r y i m p r o b a b l e , t h e r e a r e s o many o f t h e m t h a t t h e y ct u t e 2 3 p e r c e n t o f t h e t r i g r a m s p r e s e n t i n ne w s a m p l e s o fI n o t h e r w o r d s , a f t e r l o o k i n g a t 1 . 5 m i l l i o n t r i g r a m s t h ea b i l i t y t h a t t h e n e x t o n e s e e n w i l l n e v e r h a v e b e e n s e e n bi s r o u g h l y 0 . 2 3 . T h e F o r w a rd - B ac k w a rd A l g o r i t h m p r ca n a d e q u a t e p r o b a b i l i s t i c c h a r a c t e r i z a t i o n o f t h e t r a i n i n gb u t t h e c h a r a c t e r i z a t i o n may b e p o o r f o r ne w d a t a . A m(f o r h a n d l i n g t h i s p r o b l e m , p r e s e n t e d i n d e t a i l i n [ 1 5 ] , ic u s s e d i n t h i s s e c t i o n .C o n s i d e r a M a r k o v s o u r c e m o d e l t h e p a r a m e t e r s o f w h i (t o b e e s t i m a t e d f r o m d a t a b . We a s s u m e t h a t bj i s i nc i e n t f o r t h e r e l i a b l e e s t i m a t i o n o f a l l o f t h e p a r a m e t e r s .L e t q s ( t ) b e f o r w a r d - b a c k w a r d e s t i m a t e s o f t h e t r a np r o b a b i l i t i e s b a s e d o n b ' a n d l e t * q s ( t ) b e t h e c o r r e s p oe s t i m a t e s o b t a i n e d w h e n c e r t a i n o f t h e s t a t e s a r e a s s u mb e t i e d . W h e r e t h e e s t i m a t e s q ' s ( t ) a r e u n r e l i a b l e , w e vl i k e t o f a l l b a c k t o t h e m o r e r e l i a b l y e s t i m a t e d * q L ' S ( t )w h e r e q 4 s ( t ) i s r e l i a b l e we w o u l d l i k e t o u s e i t d i r e c t l y .A c o n v e n i e n t w a y t o a c h i e v e t h i s i s t o c h o o s e a s f i n am a t e s o f q s ( t ) a l i n e a r c o m b i n a t i o n o f q s ( t ) a n d * q ' s ( t ) .we l e t q s ( t ) b e g i v e n b y

    q s ( t ) = X s c " ( t ) + ( 1 - X S ) * ' ( t )w i t h X s c h o s e n c l o s e t o I w h e n q s ( t ) i s r e l i a b l e a n d c l c0 w h e n i t i s n o t .F i g . 1 2 ( a ) s h o w s t h e p a r t o f t h e t r a n s i t i o n s t r u c t u r eM a r k o v s o u r c e r e l a t e d t o t h e s t a t e s . E q u a t i o n ( 8 . 1 ) c a nt e r p r e t e d i n t e r m s o f t h e a s s o c i a t e d M a r k o v s o u r c e s h oF i g . 1 2 ( b ) , i n w h i c h e a c h s t a t e i s r e p l a c e d b y t h r e e s t a tF i g . 1 2 ( b ) , s ^ c o r r e s p o n d s d i r e c t l y t o s i n F i g . 1 2 ( a ) . T ht r a n s i t i o n s f r o m s t o s a n d s * h a v e t r a n s i t i o n p r o b a be q u a l t o X s a n d 1 - X s , r e s p e c t i v e l y . T h e t r a n s i t i o n s o uh a v e p r o b a b i l i t i e s q a ( t ) = a ^ 5 ( t ) w h i l e t h o s e o u t o f s * h a v ea b i l i t i e s * q , ( t ) = * q s ( t ) . T h e s t r u c t u r e o f t h e a s s o c i a t e dk o v s o u r c e i s c o m p l e t e l y d e t e r m i n e d b y t h e s t r u c t u r e co r i g i n a l M a r k o v s o u r c e a n d b y t h e t y i n g s a s s u m e d f o r o li n g m o r e r e l i a b l e p a r a m e t e r e s t i m a t e s .

    A) S I

    S AS 2

    A5 33s u f f i - ( a ) ( b )r u l e . F i g . 1 2 . ( a ) P a r t o f t r a n s i t i o n s t r u c t u r e o f a M a r k o v s o u r c e . ( b ) T h ec o r r e s p o n d i n g part o f a n a s s o c i a t e d i n t e r p o l a t e d M a r k o v s o u r c e .T h e i n t e r p r e t a t i o n o f ( 8 . 1 ) a s a n a s s o c i a t e d M a r k o v s o u r c ei r e i n - i m m e d i a t e l y s u g g e s t s t h a t t h e p a r a m e t e r s X , b e d e t e r m i n e d b yn e t e r s t h e F o r w a r d - B a c k w a r d ( F B ) A l g o r i t h m . H o w e v e r , s i n c e t h e) r t h e X p a r a m e t e r s w e r e i n t r o d u c e d t o p r e d i c t a s y e t u n s e e n d a t a ,b a s e d r a t h e r t h a n t o a c c o u n t f o r t h e t r a i n i n g d a t a b ' , t h e FB A l g o -m o n g r i t h m m u s t b e m o d i f i e d . We w i s h t o e x t r a c t t h e X v a l u e s f r o mm a x i - d a t a t h a t w a s n o t u s e d t o d e t e r m i n e t h e d i s t r i b u t i o n s q , ( t ) a n dw a r d - * q , ( t ) [ s e e ( 8 . 1 ) ] . S i n c e p r e s u m a b l y w e h a v e o n l y b l a t o u r1 m s i s d i s p o s a l , w e w i l l p r o c e e d b y t h e d e l e t e d i n t e r p o l a t i o n m e t h o d .o n s t i - We s h a l l d i v i d e b T i n t o n b l o c k s a n d f o r i = 1 , , n e s t i m a t et e x t . X f r o m t h e i t h b l o c k w h i l e u s i n g q s ( t ) a n d * q s ( t ) e s t i m a t e s d e -p r o b - r i v e d f r o m t h e r e m a i n i n g b l o c k s .e f o r e S i n c e t h e X s v a l u e s s h o u l d d e p e n d o n t h e r e l i a b i l i t y o f t h e) v i d e s e s t i m a t e q s ( t ) , i t i s n a t u r a l t o a s s o c i a t e t h e m w i t h t h e e s t i -3d a t a m a t e d r e l a t i v e f r e q u e n c y o f o c c u r r e n c e o f t h e s t a t e s . We t h u se t h o d d e c i d e o n k r e l a t i v e f r e q u e n c y r a n g e s a n d a i m t o d e t e r m i n ei s d i s - c o r r e s p o n d i n g v a l u e s X ( 1 ) , * - * , X ( k ) . T h e n X s = X ( i ) i f t h er e l a t i v e f r e q u e n c y o f s w a s e s t i m a t e d t o f a l l w i t h i n t h e i t h

    c h a r e r a n g e .s u f f i - We p a r t i t i o n t h e s t a t e s p a c e S i n t o s u b s e t s o f t i e d s t a t e s E l ,2 , S* a n d d e t e r m i n e t h e t r a n s i t i o n c o r r e s p o n d e n c eS 1 i t i n f u n c t i o n s T s , s , f o r a l l p a i r s o f t i e d s t a t e s s , s ' . We r e c a l l f r o mt n d i n g S e c t i o n I V t h a t t h e n * q s ( t ) = * q s , ( T s , s ( t ) ) f o r a l l p a i r s s , s ' El e d t o S i , i 1 , * * * , r . I f L ( t ) E S i , t h e n T ( t ) = { t ' | t ' = T L ( t ) , s ' ( t ) ,v o u l d s ' eS} i s t h e s e t o f t r a n s i t i o n s t h a t a r e t i e d t o t . S i n c e) , b u t T L ( t ) , L ( t ) ( t ) = t , t h e n t E % f ( t ) .We d i v i d e t h e d a t a b l i n t o n b l o c k s o f l e n g t h l ( m = n l ) . We1 e s t i - r u n t h e FB A l g o r i t h m i n t h e o r d i n a r y w a y , b u t o n t h e l a s tT h u s i t e r a t i o n we e s t a b l i s h s e p a r a t e c o u n t e r s

    ( j - 1 ) l m( 8 . 1 ) c j ( t , b m ) - A P , ( t , b m ) + E P i ( t , = b m ) ( 8 . 2 )

    f o r e a c h d e l e t e d b l o c k o f d a t a . T h e a b o v e v a l u e s w i l l g i v e r i s et o d e t a i l e d d i s t r i b u t i o n s( 8 . 3 )s ( t , ) = c , ( t , b i m ) 6 ( s , L ( t ) )s1,tI,bm ) ( s , L ( t ) )

    I t 'a n d t o t i e d d i s t r i b u t i o n s

    b ( s , L ( t ) ) E c i ( t I , b m )~ ~ ~ ~ ~ ~ t ' eJ ( t )* q 3 ( t ) = , 6 ( s , L ( t ' ) ) E c ( t " , b m ) -t I t " E ( t ' ) ( 8 . 4 )

    1 8 6

    ) S I

    S 2

    j = 1 , 2 , - - - n

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    9/12

    B A H I 1 e t a l . : C O N T I N U O U S SPEECH R EC O G N I T I O NN o t e t h a t q , ( t , j ) a n d * q , ( t , j ) d o n o t d e p e n d d i r e c t l y o nt h e o u t p u t d a t a b e l o n g i n g t o t h e j t h b l o c k . T h u s t h e d a t ai n t h e j t h b l o c k c a n b e c o n s i d e r e d ne w i n r e l a t i o n t o t h e s ep r o b a b i l i t i e s .W e no w r u n t h e FB A l g o r i t h m o n d a t a b 7 l t o d e t e r m i n e t h eX v a l u e s b a s e d o n n a s s o c i a t e d M a r k o v s o u r c e s w h i c h h a v ef i x e d d i s t r i b u t i o n s o v e r t r a n s i t i o n s l e a v i n g t h e s t a t e s s a n d s * .T h e s e X v a l u e s a r e o b t a i n e d f r o m e s t i m a t e s o f p r o b a b i l i t i e s o ft r a n s i t i o n s l e a v i n g t h e s t a t e s s o f t h e a s s o c i a t e d M a r k o v s o u r c e[ s e e F i g . 1 2 ( b ) ] . O n l y k c o u n t e r p a i r s p e r t a i n i n g t o t h e v a l u e sX ( i ) a n d I - X ( i ) b e i n g e s t i m a t e d a r e e s t a b l i s h e d . When r u n -n i n g o n t h e d a t a o f t h e j t h b l o c k , t h e j t h a s s o c i a t e d M a r k o vs o u r c e i s u s e d b a s e d o n t h e p r o b a b i l i t i e s q , ( t , j ) a n d * q s ( t , j ) .T h e v a l u e s X s u s e d i n t h e j t h b l o c k a r e c h o s e n b y c o m p u t i n gt h e f r e q u e n c y e s t i m a t e s

    c , ( t , b ' ) 5 ( s , L ( t ) )q ( s , j ) = bm) ( 8 . 5 )t '

    a n d s e t t i n g X s = X ( i ) i f q ( s , j ) b e l o n g e d t o t h e i t h f r e q u e n c yr a n g e . A l s o , t h e X s c o u n t s e s t i m a t e d f r o m t h e j t h b l o c k a r et h e n a d d e d t o t h e c o n t e n t s o f t h e i t h c o u n t e r p a i r .A f t e r X v a l u e s h a v e b e e n c o m p u t e d , ne w t e s t d a t a i s p r e d i c t e du s i n g a n a s s o c i a t e d M a r k o v s o u r c e b a s e d o n p r o b a b i l i t i e snt ( s , L c j ( t , b m )

    q s ( t ) = i = 1 n, : d ( s , L ( t ' ))Ect', b m l )t' i (* q s ( t ) =

    n5 ( s , L ( t ) ) E , ( t ' , b m )t ' c T ( t ) / = It~~~~~~ 6 ( S L ( t ' ) ) ItE jt, b m )t ' I t " c J ( t ' ) j = l

    ( 8 . 6 )

    ( 8 . 7 )

    a n d X , v a l u e s c h o s e n f r o m t h e d e r i v e d s e t X ( 1 ) , - - * , X ( k ) , d e -p e n d i n g o n t h e r a n g e w i t h i n w h i c h t h e e s t i m a t en, 6 ( s , L ( ) , iQ j , b mq ( s ) t 1 = 1 ( 8 . 8 )

    E E c , ( t l , b m )t ' j = 1f a l l s . I t m i g h t a p p e a r t h a t t h e c o n v e r g e n c e o f t h e e s t i m a t i o no f t h e i n t e r p o l a t i o n w e i g h t s X ( i ) n e e d s p r o v i n g s i n c e i t i n v o l v e st h e u s e o f d i f f e r e n t f i x e d d i s t r i b u t i o n s q ( s , j ) o v e r d i f f e r e n tb l o c k s j = 1 , , n . H o w e v e r , s o m e t h o u g h t w i l l r e v e a l t h a tt h e p r o b l e m c a n b e r e f o r m u l a t e d i n t e r m s o f a s i n g l e m o v ec o m p l e x M a r k o v s o u r c e , s o m e o f w h o s e p a r a m e t e r s a r e t i e da n d o t h e r s f i x e d . T h i s s o u r c e i s i d e n t i c a l t o t h e t r e l l i s t h a t i sn e e d e d t o c a r r y o u t t h e X e s t i m a t i o n . T h e p r o c e s s c o n s i s t s o fc a r r y i n g o u t t h e F o r w a r d - B a c k w a r d A l g o r i t h m s f o r e s t i m a t i n gt h e p a r a m e t e r s o f t h e c o m p l e x M ar k o v s o u r c e , a n d t hu s c on -v e r g e s b y t h e Baum t h e o r e m [ 1 6 ] .T h i s a p p r o a c h t o m o d e l i n g d a t a g e n e r a t i o n i s c a l l e d d e l e t e di n t e r p o l a t i o n . S e v e r a l v a r i a t i o n s a r e p o s s i b l e s o m e o f w h i c h

    / p S w / + l ( w / l I ( w l w 2 ) ), ,,, = , 2 ( w 1 W 2 ) )

    N \ P ( W i 3 ( W g w 2 ) ), p( w / 4 ( w 1 , w 2 ) )

    F i g . 1 3 . A s e c t i o n o f t h e i n t e r p o l a t e d t r i g r a m l a n g u a g e m o d e l c o r -r e s p o n d i n g t o t h e s t a t e d e t e r m i n e d b y t h e w o r d p a i r w 1 , w 2 .a r e d e s c r i b e d i n [ 1 5 ] . I n p a r t i c u l a r , i t i s p o s s i b l e t o h a v e v d i f -f e r e n t t y i n g p a r t i t i o n s o f t h e s t a t e s p a c e c o r r e s p o n d i n g t ot r a n s i t i o n d i s t r i b u t i o n s ( i ) q s ( t ) , i = 1 , * * , v , a n d t o o b t a i n t h ef i n a l e s t i m a t e s b y t h e f o r m u l a

    ( 8 . 9 )s ( t ) = E X i ( S ) ( I ) q s ( t )i = lw i t h X i ( s ) v a l u e s d e t e r m i n e d b y t h e F o r w a r d - B a c k w a r dA l g o r i t h m .W e i l l u s t r a t e t h i s d e l e t e d i n t e r p o l a t i o n a l g o r i t h m w i t h a n a p -p l i c a t i o n t o t h e t r i g r a m l a n g u a g e m o d e l f o r t h e l a s e r p a t e n tt e x t c o r p u s u s e d a t I B M .L e t 7 r ( w ) b e t h e s y n t a c t i c p a r t o f s p e e c h ( e . g . , n o u n , v e r b ,e t c . ) a s s i g n e d t o t h e w o r d w . L e t O i , i = 1 , , 4 b e f u n c t i o n sc l a s s i f y i n g t h e l a n g u a g e m o d e l s t a t e s w l w 2 a s f o l l o w s :

    4 1 (W1 W2) = { ( W I W2)}k 2 ( W 1 W 2 ) = { ( W W 2 ) 1 r ( w ) = r ( w 1 ) }

    0 3 ( W I W 2 ) = { ( W W ' ) j 1 7 ( W ) = 7 ( W 1 ) , 7 r ( W ' ) = 7 r ( W 2 ) }4 ( W I W 2 ) = { a l l p a i r s o f w o r d s } . ( 8 . 1 0 )L e t K ( O j ( w 1 w 2 ) ) b e t h e n u m b e r o f t i m e s t h a t m e m b e r s o f t h es e t O i ( w 1 w 2 ) o c c u r i n t h e t r a i n i n g t e x t . F i n a l l y , p a r t i t i o n t h es t a t e s p a c e i n t o s e t s

    ) 5 ( W 1 W2 ) = { w w ' | K ( Q k 1 ( w w ' ) ) = K ( O j ( w i W2 3 ) = 1j = 1, 2 , - - - , i - 1 ,K ( o / ( w w ' ) ) = K ( o i ( w 1 w 2 ) ) > 1 } ( 8 . 1 1 )

    w h i c h w i l l b e u s e d t o t i e t h e a s s o c i a t e d s t a t e s w l w 2 a c c o r d -i n g t o t h e f r e q u e n c y o f w o r d p a i r o c c u r r e n c e . N o t e t h a t i fK ( Q I ( w 1 w 2 ) ) > 2 , t h e n 0 5 ( w I w 2 ) i s s i m p l y t h e s e t o f a l l w o r dp a i r s t h a t o c c u r r e d i n t h e c o r p u s e x a c t l y as many t i m e s a sw I w 2 d i d . A d i f f e r e n t X d i s t r i b u t i o n w i l l c o r r e s p o n d t o e a c hd i f f e r e n t s e t ( 8 . 1 1 ) . T h e l a n g u a g e m o d e l t r a n s i t i o n p r o b a b i l i -t i e s a r e g i v e n b y t h e f o r m u l a4P ( w 3 l w l W 2 ) = X i ( k s ( w 1 W 2 ) ) P i ( W 3 j 1 i ( W I W 2 ) ) .1= 1

    ( 8 . 1 2 )F i g . 1 3 i l l u s t r a t e s t h i s g r a p h i c a l l y . We u s e d e l e t e d i n t e r p o l a -t i o n a l s o i n e s t i m a t i n g t h e p r o b a b i l i t i e s a s s o c i a t e d w i t h t h ea c o u s t i c c h a n n e l m o d e l .

    1 87

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    10/12

    IEEE T R A N S A C T I O N S ON PA T T ER N ANALYSIS AND MACHINE INTELLIGENCE, VOL. P A M I - 5 , NO . 2 , MARCH 1983I X . A MEASURE OF D I F F I C U L T Y FO R F I N I T ES T A T E R E C O G N I T I O N T A S K S

    R e s e a r c h i n c o n t i n u o u s s p e e c h r e c o g n i t i o n h a s l e d t o t h e d e -v e l o p m e n t o f a n u m b e r o f a r t i f i c i a l t a s k s . I n o r d e r t o c o m p a r et h e p e r f o r m a n c e o f d i f f e r e n t s y s t e m s o n s e n t e n c e s f r o m d i f f e r -e n t t a s k s , i t i s n e c e s s a r y t o h a v e a m e as ur e o f t h e i n t r i n s i c d i f -f i c u l t y o f a t a s k . A l t h o u g h v o c a b u l a r y s i z e i s a l m o s t a l w a y sm e n t i o n e d i n t h e d e s c r i p t i o n o f a n a r t i f i c i a l t a s k , b y i t s e l f i t i sp r a c t i c a l l y u s e l e s s a s a m e a s u r e o f d i f f i c u l t y . I n t h i s s e c t i o nw e d e s c r i b e p e r p l e x i t y , a m e a s u r e o f d i f f i c u l t y b a s e d o n w e l le s t a b l i s h e d i n f o r m a t i o n t h e o r e t i c p r i n c i p l e s . T h e e x p e r i m e n t a lr e s u l t s d e s c r i b e d i n t h e n e x t s e c t i o n s h o w a c l e a r c o r r e l a t i o nb e t w e e n i n c r e a s i n g p e r p l e x i t y a n d i n c r e a s i n g e r r o r r a t e .P e r p l e x i t y i s d e f i n e d i n t e r m s o f t h e i n f o r m a t i o n t h e o r e t i cc o n c e p t o f e n t r o p y . T h e t a s k s u s e d i n s p e e c h r e c o g n i t i o nc a n b e a d e q u a t e l y m o d e l e d a s u n i f i l a r 3 M a r k o v s o u r c e s . L e tP ( w J s ) b e t h e p r o b a b i l i t y t h a t w o r d w w i l l b e p r o d u c e d n e x tw h e n t h e c u r r e n t s t a t e i s s . T h e e n t r o p y , H , ( w ) a s s o c i a t e dw i t h s t a t e s i s

    H s ( w ) = - P ( w I S ) I o g , P ( w I S ) . ( 9 . 1 )wT h e e n t r o p y H ( w ) o f t h e t a s k i s s i m p l y t h e a v e r a g e v a l u e o fH s ( w ) . T h u s i f i r ( s ) i s t h e p r o b a b i l i t y o f b e i n g i n s t a t e s d u r i n gt h e p r o d u c t i o n o f a s e n t e n c e , t h e n

    H ( w ) - i ( s ) H s ( w ) . ( 9 . 2 )s

    T h e p e r p l e x i t y S ( w ) o f t h e t a s k i s g i v e n i n t e r m s o f i t s e n -t r o p y H ( w ) b yS ( w ) = 2 H ( W ) ( 9 . 3 )

    O f t e n , a r t i f i c i a l l y c o n s t r a i n e d t a s k s s p e c i f y t h e s e n t e n c e sp o s s i b l e w i t h o u t a t t a c h i n g p r o b a b i l i t i e s t o t h e m . A l t h o u g ht h e t a s k p e r p l e x i t y d e p e n d s o n t h e p r o b a b i l i t i e s a s s i g n e d t ot h e s e n t e n c e s , S h a n n o n [ 1 7 ] h a s s h o w n t h a t t h e maximum e n -t r o p y a c h i e v a b l e f o r a t a s k w i t h N p o s s i b l e s e n t e n c e s o f a v e r -a g e l e n g t h 1 i s 1 / 1 1 0 g 2 N . H e n c e t h e maximum p e r p l e x i t y i sN l / l . I f a l l t h e s e n t e n c e s f o r t h e t a s k c o u l d b e a r r a n g e d a s ar e g u l a r t r e e , t h e n u m b e r o f b r a n c h e s e m a n a t i n g f r o m a n o d ew o u l d b e N ' l l . S o , f o r a r t i f i c i a l l y c o n s t r a i n e d t a s k s , p e r p l e x -i t y c a n b e t h o u g h t o f a s t h e a v e r a g e n u m b e r o f a l t e r n a t i v ew o r d s a t e a c h p o i n t . F o r t h e R a l e i g h t a s k o f F i g . 7 , t h e n u m -b e r o f a l t e r n a t i v e w o r d s r a n g e s f r o m 1 t o 2 4 , a n d t h e p e r p l e x -i t y i s 7 . 2 7 .F o r n a t u r a l l a n g u a g e t a s k s , s o m e s e n t e n c e s a r e m u c h m o r ep r o b a b l e t h a n o t h e r s a n d s o t h e maximum p e r p l e x i t y i s n o tu s e f u l a s a m e a s u r e o f d i f f i c u l t y . H o w e v e r , t h e p e r p l e x i t y ,w h i c h c a n b e c o m pu t e d f r o m t h e p r o b a b i l i t i e s o f t h e s e n t e n c e s ,r e m a i n s a u s e f u l m e a s u r e . I n f o r m a t i o n t h e o r y s h o w s t h a t f o r al a n g u a g e w i t h e n t r o p y H , w e c a n i g n o r e a l l b u t t h e m o s t p r o b -a b l e 2 l H s t r i n g s o f l e n g t h 1 a n d s t i l l a c h i e v e a n y p r e s c r i b e d e r -r o r r a t e .T h e d e f i n i t i o n o f p e r p l e x i t y m a k e s n o u s e o f t h e p h o n e t i cc h a r a c t e r o f t h e w o r d s i n t h e v o c a b u l a r y o f t h e l a n g u a g e . Twot a s k s m a y h a v e t h e s a m e p e r p l e x i t y b u t o n e m a y h a v e w o r d st h a t a r e s u b s t a n t i a l l y l o n g e r t h a n t h e o t h e r , t h e r e b y m a k i n gr e c o g n i t i o n e a s i e r . T h i s p r o b l e m c a n b e o v e r c o m e b y c o n s i d -

    e r i n g t h e s e n t e n c e s o f t h e t a s k t o b e s t r i n g s o f p h o n e m e s r a t h e rt h a n s t r i n g s o f w o r d s . We c a n t h e n c o m p u t e t h e p h o n e m el e v e l p e r p l e x i t y o f t h e t w o t a s k s a n d n o r m a l i z e t h e m t o w o r d so f e q u a l l e n g t h . I n t h i s w a y t h e p e r p l e x i t y o f t h e t a s k w i t ht h e g r e a t e r a v e r a g e w o r d l e n g t h w i l l b e l o we r e d r e l a t i v e t o t h a to f t h e o t h e r t a s k .S o m e p a i r s o f p h o n e m e s a r e m o r e c o n f u s a b l e t h a n o t h e r s . I ti s p o s s i b l e t h e r e f o r e t o h a v e t w o t a s k s w i t h t h e s a m e p h o n e m el e v e l p e r p l e x i t y , o n e o f w h i c h i s m u c h e a s i e r t o r e c o g n i z e t h a nt h e o t h e r , s i m p l y b e c a u s e i t s w o r d s a r e a c o u s t i c a l l y f a r t h e ra p a r t . We c a n t a k e t h i s i n t o a c c o u n t b y c o n s i d e r i n g t h e j o i n tp r o b a b i l i t y d i s t r i b u t i o n P ( w , y ) o f w o r d s e q u e n c e s w a n da c o u s t i c s e q u e n c e s y a n d d e t e r m i n i n g f r o m i t t h e c o n d i t i o n a le n t r o p y H ( w | y ) . y c o u l d b e t h e o u t p u t s t r i n g f r o m a p a r t i c u -l a r a c o u s t i c p r o c e s s o r o r s i m p l y t h e t i m e w a v e f o r m i t s e l f . U n -f o r t u n a t e l y , t h i s i s f a r t o o d i f f i c u l t t o c o m p u t e i n p r a c t i c e .P e r p l e x i t y r e f l e c t s t h e d i f f i c u l t y o f r e c o g n i t i o n w h e n a c o m -p l e t e s e a r c h c a n b e p e r f o r m e d . T h e e f f e c t o n t h e e r r o r r a t e o fp e r f o r m i n g a n i n c o m p l e t e s e a r c h may b e m o r e s e v e r e f o r o n el a n g u a g e t h a n f o r a n o t h e r , e v e n t h o u g h t h e y h av e t h e s a m ep e r p l e x i t y . H o w e v e r , a s t h e r e s u l t s i n t h e n e x t s e c t i o n s h o w ,t h e r e i s a c l e a r c o r r e l a t i o n b e t w e e n p e r p l e x i t y a n d e r r o r r a t e .

    X . E X P E R I M E N T A L R E S U L T ST h e r e s u l t s g i v e n i n t h i s s e c t i o n , o b t a i n e d b e f o r e 1 9 8 0 , a r ed e s c r i b e d i n d e t a i l i n [ 3 ] , [ 5 1 , [ 6 ] , [ 1 8 ] , [ 1 9 ] .T a b l e I s h o w s t h e e f f e c t o f t r a i n i n g s e t s i z e o f r e c o g n i t i o ne r r o r r a t e . 2 0 0 s e n t e n c e s f r o m t h e R a l e i g h L a n g u a g e ( 1 0 0t r a i n i n g a n d 1 0 0 t e s t ) w e r e r e c o g n i z e d u s i n g a s e g m e n t i n ga c o u s t i c p r o c e s s o r a n d a s t a c k a l g o r i t h m d e c o d e r . We i n i t i a l l ye s t i m a t e d t h e a c o u s t i c c h a n n e l m o d e l p a r a m e t e r s b y e x a m i n i n gs a m p l e s o f a c o u s t i c p r o c e s s o r o u t p u t . T h e s e p a r a m e t e r v a l u e s

    w e r e t h e n r e f i n e d b y a p p l y i n g t h e F o r w a r d - B a c k w a r d A l g o -r i t h m t o t r a i n i n g s e t s o f i n c r e a s i n g s i z e . W h i l e f o r s m a l l t r a i n -i n g s e t s i z e s p e r f o r m a n c e o n t r a i n i n g s e n t e n c e s s h o u l d b es u b s t a n t i a l l y b e t t e r t h a n o n t e s t s e n t e n c e s , f o r s u f f i c i e n t l y l a r g et r a i n i n g s e t s i z e s p e r f o r m a n c e o n t r a i n i n g a n d t e x t s e n t e n c e ss h o u l d b e a b o u t e q u a l . B y t h i s c r i t e r i o n a t r a i n i n g s e t s i z e o f6 0 0 s e n t e n c e s i s a d e q u a t e f o r d e t e r m i n i n g t h e p a r a m e t e r s o ft h i s a c o u s t i c c h a n n e l m o d e l . N o t i c e t h a t e v e n a t r a i n i n g s e ts i z e a s s m a l l a s 2 0 0 s e n t e n c e s l e a d s t o a s u b s t a n t i a l r e d u c t i o ni n e r r o r r a t e a s c o m p a r e d t o d e c o d i n g w i t h t h e i n i t i a l l y e s t i -m a t e d c h a n n e l m o d e l p a r a m e t e r s .T h e p o w e r o f a u t o m a t i c t r a i n i n g i s e v i d e n t f r o m T a b l e I i nt h e d r a m a t i c d e c r e a s e i n e r r o r r a t e r e s u l t i n g f r o m t r a i n i n g e v e nw i t h a s m a l l a m o u n t o f d a t a . T h e r e s u l t s i n T a b l e I I f u r t h e rd e m o n s t r a t e t h e p o w e r o f a u t o m a t i c t r a i n i n g . H e r e , t h r e ev e r s i o n s o f t h e a c o u s t i c c h a n n e l m o d e l a r e u s e d , e a c h w e a k e rt h a n t h e p r e v i o u s o n e . T h e " c o m p l e t e a c o u s t i c c h a n n e l m o d e l "r e s u l t c o r r e s p o n d s t o t h e l a s t l i n e o f T a b l e I . T h e a c o u s t i cc h a n n e l m o d e l i n t h i s c a s e i s b u i l t u p f r o m p h o n e t i c s u b s o u r c e sa n d a c o u s t i c s u b s o u r c e s a s d e s c r i b e d i n S e c t i o n I V . T h e p h o -n e t i c s u b s o u r c e s p r o d u c e m a n y d i f f e r e n t s t r i n g s f o r e a c h w o r dr e f l e c t i n g p h o n o l o g i c a l m o d i f i c a t i o n s d u e t o r a t e o f a r t i c u l a t i o n ,d i a l e c t , e t c . T h e " s i n g l e p r o n u n c i a t i o n " r e s u l t i s o b t a i n e d w i t ha n a c o u s t i c c h a n n e l m o d e l i n w h i c h t h e p h o n e t i c s u b s o u r c e sa l l o w o n l y a s i n g l e p r o n u n c i a t i o n f o r e a c h w o r d . F i n a l l y , t h e" s p e l l i n g - b a s e d p r o n u n c i a t i o n " r e s u l t i s o b t a i n e d w i t h a n

    1 8 8

    Authorized licensed use limited to: Escuela Superior de Ingeneria Mecanica. Downloaded on November 9, 2009 at 20:33 from IEEE Xplore. Restrictions apply.

  • 7/30/2019 A Maximum Likelihood Approach to Continuos Speech Recognition

    11/12

    BAHL e t a l . : CONTINUOUS SPEECH R EC O G N I T I O NTABLE IE F F E C T O F T R A I N I N G S E T S I Z E O N ERROR R A T E

    % o f S e nt e n ce sD e c o d e d I n c o r r e c t l yT r a i n i n g S e tS i z e T e s t T r a i n i n g0 80% -

    2 0 0 23% 1 2 %4 0 0 2 0 % 1 3 %6 0 0 1 5 % 1 6 %8 0 0 1 8 % 1 6 %1 0 7 0 1 7 % 1 4 %

    T A B L E I IE F F E C T O F WEAK A C O U S T I C S CHANNEL MODELS% o f S e n t e n c e sM o d e l T y p e D e c o d e d I n c o r r e c t l y

    C o m p l e t e A c o u s t i c C h a n n e l M o d e l 17%S i n g l e P r o n o u n c i a t i o n 2 5 %S p e l l i n g - B a s e d P r o n o u n c i a t i o n 5 7 %

    TA B L E I I ID E C O D I N G R E S U L T S F O R S E V E R A L D I F F E R E N T A C O U S T I CP R O C E S S O R S W I T H T H E R A L E I G H LANGUAGEE r r o r R a t e

    A c o u s t i c P r o c e s s o r S e n t e n c e WordMA P 2 7 % 3 . 6 %CSAP 2% 0 . 2 %TRIVIAL 2 % 0 . 2 %

    TABLE I VR E C O G N I T I O N R E S U L T S F O R S E V E R A L T A S K S O F V A R Y I N G P E R P L E X I T YV o c a b u l a r y Word E r r o r R a t e

    T a s k S i z e P e r p l e x i t y S e g m e n t i n g AP T i m e - S y n c h r o n o u s APCMU-AIX05 1 0 1 1 4 . 5 3 0 . 8 % 0 . 1 %R a l e i g h 2 5 0 7 . 2 7 3 . 1 % 0 . 6 % oL a s e r 1 0 0 0 2 4 . 1 3 3 3 . 1 % 8 . 9 %

    a c o u s t i c c h a n n e l m o d e l i n w h i c h t h e s i n g l e p r o n u n c i a t i o na l l o w e d b y t h e p h o n e t i c s u b s o u r c e s i s b a s e d d i r e c t l y on t h el e t t e r - b y - l e t t e r s p e l l i n g o f t h e w o r d . T h i s l e a d s t o a b s u r dp r o n u n c i a t i o n m o d e l s f o r s o m e o f t h e w o r d s . F o r e x a m p l e ,t h r o u g h i s m o d e l e d a s i f t h e f i n a l g a n d h w e r e p r o n o u n c e d .T h e t r a i n e d p a r a m e t e r s f o r t h e a c o u s t i c c h a n n e l w i t h s p e l l i n g -b a s e d p r o n u n c i a t i o n s s h o w t h a t l e t t e r s ar e o f t e n d e l e t e d b yt h e a c o u s t i c processor r e f l e c t i n g t h e l a r g e n u m b e r o f s i l e n tl e t t e r s i n E n g l i s h s p e l l i n g . A l t h o u g h t h e r e s u l t s o b t a i n e d i nt h i s way ar e m u c h w or s e t h a n t h o s e o b t a i n e d w i t h t h e o t h e rtwo c h an n e l m o d e l s, t h e y are s t i l l c o n s i d e r a b l y b e t t e r t h a nt h e r e s u l t s o b t ai ne d w i t h t h e c o m p l e t e c h a n n e l m o d e l u s i n gp a r a m e t e r s e s t i m a t e d b y p e o p l e .T a b l e I I I s h o w s r e s u l t s on t h e R a l e i g h L a n g u a g e f o r s e v e r a ld i f f e r e n t a c o u s t i c p r o c e s s o r s . I n e a c h case t h e same s e t o f1 0 0 s e n t e n c e s w as d e c o d e d u s i n g t h e s t a c k d e c o d i n g a l g o r i t h m .MA P i s a s e g m e n t i n g a c o u s t i c p r o c e s s o r , w h i l e CSAP a n dTRIVIAL ar e n o n s e g m e n t i n g a c o u s t i c p r o c e s s o r s . P r o t o t y p e sf o r CSAP w e r e s e l e c t e d b y h a n d f r o m an e x a m i n a t i o n o fs p e e c h d a t a . T h o s e f o r TRIVIAL w e r e o b t a i n e d a u t o m a t i c a l l yf r o m a V i t e r b i a l i g n m e n t o f a b o u t o ne h o u r o f s p e e c h d a t a .T a b l e I V s u m m a r i z e s t h e p e r f o r m a n c e o f t h e s t a c k d e c o d i n ga l g o r i t h m w i t h a s e g m e n t i n g a n d a t i m e - s y n c h r o n o u s a c o u s t i c

    p r o c e s s o r o n t h r e e t a s k s o f v a r y i n g p e r p l e x i t y . T h e R a l e i g ht a s k h a s b e e n d e s c r i b e d e a r l i e r i n t h e p a p e r . T h e L a s e r t a s k i sa n a t u r a l l a n g u a g e t a s k u s e d a t I B M . I t c o n s i s t s o f s e n t e n c e sf r o m t h e t e x t o f p a t e n t s i n l a s e r t e c h n o l o g y . T o l i m i t t h ev o c a b u l a r y , o n l y s e n t e n c e s m a d e e n t i r e l y f r o m t h e 1 0 0 0 m o s tf r e q u e n t w o r d s i n t h e c o m p l e t e l a s e r c o r p u s a r e c o n s i d e r e d .T h e C M U - A I X 0 5 t a s k [ 2 0 ] i s t h e t a s k u s e d b y C a r n e g i e - M e l l o nU n i v e r s i t y i n t h e i r S p e e c h U n d e r s t a n d i n g S y s t e m t o m e e t t h eARPA s p e c i f i c a t i o n s [ 2 1 1 . A l l t h e s e r e s u l t s w e r e o b t a i n e dw i t h s e n t e n c e s s p o k e n b y a s i n g l e t a l k e r i n a s o u n d - t r e a t e dr o o m . A p p r o x i m a t e l y 1 0 0 0 s e n t e n c e s w e r e u s e d f o r e s t i m a t i n gt h e p a r a m e t e r s o f t h e a c o u s t i c c h a n n e l m o d e l i n e a c h o f t h ee x p e r i m e n t s . T h e r e i s a c l e a r c o r r e l a t i o n b e t w e e n p e r p l e x i t ya n d e r r o r r a t e . T h e C M U - A I X O 5 t a s k h a s t h e l a r g e s t v o c a b u -l a r y b u t t h e s m a l l e s t p e r p l e x i t y . N o t e t h a t f o r e a c h o f t h et a s k s , t h e p e r f o r m a n c e o f t h e t i m