Theoretical and Applied Problems of Physics ... - ela.kpi.ua“рушко.pdf · ÓÄÊ 004.56.5...
Transcript of Theoretical and Applied Problems of Physics ... - ela.kpi.ua“рушко.pdf · ÓÄÊ 004.56.5...
УДК 004.56.5
СПЕКТРАЛЬНЫЙ И КЕПСТРАЛЬНЫЙ АНАЛИЗ ЗВУКА ДЛЯИДЕНТИФИКАЦИИ ГОЛОСАЯ. В. Грушко1, а, В. Я. Данилов1, б
1Учебно-научный комплекс «ИПСА» НТУУ «КПИ», кафедра ММСА
АннотацияВ статье представлены алгоритмы спектрального и кепстрального анализа для идентификации мужского и женскогоголосов. Создан прототип системы распознавания, основанной на использовании мел-кепстрального анализа и энер-гетического распределения спектра голосового сигнала. Приведены вероятности дикторозависимого распознаванияс использованием обоих подходов.
Ключевые слова: идентификация голоса, спектральный анализ, кепстральный анализ, мел-кепстральные коэффици-енты, энергетическое распределение.
ВведениеГолос – такая же неотъемлемая черта каждого че-
ловека, как и его лицо или отпечатки пальцев. Ши-рокое распространение средств связи (стационарныеи мобильные телефонные сети, интернет-телефонияи т.д.) открывают большие возможности для приме-нения данного идентификатора; кроме того, распо-знавание по голосу весьма удобно для пользователейи требует от них минимум усилий.
Технологии и средства идентификации по голосуприменяются в ряде областей, непосредственно свя-занных с обработкой обращений пользователей потелефону (колл-центры и т.п.), что позволяет уско-рить обслуживание абонентов и разгрузить операто-ров. В более значимых проектах (особенно связан-ных с необходимостью защиты конфиденциальнойинформации) идентификация по голосу играет нема-ловажную роль при разработке комплексных систембезопасности, в борьбе с терроризмом и др.
Необходимо учитывать, что голос (наряду с по-черком, походкой и т.п.) относится к т.н. «поведенче-ским» идентификаторам. Он подвержен существен-ным изменениям под воздействием эмоциональныхфакторов (настроение человека) и состояния здоро-вья (ангина, насморк, бронхит и т.д.). На качествеидентификации могут сказываться также внешниеусловия (например, посторонние шумы от дорожно-го движения, разговоров других людей). Если дляпередачи голосовой информации используются ли-нии связи, помехи в них также способны затруднитьраспознавание пользователя. Поэтому достичь высо-кой точности и надежности идентификации являетсячрезвычайно сложной задачей.
Методы распознавания акустического сиг-нала разделяют на дикторозависимые инедикторозависимые[1]. Представляемый в ра-боте метод относится к классу дикторозависимых
а[email protected]б[email protected]
методов распознавания, который учитывает голосо-вые признаки говорящего. Для анализа голосовогосигнала в дикторозависимых методах обычноприменяют кепстральный анализ [2, 3] который,по-сути, представляет собой анализ спектра спектраанализируемого сигнала, называемый «кепстром»[4].
Популярным справочным руководством по иден-тификации человеческого голоса является работа И.Клемента, С. Мохова, Д. Николакопулуса, С. Син-клара и др. «Modular Audio Recognition Frameworkv.0.3.0.6 (0.3.0 final) and its Applications» [5], где изло-жены основные подходы записи и анализа звуковыхданных. В НТУУ «КПИ» проблемой анализа и пара-метризации речевых сигналов занимались ДаниловВ.Я. и Добрушкин Г.А. [6, 7, 8], которые рассмотрелидикторозависимую модель распознавания речевойинформации на основе искусственных иммунных си-стем [8].
1. МетодКепстральный анализ голоса, выполненный в на-
стоящей работе, основывается на методе идентифи-кации, предложенном Р. Хасаном и др. [9].
Блок-схема метода приведена на(рис. 1)
Рис. 1. Блок-схема метода мел-кепстрального анализазвука для идентификации голоса.
На начальном этапе, голосовой сигнал, записан-ный в виде WAV-файла в анализирующую систему,
XIV Всеукраїнська науково-практична конференцiя студентiв, аспiрантiв та молодих вчених
147
Рис. 4. Функция перехода от частоты в Гц к частоте вмелах
разбивается на фреймы с перекрытием 𝑁/2, где 𝑁 –количество точек, составляющее период дискретногосигнала. Голосовой сигнал представленый на (рис. 2)
Рис. 2. Голосовой сигнал
Поскольку анализируемый сигнал не является пе-риодическим, приходится на следующем этапе умно-жать каждый фрейм на оконную функцию, устра-няющую разрывы на границах периодов. В качествеоконной функции мы выбрали функцию Хэмминга:
𝑊𝐻𝑎𝑚𝑚[𝑖] = 0.54− 0.46𝑐𝑜𝑠2𝜋𝑖
𝑁(1)
График на котором изображена функция Хэммин-га представлен на (рис. 3).
Рис. 3. Функция Хэмминга
Эта функция плавно сводит на нет сигнал вблизикраев анализируемого участка. Далее, выполняетсябыстрое преобразование Фурье (𝐹𝐹𝑇 ) сигнала, воснову которого положен алгоритм Кули-Тьюки c
основанием 2. На следующем этапе мы конвертируемчастоты полученные быстрым преобразованием Фу-рье в мел частоты. Переход от обычной частоты (Гц)к мел-частоте выполняется по следующей формуле:
𝑚 = 1127 ln
(︂1 +
𝑓
700
)︂(2)
где 𝑚 – частота в мелах, 𝑓 – частота в герцах.График функции перехода от частоты в герцах к
частоте в мелах изображен на (рис. 4)Затем мы выполняем расчёт mel-фильтров (от
др.-греч. 𝜇𝜀𝜆𝑜𝜍 — звук) т.е. переходим к психофизи-ческой единице высоты звука, основанной на субъек-тивном восприятии среднестатистическими людьми.Здесь неявно делается предположение, что голосо-вой аппарат человека приспособлен к его слуховомуаппарату, т.е. наиболее важные идентифицирующиеголос признаки следует искать по мел-частотнойшкале, воспринимаемой ухом.
Это предположение, вообще говоря, не очевидно итребует экспериментальной проверки, которая былапроведена в рамках представляемой работы. Т.е. бы-ла выполнена идентификация с целью различениямужского и женского голосов по мел-кепстральнымкоэффициентам (вектору признаков сигнала C), ко-торые находятся на последнем этапе метода [9] поформуле:
𝐶𝑛 =𝐾∑︁
𝑘=1
(log𝑆𝑘) [𝑛
(︂𝑘 − 1
2
)︂𝜋
𝐾] (3)
здесь: 𝐶𝑛 – мел-кепстральный коэффициент под но-мером n, 𝑆𝑘 – мел-коэффициент под номером к, K –наперед заданное количество мел-кепстральных ко-эффициентов,n ∈ [1, K ], а также по вектору призна-ков Е, полученному из анализа энергетического рас-пределения спектра сигнала по обычной (Гц) шкалепо формуле:
𝐸𝑖 ∼𝑛𝑖+1∑︁
𝑛𝑖
𝑋2𝑘 (4)
где
𝑖 ∈ (1,𝐾)
Для определения эффективности идентификациипола говорящего указанными способами статисти-ческий анализ и дальнейшая обработка данных бы-ли сведены к минимуму. Эффективность определя-лась методом городских кварталов «манхэттенскоерасстояние» [10], т.е. вычислением расстояния отвектора признаков пробного сигнала p до векторапризнаков q вектора шаблона:
𝑑1 (𝑝, 𝑞) = ‖𝑝− 𝑞‖1 =𝑛∑︁
𝑖=1
|𝑝𝑖 − 𝑞𝑖| (5)
а также непосредственным сравнением компонентэтих векторов после каждого эксперимента.
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 =𝑀∑︁
𝑖=1
1, 𝑖 ∈ {𝑖 : 𝑚𝑖𝑛(𝑝𝑖, 𝑞𝑖)𝑚𝑎𝑥(𝑝𝑖, 𝑞𝑖)
< 0, 5} (6)
Фiзико-технiчнi аспекти кiбербезпеки
148
Таблица 1. Таблица вероятности правильнойидентификации мужского и женского глоса.
Вид сигнала, метод Город. кварт Similarity
звук, E 90% 90%
слово, E 70% 70%
звук, C 90% 70%
слово, C 85% 70%
2. РезультатыВ ходе работы, на языке 𝐶# был создан прототип
системы распознавания , интерфейс которой приве-ден на(рис. 5)
Рис. 5. Интерфейс программы распознавания голоса.
Графики n эелементов векторов энергетическогораспределения E спектра шаблонного и анализируе-мого голосовых сигналов представлены на (рис. 6)
Рис. 6. Графики n эелементов векторов энергетическогораспределения E спектра голосовых сигналов.
Горизонтальными линиями обозначены значенияэлементов вектора-шаблона, вертикальные линии
отображают значения вектора анализируемого сигнала.
Графики векторов-признаков C, составленных изn мел-кепстральных коэффициентов шаблонного ианализируемого голосовых сигналов представленына (рис. 7)
Рис. 7. Графики векторов-признаков C, составленных изn мел-кепстральных коэффициентов шаблонного и
анализируемого голосовых сигналов. Горизонтальнымилиниями обозначены значения элементов
вектора-шаблона, вертикальные линии отображаютзначения вектора анализируемого сигнала.
Результаты серии эксперементов по определениювероятности правильного распознавания мужскогои женского голосов приведены в (табл. 1).
3. ВыводыВ результате было установлено, что вероятность
правильной идентификации, без использования ка-ких бы то ни было тренировочных алгоритмов кла-стеризации, методом энергетического распределенияспектра по обычной шкале не уступает методу мел-кепстральных коэффициентов по мел-шкале, в слу-чае если анализируются отдельные гласные звуки, исоставляет 90%. При анализе слов, вероятно, сказы-вается различная акустическая энергетика одних итех же слов у разных людей одного пола, поэтому ме-тод мел-кепстральных коэффициентов даёт лучшеезначение вероятности идентификации и составля-ет величину 85% против 70% по энергетическомураспределению.
Перечень использованых источников1. Rabiner L., Juang B. Fundamental of Speech Recog-
nition. — Englewood Cliffs : Prentice-Hall N.J.,1993.
2. Bogert B. P., Healy M. J. R, Tukey J. W. TheQuefrency Alanysis of Time Series for Echoes: Cep-strum, Pseudo Autocovariance, Cross-Cepstrumand Saphe Cracking, Proceedings of the Sympo-sium on Time Series Analysis. — New York: Wiley :M. Rosenblatt, Ed, 1963. — P. 209–243.
3. Оппенгейм А. В., Шафер Р. В. Цифровая об-работка сигналов: Пер. с англ./Под ред. С. Я.Шаца. — М. : Связь, 1979.
4. Jeong J. Kepstrum Analysis and Real-Time Ap-plication to Noise Cancellation // Proceedings ofthe 8th WSEAS International Conference on SIG-NAL PROCESSING, ROBOTICS and AUTOMA-TION. — 2009. — Vol. 1. — P. 149 — 154.
5. Clement I. Modular Audio Recognition Frameworkv.0.3.0.6 (0.3.0 final) and its Applications. — Que-bec, Canada : Montreal, 2007.
6. Добрушкин Г. О., Данилов В. Я. Применениевейвлет-преобразования для сегментации и уда-ления шума с речевых сигналов // Научные ве-сти НТУУ КПИ. — 2009. — Т. 1. — С. 34–42.
7. Добрушкин Г. О., Данилов В. Я. Сопоставлениекачества Мел- и Барк- частотных кепстральныхкоэффициентов для параметризации речевогосигнала // Научные работы. — 2011. — Т. 160. —С. 167–171.
8. Добрушкин Г. О., Данилов В. Я. Основные под-ходы к распознаванию речевой информации //Вестник Винницкого политехнического институ-та. — 2010. — С. 61–73.
9. Speaker identification using mel frequency cepstralcoefficients / R. Hasan, M. Jamil, Rabbani G., Rah-man S. // 3rd International Conference on Electri-cal and Computer Engineering. — 2004. — P. 28–30.
10. Krause E. F. Taxicab Geometry. — Dover, 1987.
XIV Всеукраїнська науково-практична конференцiя студентiв, аспiрантiв та молодих вчених
149