応用音響学 - 東京大学kameoka/aa/AA14_01.pdf ·...

応用音響学第1回 (4/08)

亀岡弘和

東京大学大学院情報理工学系研究科システム情報学専攻kameoka@hil.t.u-tokyo.ac.jp

東京大学工学部 4年生夏学期 [03-501130]

講義スケジュール

前半（亀岡担当）

4/08: 第1回

4/15: 第2回

4/22: 第3回

4/29: 休日

5/01(木): 第4回

5/06: 休日

5/13: 第5回

5/20: 第6回

5/27: 第7回

後半（牧野担当）

6/03: 第8回

6/10: 第9回

6/17: 第10回

6/24: 第11回

7/01: 第12回

7/08: 第13回

7/15: 第14回

7/22: 学期末試験

講義項目

【講義前半】（亀岡担当）

統計的信号処理の基礎

音声分析・符号化の基礎

音声認識・合成の基礎

音声強調の基礎

多チャンネル音響信号処理の基礎

音声音響信号処理応用

【講義後半】（牧野担当）

ヘルムホルツ共振と電気回路とのアナロジー

共振のQ値

音響インピーダンスと音の放射

位相制御による音波の収束

固体中の音響

講義内容（キーワード）

【講義前半】（亀岡担当）

音声音響信号処理を題材として統計的信号処理や確率モデルの理解を深める。

以下のようなキーワードの概念と関連事項を理解することを目標とする。「確率モデル」，「最尤推定量，最小平均二乗誤差推定量」，「ベイズ統計学」，「音声生成の仕組み(調音)」，「音声波形とスペクトル」，「線形予測分析」，「音声分析合成」，「偏自己相関分析」，「k-meansクラスタリング」，「混合正規分布モデル(GMM)」，「動的時間伸縮マッチング」，「隠れマルコフモデル(HMM)」，「音声合成」，「テキスト音声合成」，「マイクロフォンアレイ」，「非負値行列因子分解」

【講義後半】（牧野担当）

音響における波動現象を理解し，それとのアナロジーを元に，光学，回路学，電磁気学等，他の分野における同様の波動現象の理解も深める。

以下のようなキーワードの概念と関連事項を理解することを目標とする。「共振・共鳴」，「Q値」，「時定数」，「音響インピーダンス」，「放射インピーダンス」，「呼吸球」，「エクスポネンシャルホーン」

講義前半の概要

狙いと性格「信号処理論第一、第二」に続く「信号処理論第三」と捉えても良い

統計的信号処理、非定常時系列モデル、ベイズ統計学、学習アルゴリズム

音声音響信号処理応用

対象領域信号推定、音声分析、音声符号化

音声認識、音声合成

その他の音響信号処理

講義重点統計的信号処理の基礎

基本アルゴリズムの理解

前提知識線形系理論とフーリエ解析

確率統計学の基礎 (分布、推定)

講義前半の内容

信号処理

確率・統計パターン認識

信号処理論第一

信号処理論第二

応用音響学

講義前半の内容

信号推定理論 Wienerフィルタ、Kalmanフィルタ

短時間スペクトル分析サンプリング定理、量子化雑音

高域強調、窓関数

短時間自己相関関数

短時間スペクトル解析、ピッチ構造

短時間ケプストラム解析

全極型モデル線形モデル、自己回帰モデル

線形予測分析(LPC)

残差信号、ピッチ抽出

偏自己相関分析(PARCOR)

スペクトル距離板倉齋藤距離

クラスタリング解析 k-means クラスタリング

スカラー量子化とベクトル量子化

混合正規分布とEMアルゴリズム

非線形時間伸縮動的時間伸縮、DPマッチング

音声の確率モデル自己回帰モデル

多次元正規分布、混合正規分布

隠れマルコフモデル(HMM)

信号処理応用音声認識／合成システム

音源分離／音声強調／その他の音響信号処理システム

講義資料と成績評価

講義資料

http://hil.t.u-tokyo.ac.jp/~kameoka/aa/

成績評価

出席点

学期末試験

応用紹介：音声認識

応用紹介：音源分離

a b a b c a b c d

x1 x2 x1 x2 x3 x1 x2 x3 x4

y1 y2 y1 y2 y3 y1 y2 y3 y4

Cf) ブラインド音源分離（BlindSourceSeparation）

混ざり合った信号から元の信号を取り出す

どのように混ざったかに関する情報は利用できない

応用紹介：残響抑圧

観測信号のスペクトログラム

残響除去信号のスペクトログラム

応用紹介：音声合成

確率則

同時確率（または結合確率）

：事象 x と事象 y が同時に起こる確率

条件つき確率

：事象 x が起こった下で事象 y が起こる確率

周辺化

独立性

と y が独立 ⇔

ベイズの定理

: 雨が降っている: 太郎が傘をもっている

太郎が傘を持って現れた時外で雨が降っている確率が，普段雨が降ると太郎が傘を持って出かける確率と，雨が降る確率を使って計算できる

確率モデル（尤度関数，事前確率）

観測データを、未知パラメータをとすると・・・

のことを尤度関数

のことを事前確率

のことを事後確率

という

確率モデル

データの確率的な「生成源」

例1）正規分布 (Normal distribution)

例2） Poisson分布

⇒以後と表記

2次元の場合

⇒以後と表記

正規分布に従う確率変数の諸性質

のとき・・・

※ 「」は「従う」を意味する

とが独立なら

の線形変換は正規分布に従う

との結合ベクトルは正規分布に従う

このときの，が与えられた下でのの条件つき期待値

Poisson分布に従う確率変数の諸性質

のとき・・・

※ 「」は「従う」を意味する

とが独立なら

とが独立でのとき

パラメータ推定

順問題

逆問題

⇔観測データの確率モデル化

データの確率的な生成プロセスの仮定（順問題）

⇔最尤推定，最大事後確率推定，最小平均二乗誤差推定，ベイズ推論

データから生成プロセスのパラメータの推定（逆問題）

をモデル化

ベイズの定理

ML推定量，MAP推定量，MMSE推定量

データが与えられた下でのパラメータの推定量

最尤(Maximum Likelihood)推定量

最大事後確率(Maximum A Posteriori)推定量

最小平均二乗誤差(Minimum Mean Squared Error)推定量

MAP推定でを仮定した場合に相当

音声音響信号処理問題の多くは逆問題

音響信号処理

ブラインド音源分離

残響除去

・・・

音声情報処理

音素特徴抽出

音声認識

イントネーション解析

音楽情報処理

多重音解析

自動採譜

・・・

本日は晴天なり

① 尤度関数の仮定

観測データを生成する確率的なプロセスをモデル化

② 事前分布の仮定

生成モデルのパラメータ θ の生成プロセスをモデル化

③ 推論（逆問題）

データ Y から θ と α を推論

最尤推定量，MAP推定量

MMSE推定量，ベイズ事後分布

生成モデルアプローチ

生成モデル（順問題）

生成過程

「原因の原因」

「原因」

「結果」

物理的制約/経験則

Wienerフィルタの問題設定

問題：

：観測信号，音声信号，雑音信号の離散Fourier変換（複素スペクトル）

雑音重畳音声

から音声に関係するパラメータを推定したい

仮定：

音声と雑音は無相関

音声は平均0の複素正規分布に従う

雑音は平均0の複素正規分布に従う

雑音パワースペクトル密度は既知（例えば無音声区間から推定済みという状況を想定）

のMMSE推定量

問題設定：

求めたいのは

多変量Gauss分布の性質

（Wienerフィルタ）

離散時間Kalmanフィルタの問題設定

システムモデル：

測定モデル：観測雑音

仮定

は互いに独立な正規白色雑音

パラメータ：と、雑音共分散は既知

駆動雑音

離散時間Kalmanフィルタの構成

観測値

状態推定値

時刻k-1までの観測値を用いた時刻k-1の状態推定値

時間更新

計測更新

時刻k-1までの観測値を用いた時刻kの状態推定値

時刻kまでの観測値を用いた時刻kの状態推定値

離散時間Kalmanフィルタのまとめ

逐次更新アルゴリズムで計算される確率分布

時刻t1からtk-1までの観測信号が与えられたもとでの時刻tk-1における状態推定値の事後確率分布

時刻tk-1における上記事後分布を手がかりに推測される、時刻tkにおける状態推定値の事前確率分布

上記事前分布と時刻tkにおける観測信号をもとに得られる、時刻tkにおける状態推定値の事前確率分布

：この分布の平均と共分散行列に相当

離散時間KalmanフィルタのBayes的解釈

システムモデルより：

計測モデルより：

時間更新

計測更新

応用音響学 - 東京大学kameoka/aa/AA14_01.pdf ·...

Documents

Transcript of 応用音響学 - 東京大学kameoka/aa/AA14_01.pdf ·...

英語 Rの発音と発音記号 - Hiroshima Universityharp.lib.hiroshima-u.ac.jp/hju/file/10189/20180912154144/...英語Rの発音と発音記号-3- [J J を日本語の[c.;Jに発音してしまう。

特 長 取扱説明書 - Hitachi3 4 ⑰音声切換ボタン 86⑱ チャンネル番号入力 ボタン 76⑲ チャンネルアップ/ ダウンボタン 76⑳入力切換ボタン

dbtechnologies.com dBTechnologies dB · 2018. 6. 1. · dBTechnologies 频响特性（- 3 dB） 70 Hz - 19.000 Hz 最大声压级 129 dB 低音单元 1X8寸钕磁钢低音单元 中音单元

音声の符号化aito/kisosemi/slides.pdf音声の符号化 音（アナログ量）→デジタルデータに変換 – コンピュータで扱える – デジタル回線での伝送

INNOVATION ROAD - 音声ガイドのご案内

洪青阳 厦门大学语音实验室 - Xiamen University · 第一章 绪论，介绍人类语音的产生和感知过程、语音技术的发展历史等。 第二章 语音信号基础，介绍声音的采集和量化过程，编码和存储格式。

FJDL22660-02...FJDL22660-02 発行日： 2020 年6 月 15 日 ML22660 4 チャネルミキシング音声合成LSI 概要 ML22660 は，音声データ用シリアル・フラッシュ・メモリインタフェースを内蔵した

音声利用 IP 通信網サービス （第2種サービス タイプ 1 メ … · 技術参考資料 音声利用ip 通信網サービス （第2種サービス タイプ1 メニュー1）のインタフェース

iPhone を使って録音し、録音した音声を共有リンクで提出するd1ct.xsrv.jp/pdf/iphone.pdf · 2017-07-06 · version : 2.0 1 iPhone を使って録音し、録音した音声を共有リンクで提出する

IPA カード： 楽しく学ぶ国際音声記号user.keio.ac.jp/~kawahara/pdf/IPA_booklet_distribution.pdf1 IPAカード： 楽しく学ぶ国際音声記号 川原繁人・平田佐智子・桃生朋子

年 月号 New Products INDEX 新商品案内独自のノイズキャンセル技術「DeepOceanTM Technology 2.0」に より周囲の騒音を低減したクリアな音声入力が可能です。

FJDL22620-03...FJDL22620-03 発行日： 2020 年10 月 1 日 ML22620 4 チャネルミキシング音声合成LSI 概要 ML22620 は，音声データ用シリアル・フラッシュ・メモリインタフェースを内蔵した4

第十一章 光电信号处理方法 - course.e2.buaa.edu.cn · 第十一章 光电信号处理方法 1.放大器的噪声模型 一、放大器噪声的评价方法 原则：将所有噪声折算到输入端

Windows10 のPowerPointによる 音声解説付き動画 作成 方法jspn2020.umin.jp/pdf/sry1.pdfWindows10 のPowerPointによる 音声解説付き動画 作成 方法 「Power

XPS 和 Alienware - Dell · 2019-06-28 · Dell 计算机和平板电脑具有内置的扬声器，支持双声道音频。 要使用内置扬声器，播放媒体并将音量设置到所需的水平。

Title Author(s) 岩居, 弘樹 Citation 大阪大学高等教育研究. 3 P.1 … · 2.3．音声認識アプリについて 音声認識は，マイクから入力された音声の解析（音響

音声利用 IIPPIP 通信網IP 通信網サービスサービス …技術参考資料 音声利用 IIPPIP 通信網IP 通信網サービスサービス （（（第（第第2222種種種サービスサービスサービス

Cisco WebEx Meetings Server のよくある質問 バー … › c › dam › en › us › td › docs › collaboration › ...いいえ。多くの音声エンドポイントは、音声とビデオの接続をサポートしています。ただし、サポートされている

ディジタル耳目音声抽出 - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2010/wakamatsu.pdf · 近年、音声認識機器への入力や、雑音環境下でのコミュニケーションなどで、聞

音声信号の基礎 - mpte.jp’Œ三講師（音声信号）.pdf · • 連続的に変化するアナログ信号を微小な時間単位に離散化する • 1秒間に何回離散化するかを周波数で表したものをサンプリング周波数という

特長取扱説明書 - Hitachi3 4 ⑰音声切換ボタン 86⑱ チャンネル番号入力ボタン 76⑲ チャンネルアップ/ ダウンボタン 76⑳入力切換ボタン

dbtechnologies.com dBTechnologies dB · 2018. 6. 1. · dBTechnologies 频响特性（- 3 dB） 70 Hz - 19.000 Hz 最大声压级 129 dB 低音单元 1X8寸钕磁钢低音单元中音单元

音声の符号化aito/kisosemi/slides.pdf音声の符号化音（アナログ量）→デジタルデータに変換 – コンピュータで扱える – デジタル回線での伝送

洪青阳厦门大学语音实验室 - Xiamen University · 第一章绪论，介绍人类语音的产生和感知过程、语音技术的发展历史等。第二章语音信号基础，介绍声音的采集和量化过程，编码和存储格式。

音声利用 IP 通信網サービス（第2種サービスタイプ 1 メ … · 技術参考資料音声利用ip 通信網サービス（第2種サービスタイプ1 メニュー1）のインタフェース

IPA カード：楽しく学ぶ国際音声記号user.keio.ac.jp/~kawahara/pdf/IPA_booklet_distribution.pdf1 IPAカード：楽しく学ぶ国際音声記号川原繁人・平田佐智子・桃生朋子

年月号 New Products INDEX 新商品案内独自のノイズキャンセル技術「DeepOceanTM Technology 2.0」により周囲の騒音を低減したクリアな音声入力が可能です。

第十一章光电信号处理方法 - course.e2.buaa.edu.cn · 第十一章光电信号处理方法 1.放大器的噪声模型一、放大器噪声的评价方法原则：将所有噪声折算到输入端

Windows10 のPowerPointによる音声解説付き動画作成方法jspn2020.umin.jp/pdf/sry1.pdfWindows10 のPowerPointによる音声解説付き動画作成方法「Power

XPS 和 Alienware - Dell · 2019-06-28 · Dell 计算机和平板电脑具有内置的扬声器，支持双声道音频。要使用内置扬声器，播放媒体并将音量设置到所需的水平。

Title Author(s) 岩居, 弘樹 Citation 大阪大学高等教育研究. 3 P.1 … · 2.3．音声認識アプリについて音声認識は，マイクから入力された音声の解析（音響

音声利用 IIPPIP 通信網IP 通信網サービスサービス …技術参考資料音声利用 IIPPIP 通信網IP 通信網サービスサービス（（（第（第第2222種種種サービスサービスサービス

Cisco WebEx Meetings Server のよくある質問バー … › c › dam › en › us › td › docs › collaboration › ...いいえ。多くの音声エンドポイントは、音声とビデオの接続をサポートしています。ただし、サポートされている