ヒトの耳機械の耳 - akon2.00βのよっぱらいの戯言

作者:リチャード・F・ライオン
発売日: 2021/02/01
メディア: 単行本（ソフトカバー）

Dick Lyonの機械聴覚
日常の環境での背景雑音や他の競合する音の中から、音源を分離・特定する場面では、周波数スペクトルとかMFCC(mel-frequency cepstral coefficient、メル周波数ケプストラム係数)のような伝統的な技術の組み合わせよりも、聴覚系の音の解析や特徴抽出のほうが、より効率的で頑健(robust)である。

Lyonの機械聴覚は4つの層から成る。
最初の2層は、蝸牛における周波数解析と脳幹における聴覚像の構成の模擬である。これらは一体となって、音の最初の聴覚像、つまり、知覚、音脈化(streaming)、聴覚の情景分析、そしてその後のすべての処理に対する基礎と考えられる音の内的表現を生成するのに必要な、すべての機械的、神経的過程を模擬する聴覚モデルを形成している。
第3層は、応用に依存した特徴抽出を聴覚像に適用し、膨大な特徴をスパースな形に縮小して第4層に渡す。
第4層は機械学習の方法を用いて意味を抽出する。聴覚モデルは第3層と第4層により、特定の聴覚の課題を実行するような、専用の聴覚機械として形成される。

まず、蝸牛の機能を模擬する→1.3

第2段は蝸牛と皮質の間の中枢で行われる、蝸牛出力から音の聴覚像への最初の変換の模擬を行う。蝸牛による処理の部分は、伝送線路によるフィルタバンクで、基底膜の運動を「非対称な共振器の縦続接続」(CAR: cascade of asymmetric resonator)で模擬したものである。共振器の利得は分布AGC(automatic gain control、自動利得制御)回路により連続的に調節されており、それらの活動はCARの各段にその段の外有毛細胞コンポーネントを通じて与えられている。この結果、このシステムは聴覚処理における「高速圧縮」性と、中脳遠心神経の長期順応性を示している。この刺激依存性順応は、機械聴覚を人間の聴覚のように干渉に対して頑健にするためのもの。CARFAC(cascadeof asymmetric resonators with fast-acting compression)モデルは、聴覚の全ダイナミックレンジにわたって、蝸牛での処理の正確で安定に模擬できる。

聴覚モデルの神経による処理の部分は、モデルの蝸牛部分から流出する情報の各チャネルに別々に、「ストロボ」時間積分(STI:strobed temporalintegration)を適用する。STIは後続の、時間的に切り取られた神経活動を安定化するが、それはオシロスコープで、連続している波形から安定に静止した画像を得るためのトリガー機構と似た働きである。蝸牛の全チャネルに対する処理結果を、安定化聴覚像(SAI:stabilized auditory image)と呼んでいる。これは実数値の2次元フレームの連なりであり、実時間で提示されれば「SAI動画」となるものである、各フレームの縦軸は蝸牛のチャネル番号付けされ、横軸は「相対ストロボ時間」を表している(第21章)。

動物の発声音(音声言語も)は、自然界での環境雑音と動物からの音を区別する周期的部分を持ち、SAIは、神経パターンの各繰り返しパターンの詳細で安定した像を、周期的部分が音中に続く限り提示し続ける。このようにしてSTIとSAIは、信号(音声、音楽、動物の鳴き声)が妨害する雑音と混合することが普通の日常の聴環境で、特徴抽出や信号源分離を可能にする。

CARFAC蝸牛モデルとSAIを一緒にすると、日常の音の特徴や違いを強調した音の表現を与える。

聴覚の情景分析(ASA: auditory scene analysis)と計算実行のためのアルゴリズムASA(CASA: computational ASA)は、まだ脳の聴覚機能を模擬できる段階でなく、脳の聴覚機能の背景にある皮質の処理の理解が進んでいない。さらに、機械学習で用いられる神経回路は、非線形マッピングを訓練するのに、入力パターンとそれに結び付けられた出力の大きな集合を用いるが、このような神経回路が入力としてSAIのフレームを扱うのは、フレームの大きさとフレームレートから困難であため聴覚脳のモデル化にはつながらない。何らかの特徴抽出方法をSAIフレームに適用して含まれる聴覚情報を濃縮し、機械学習システムに対する分類課題の大きさを縮減しなければ、機械聴覚の課題を実装できない。人間の聴覚特徴の形成には基礎的レベルにおいて時間的な情報が含まれており、聴覚機械には細かい時間的情報が何らかの形で必要である。

機械聴覚を開発するのに人間が聴覚の課題を解決するために用いている聴覚特徴を特定する必要はない。聴覚についての知識と、聴覚の課題を解決できるような機械学習システムについての知識との間の、良いインタフェースがあればよい。

機械聴覚を現実のものとするには、聴覚の大変高度なCARFAC―SAIモデルと優れた学習機械とを結ぶため、知的なマッピング手順が必要であるが、その手順は人間が用いる特徴抽出と同じ特徴を抽出するとは限らない。

第I部　音の解析と表現———概観
　第1章　はじめに
　　1.1　視覚と聴覚について———デイヴィッド・マー風に

外耳→空気振動

中耳→機械的振動

内耳→機械的、流体力学的、電気化学的

中枢聴覚神経系→電気化学的

　　1.3　神経を模倣する

機能を模倣するか、機能をよく記述できないときには、その構造を模倣することによって複雑な神経系のコピーをつくる。

　　1.4　聴覚像→21章

聴覚神経系の皮質下の部分(蝸牛、脳幹、中脳)で作られた仮定上の音表現であり、網膜上の像が一次視覚野に投射するように、一次聴覚に投射する。

　　1.5　耳は周波数解析器か

蝸牛は入力音響信号を重なり合う周波数帯域に分割し、音強度の広い幅を内有毛細胞のずっと狭い機械的および電気的ダイナミックレンジに圧縮する。

　　1.6　第3の音

結合音、差音、歪み成分

　　1.7　音理解と意味抽出

理解とは実行に移せる情報の抽出

音→

1.聴覚末梢-非線形フィルタバンクモデル

2.脳幹で安定化された聴覚像の抽出

3.応用に特化した特徴抽出

4.機械学習による意味抽出

→意味

　第4章　人間の聴覚の概要
音の特性

ピッチ→周波数

大きさ(ラウドネス)→振幅、音圧

音色→音の大きさ、ピッチと持続時間が等しい音などすべてをまとめたもの

第II部　聴覚のシステム理論
　第6章　線形系概論
　　雑音を含む信号を平滑化によって、有用にできる。

　　系は入力の時間関数を出力の時間関数に写像する装置または数学的抽象。

　　定数係数を持つ線形常微分方程式によって記述できるLTI系(線形時間不変系)はフィルタと呼ばれる。周波数
　　同次解は系のインパルス応答を見つけ出すのに役立つ。
　　実際の系は、入力が到着するまで出力が応答しないという性質を持っている。このような性質は因果性と呼ばれ、このような系は因果的な系である。
　　入力がパルスではなく任意の波形である場合、対応する積分の捜査は畳み込み積分と呼ばれる。
　　記述を正弦波に限定する場合、その記述を周波数応答と呼ぶ。

　第7章　離散時間デジタルシステム
　　コンピュータでモデル化するときには、離散時刻を用いる。離散時間系は量子化された時間で動作し、線形であり得る。デジタルシステムとかデジタルフィルタは、時間も振幅も量子化された信号を表現するので、線形ではありえない。離散時間の場合は、単位インパルスは時間指数が０で値１をとり、無限の過去から未来まで0値で囲まれている標本である。インパルス応答とは単位インパルスが入力に与えられたとき、フィルタから出てくる系列h[k]のことである。

　第8章　共振器
　　蝸牛における聴覚フィルタリングは帯域通過フィルタとして概念化されており、蝸牛仕切り構造に沿って数千もの位置を表す密集したフィルタ配列を有する。

第III部　末梢聴覚系

非線形フィルタで縦続で表される、聴覚の末梢つまり蝸牛のモデル(聴覚神経上の信号から音の表現を得るための、処理の能率的な機械アルゴリズムとして働くモデル)を作る。

　第13章　聴覚フィルタのモデル
　　聴覚フィルタモデルにとって良い10個の性質

　　・記述の単純性

　　・帯域幅の制御

　　・ピークと裾部の形状の間の関係が実物に近く、制御可能であること

　　・フィルタ形状の非対称性

　　・ピーク利得の変動制

　　・安定な低周波数の尾部

　　・デジタルフィルタとしての実装容易性

　　・基礎にある進行波流体力学との関連性

　　・実際的なインパルス応答と同調・位相特性

　　・動特性

　　代表的な聴覚フィルタモデル

　　・丸められた指数関数(roex)

　　・ガンマトーンフィルタ(GTF)

　　・フィルタ縦続接続

　第15章　CARFACによる蝸牛のデジタルモデル

　CARFAC→高速作動圧縮性非対称共振器の縦続接続

空間で発生する音は空気の振動となって耳に入る。
この振動は鼓膜を振るわせてその奥にある耳小骨へと伝わり蝸牛に到達する。
という神経細胞が集合している場所へと移っていく。

蝸牛はリンパ液に満たされた器官で、骨の振動が液体の振動に変換され、それが波状運動を生じて基底膜を動かし、その上に配列している神経細胞を刺激して興奮させる。
興奮した神経細胞から発せられた神経インパルスは、シナプスを経て聴神経へと伝えられ、その音信号が脳へ到達して音として認識される。

音刺激を電気信号に変換する部位をコルチ器という。

外有毛細胞は収縮運動を行って、微弱な音刺激の場合にはそれを増幅し、逆に過大に強い音の場合にはこれを抑制する

第IV部　聴覚神経系

聴覚神経系の下位の部分(脳幹の聴覚部分のモデル)で、機能の概念を与え、聴覚のより高位で必要とされる聴覚像としての音表現を抽出する処理法と機構を示す。
　

　第21章　聴覚像
　　聴覚像はピッチとスペクトルの二次元。
　　
　第22章　両耳空間聴覚

　　両耳は音を定位させ、混ざった音を解釈する。

　第23章　聴覚脳
　　脳は音から意味を抽出している。

　　Reverse-Engineering the Human Auditory Pathway
http://www.lloydwatts.com/images/WCCI_2012_LloydWatts.pdf

fig.1参照

前頭回路
概念、文脈、目標、視点

音楽認知　話者認識　音声認識　音声生成→小脳へ。音声言語がかかわる前帯状皮質

拍子　　　音素　　　音素

リズム　　声　　　　単語

ピッチ　　既知の声　句

和音　　　　　　　　プロソディー

旋律

フレーズ

辺縁系　　　一次聴覚野　

情動と記憶　情景分析

恐怖　　　　聴覚対象形成

快楽、報酬　継時的分類による音脈化

満足　　　　

郷愁、憧憬　視床、PAG

保護　　　　注意の関門、クロスパースッチ制御、睡眠スイッチ

　　　　　　下床

　　　　　　整列、正規化、安定化、

　　　　　　脳幹下部

　　　　　　CN:

　　　　　　SOC:

　　　　　　NLL:

第V部　学習と応用技術

蝸牛のモデルから得られた音の表現を機械学習システムが利用しやすい種類の特徴に変換して、ほしい情報を抽出する。

　第26章　音探索
　　音のモデル化
　　縦続フィルタバンク(蝸牛モデルフィルタパンク)→ストロボ時間積分による聴覚像の安定化→SAIフレームの内容をスパース符号化

　　旋律の照合

　　短い音信号の中の旋律内容を表現するインタバルグラム

コーヒー焙煎を豆の音を聞いて自動化しょうというアイディアは学習データとして切間美星を使ったほしい。

緒言とまえがき

https://www.tdupress.jp/book/b550759.html

第I部　音の解析と表現———概観
　第1章　はじめに
　　1.1　視覚と聴覚について———デイヴィッド・マー風に
　　1.2　トップダウン分析対ボトムアップ分析
　　1.3　神経を模倣する
　　1.4　聴覚像
　　1.5　耳は周波数解析器か
　　1.6　第3の音
　　1.7　音理解と意味抽出
　　1.8　機械視覚と機械学習からの技術の応用
　　1.9　本書の機械聴覚の構成
　第2章　聴覚の理論
　　2.1　聴覚の“新しい”理論
　　2.2　聴覚のさらなる新しい理論
　　2.3　聴覚の能動理論と非線形理論
　　2.4　3つの聴覚理論
　　2.5　聴覚像理論
　第3章　聴覚の対数法則とベキ乗則について
　　3.1　対数法則とベキ乗則
　　3.2　対数周波数
　　3.3　対数パワー
　　3.4　ボード線図
　　3.5　知覚に適した写像
　　3.6　定Q分析
　　3.7　対数を注意して用いること
　第4章　人間の聴覚の概要
　　4.1　人間対機械
　　4.2　聴覚生理学
　　4.3　聴覚の重要な課題
　　4.4　音の大きさ
　　4.5　臨界帯域，マスキング，抑圧
　　4.6　ピッチ知覚
　　4.7　音色
　　4.8　協和と不協和
　　4.9　音声認識
　　4.10　両耳性聴取
　　4.11　聴覚における音脈化
　　4.12　非線形性
　　4.13　先へ進むには
　第5章　音響学的手法と聴覚からの影響
　　5.1　音，音声，音楽のモデリング
　　5.2　短時間スペクトル解析
　　5.3　スペクトルの平滑化と変換
　　5.4　信号源―フィルタモデルと準同型信号処理
　　5.5　対数からの撤退
　　5.6　聴覚的な周波数尺
　　5.7　メル周波数ケプストラム
　　5.8　線形予測符号化
　　5.9　PLPとRASTA
　　5.10　自動音声認識における聴覚応用技術
　　5.11　必要な改善
第II部　聴覚のシステム理論
　第6章　線形系概論
　　6.1　平滑化———良い出発点
　　6.2　線形時間不変系
　　6.3　フィルタと周波数
　　6.4　微分方程式と同次解
　　6.5　インパルス応答
　　6.6　因果性と安定性
　　6.7　畳み込み
　　6.8　固有関数と伝達関数
　　6.9　周波数応答
　　6.10　変換と演算子法
　　6.11　有理関数とその極と零点
　　6.12　伝達関数の利得と位相の図的計算法
　　6.13　畳み込み定理
　　6.14　フィルタの縦続，並列接続と帰還
　　6.15　要約と次の段階へ
　第7章　離散時間デジタルシステム
　　7.1　コンピュータによるシステムのシミュレーション
　　7.2　離散時間線形時間不変系
　　7.3　インパルス応答と畳み込み
　　7.4　離散時間系における周波数
　　7.5　Z変換とその逆変換
　　7.6　単位前進，単位遅延演算子
　　7.7　フィルタと伝達関数
　　7.8　標本化とエイリアシング
　　7.9　連続時間系から写像する方法
　　7.10　フィルタ設計
　　7.11　デジタルフィルタ
　　7.12　多入出力系
　　7.13　フーリエ解析とスペクトログラム
　　7.14　展望と参考書
　第8章　共振器
　　8.1　帯域通過フィルタ
　　8.2　4つの共振システム
　　8.3　共振器周波数応答
　　8.4　共振器のインパルス応答
　　8.5　複素共振器と普遍的共振曲線
　　8.6　並列システムからの複素零点
　　8.7　システムを実数に
　　8.8　デジタル共振器
　第9章　ガンマトーンフィルタと関連のフィルタ
　　9.1　聴覚モデルとしての複合共振器
　　9.2　多重極
　　9.3　複素ガンマトーンフィルタ
　　9.4　実ガンマトーンフィルタ
　　9.5　全極ガンマトーンフィルタ
　　9.6　ガンマチャープフィルタ
　　9.7　可変な極Q
　　9.8　極が相異なる場合
　　9.9　デジタル実装法
　第10章　非線形系
　　10.1　ボルテラ級数とその他の説明
　　10.2　本質的な非線形性
　　10.3　ホップ分岐
　　10.4　分布した帯域通過型の非線形性
　　10.5　非線形系の応答曲線
　　10.6　2音応答
　　10.7　非線形性とエイリアシング
　　10.8　注意
　第11章　自動利得制御
　　11.1　入力―出力レベル圧縮
　　11.2　非線形帰還制御
　　11.3　平衡状態におけるAGC圧縮
　　11.4　縦続多段接続可変利得段
　　11.5　縦続接続した共振器における減衰係数制御による利得制御
　　11.6　AGCの動特性
　　11.7　AGCループの安定性
　　11.8　多重ループAGC
　第12章　分布定数系中の波動
　　12.1　一様な線形媒体中の波動
　　12.2　波数からの伝達関数
　　12.3　非一様媒体
　　12.4　フィルタの縦続接続としての非一様媒体
　　12.5　インパルス応答
　　12.6　群速度と群遅延
第III部　末梢聴覚系
　第13章　聴覚フィルタのモデル
　　13.1　聴覚フィルタとは何か
　　13.2　共振フィルタからガウスフィルタまで
　　13.3　聴覚フィルタモデルにとって良い10個の性質
　　13.4　代表的な聴覚フィルタモデル
　　13.5　困難な点———時変的で非線形な聴覚フィルタ
　　13.6　フィルタモデルのパラメータの適合
　　13.7　抑圧
　　13.8　生理学データからのインパルス応答
　　13.9　要約と蝸牛モデルへの応用について
　第14章　蝸牛のモデル化
　　14.1　蝸牛の構造
　　14.2　進行波
　　14.3　1次元，2次元，3次元の流体力学
　　14.4　長波，短波と2次元モデル
　　14.5　能動的微小力学
　　14.6　尺度の対称性と蝸牛写像
　　14.7　フィルタ縦続蝸牛モデル
　　14.8　能動的な利得要素としての外有毛細胞
　　14.9　機械的モデルと実験からの分散関係
　　14.10　検出器としての内有毛細胞
　　14.11　遠心性の制御による適応
　　14.12　要約と推奨文献
　第15章　CARFACによる蝸牛のデジタルモデル
　　15.1　断片を寄せ集める
　　15.2　CARFACの枠組み
　　15.3　生理学的な要素
　　15.4　アナログの双方向モデル
　　15.5　公開されたソフトウェア
　　15.6　CARFACの詳細
　第16章　非対称共振器の縦続接続
　　16.1　線形蝸牛モデル
　　16.2　対結合形フィルタによる実現
　第17章　外有毛細胞
　　17.1　1つの機序の中の多重の効果
　　17.2　非線形関数
　　17.3　DOHCのAGC効果
　　17.4　典型的な歪み応答パターン
　　17.5　ループを完結する
　第18章　内有毛細胞
　　18.1　シグモイド状の整流
　　18.2　適応的な有毛細胞モデル
　　18.3　デジタルIHCモデル
　第19章　AGCループフィルタ
　　19.1　CARFACのAGCループ
　　19.2　AGCフィルタの構造
　　19.3　平滑化フィルタの極―零点解析
　　19.4　AGCフィルタの時間応答
　　19.5　AGCフィルタの空間応答
　　19.6　時空間平滑化と間引き標本化
　　19.7　適応的な挙動
　　19.8　両耳性または多耳性の動作
　　19.9　CARFACや他のシステムにおける結合多段AGC
第IV部　聴覚神経系
　第20章　聴神経と蝸牛核
　　20.1　有毛細胞から神経発火まで
　　20.2　トノトピー構造
　　20.3　コクレアグラム中の微細時間構造
　　20.4　蝸牛核中の細胞型
　　20.5　抑制とその他の計算
　　20.6　スパイク時刻符号
　第21章　聴覚像
　　21.1　音の動画
　　21.2　歴史
　　21.3　像の安定化
　　21.4　トリガー付き時間積分
　　21.5　通常の短時間自己相関
　　21.6　非対称性
　　21.7　SAIの計算
　　21.8　ピッチとスペクトル
　　21.9　音楽の聴覚像
　　21.10　言語音声の聴覚像
　　21.11　要約SAIトラック———ピッチョグラム
　　21.12　SAIからのコクレアグラム
　　21.13　対数時間差SAI
　第22章　両耳空間聴覚
　　22.1　レイリーの二元理論———両耳間のレベルと位相
　　22.2　両耳間の時間差とレベル差
　　22.3　頭部伝達関数
　　22.4　両耳間差の神経抽出
　　22.5　蝸牛核および台形体の役割
　　22.6　両耳性音響反射と利得制御
　　22.7　先行効果
　　22.8　モデルの完結
　　22.9　両耳間のコヒーレンス
　　22.10　両耳性の応用
　第23章　聴覚脳
　　23.1　情景分析———ASAとCASA
　　23.2　注意と音脈分離
　　23.3　脳における段階
　　23.4　高位の聴覚経路
　　23.5　展望
第V部　学習と応用技術
　第24章　機械学習のニューラルネットワーク
　　24.1　データからの学習
　　24.2　パーセプトロン
　　24.3　訓練相
　　24.4　出力における非線形性
　　24.5　入力での非線形性
　　24.6　多層化
　　24.7　ニューロン単位とニューラルネットワーク
　　24.8　誤差逆伝播法による訓練
　　24.9　コスト関数と正則化
　　24.10　多クラス分類
　　24.11　ニューラルネットワークの成功と失敗
　　24.12　統計的学習理論
　　24.13　まとめと展望
　第25章　特徴空間
　　25.1　特徴工学
　　25.2　深層学習回路による自動特徴最適化
　　25.3　帯域通過型パワーと2次的特徴
　　25.4　蝸牛フィルタバンクの出力の2次的特徴
　　25.5　特徴抽出における非線形性と利得制御
　　25.6　ニューロンにヒントを得た特徴抽出
　　25.7　スパース化と勝者独り占め特徴
　　25.8　どちらの方向性が勝つか？
　第26章　音探索
　　26.1　音のモデル化
　　26.2　文字列クエリに対する音の順位づけ
　　26.3　実験
　　26.4　結果
　　26.5　結論と追加
　第27章　旋律の照合
　　27.1　アルゴリズム
　　27.2　実験
　　27.3　考察
　　27.4　要約と結論
　第28章　その他の応用技術
　　28.1　聴覚生理学と聴覚心理学
　　28.2　音信号の符号化と圧縮
　　28.3　補聴器と人工内耳
　　28.4　見える音
　　28.5　診断
　　28.6　音声と話者の認識
　　28.7　音楽情報の検索
　　28.8　保安，監視，警報
　　28.9　話者推定，要約，索引付け
　　28.10　お楽しみを