banner
KiWi

KiWi的博客

这里是一个搞技术的音频er的网站
wechat
email

深層学習に基づくゲーム音声検索技術

前言#

今日、大モデル技術の発展は目覚ましく、広く知られている LLM 大モデルに加えて、マルチモーダルモデルも産業界で一定の地位を占めています。その中で比較的有名な「CLIP」モデルは、機械がテキストとビデオという異なる領域で情報を理解する能力を解決するために開発されました。CLIP を使用することで、モデルはビデオの内容とテキストの関係を「理解」し、ビデオ生成や画像生成などのマルチモーダルモデルを可能にします。

音声分野でも、同様に CLIP モデルの原理に基づいて、テキストと音声の CLAP モデルが開発されました。

モデル紹介#

CLAP は自己教師ありモデルとして、対比学習を用いてモデルを訓練します。

CLAP はテキストエンコーダーと音声エンコーダーを通じて、両者を同じベクトル空間にマッピングし、ベクトルの類似度を比較することで、対応するテキスト - 音声ペアを見つけ出します。テキストエンコーダーには BERT が使用され、音声エンコーダーには音声から取得したメルスペクトログラムが使用されています。

image

モデルの性能について、著者は数個のクラシックなオーディオイベントセットを利用してテストを行い、主に音声分類、音楽分類、感情分析、SpeakingCounting をテストしました。その結果は以下の通りです。

image 1

ここで ZS はゼロショットの状況を示しており、パフォーマンスが比較的良いことがわかります。

ゲーム音声の応用#

CLAP モデルは開発当初、音声分類に主に使用されており、例えば監視ビデオ内で特定の警報音を監視する用途などがあります。

しかし、著者はそのモデルの特徴を見た後、CLAP が音響ライブラリの検索に適しているかどうかに気づきました。

従来の音響ライブラリ管理では、ファイル名やメタタグを通じて音響を検索することしかできませんでした。このような検索方法は、まず音響ライブラリ自体が適切なファイル名の命名規則を持ち、メタタグもできるだけ完全であることに大きく依存しており、デザイナーが望む音響を見つけるのが容易になります。

次に、一部の音響は複数の音響の組み合わせで構成されており、それらのサブ音響については、音声の特徴とファイル名が一致しない場合があります。これにより、デザイナーは似たようなシーンに直面した際に、より多くの音響名を記憶する必要があります。

最後に、多くの音響名は英語であり、すべてのデザイナーが十分な英語検索能力を持っているわけではないことを認めざるを得ません。

CLAP モデルの介入により、これらの問題が効果的に回避されます。まず、選択されたテキストエンコーダーの存在により、多言語が同じベクトルに分類され、コストゼロで多言語検索機能を実現できます。

次に、大量の訓練データの中で、CLAP はテキストと対応するメルスペクトログラムを理解し続け、モデルは音響が表現する内容を本当に理解したと見なすことができるようになります。これは単にファイル名から出発するのではなく、自然言語を通じて必要な音響の内容を検索することを可能にします。

最後に、CLAP の音声内容に対する「理解」に基づいて、音声を検索するだけでなく、音声を通じて音声を検索することも可能になります。さらに言えば、ルールの制約に基づいて、基準音響を入力し、その低・中・高周波の特徴に従って音響ライブラリ内で対応する音響を検索することができます。これにより、迅速に「対標」音響を制作することが可能になります。XD

モデル微調整#

元のモデルは一般的なオーディオイベント訓練セットを使用して訓練されているため、試行の結果、著者は事前訓練された CLAP モデルがゲーム音響の検索能力が非常に低いことを発見しました。

したがって、著者はゲーム音響分野での微調整訓練が非常に必要であると考えました。

そこで、著者は事前にいくつかの BoomLibrary の音響ライブラリを訓練データセットとして準備し、同時にいくつかのテストセットも準備しました。

CLAP モデルの事前訓練データを観察することで、著者は微調整 CLAP モデルに必要なテキスト - 音声ペアデータにおいて、音声の説明には記述的な文を使用するのが最適であり、クラスラベルのようなものではない方が微調整効果が良いことを発見しました。

その他の具体的なデータ準備プロセスや微調整プロセスについては、機密保持の理由からここには記載しませんが、興味のある読者は私に直接連絡して議論することができます。

最終効果#

以下はコマンドラインインタラクティブスクリプトを使用して行った簡単なテストです。いくつかの検索オプションで wav ファイルが見つからない状況は無視してください😀。

次のステップは具体的な応用であり、著者はこれを基に音響ライブラリ管理検索ソフトウェアを開発する予定です。具体的に知りたい方は、今後更新される記事「“SoundLibraryPro”—AI 音響ライブラリ管理ソフトウェア紹介」を参照してください。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。