banner
KiWi

KiWi的博客

这里是一个搞技术的音频er的网站
wechat
email

WwiseAgent:AI駆動のWwiseワークフローアシスタント

前言#

ゲーム音声デザインの分野において、Wwise は主流の音声ミドルウェアとして WAAPI(Wwise Authoring API)を提供し、ツール開発をサポートしています。しかし、長い間、WAAPI の使用は少数の技術音声エンジニアに限られており、明らかな技術的ハードルが形成されていました。従来の開発モデルでは、各プロジェクトの特定のニーズに応じて専門のツールを開発する必要があり、効率が悪く、異なるプロジェクト間での再利用が難しい状況でした。

AI 大モデル技術の爆発的な進展の中で、WwiseAgent プロジェクトが誕生し、この状況を根本的に変えました。
image

技術突破#

WwiseAgent の核心的な利点は、従来の WAAPI ツール開発の技術的障壁を打破したことです。

従来の WAAPI 開発は三つの大きな課題に直面しています。まず、開発者はプログラミングと Wwise 音声システムの両方に精通している必要があります。次に、各ツールは単一の特定の問題を解決することが多く、汎用性が非常に低いです。最後に、ツールのメンテナンスと更新には継続的な技術リソースの投入が必要です。

以下は開発モデルの比較です:

機能従来の WAAPI 方式WwiseAgent突破点
需要応答時間数日から数週間即時専門の開発不要
開発ハードル専門のプログラマーが必要不要自然言語による対話
機能の汎用性低(特化型カスタマイズ)一つのシステムで多様なニーズを解決
メンテナンスコスト継続的に必要ほぼゼロモデルの自己更新

実戦演示#

以下は、仕事で比較的一般的な waapi のニーズを Wwise Agent で解決した例です。

  1. 簡単なオブジェクトの作成とその後の操作
(動画が見られない場合は、ブログが一時的に問題を抱えている可能性があります)
  1. Excel を使用してオブジェクトを一括作成
    (録画予定の動画)
  2. 特定の要求に応じてプロジェクトを整理し、資産管理を標準化
    (録画予定の動画)

以上は、比較的簡単ですが、日常業務で煩雑なタスクです。このようなタスクを技術音声に任せるとスケジュールが遅れ、デザイナーが自分で行うと非常に面倒です。もちろん、Wwise Agent が実現できる機能はこれだけではなく、すべての Waapi で可能な操作を行うことができ、具体的にはデザイナーが実際の生産で試してみる必要があります。

後続方向#

Wwise Agent の次の発展方向は、応答速度の最適化とさらなる多モーダル入力の検討に尽きます。結局のところ、今日の AI の波の中で、Wwise がいつ公式の AI サービスを発表するかは誰にもわかりませんし、同時に自身も Waapi の操作権限に制限されています。

応答速度の最適化については、エンドツーエンドのローカルモデルのデプロイを推進し、蒸留やプルーニングなどの技術を通じてモデルのサイズをさらに圧縮することが考えられます。

多モーダル入力については、実際の作業シーンに基づいて、画像、動画、音声などの入力サポートを追加する必要があります。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。