前言#
ゲーム音声デザインの分野において、Wwise は主流の音声ミドルウェアとして WAAPI(Wwise Authoring API)を提供し、ツール開発をサポートしています。しかし、長い間、WAAPI の使用は少数の技術音声エンジニアに限られており、明らかな技術的ハードルが形成されていました。従来の開発モデルでは、各プロジェクトの特定のニーズに応じて専門のツールを開発する必要があり、効率が悪く、異なるプロジェクト間での再利用が難しい状況でした。
AI 大モデル技術の爆発的な進展の中で、WwiseAgent プロジェクトが誕生し、この状況を根本的に変えました。
技術突破#
WwiseAgent の核心的な利点は、従来の WAAPI ツール開発の技術的障壁を打破したことです。
従来の WAAPI 開発は三つの大きな課題に直面しています。まず、開発者はプログラミングと Wwise 音声システムの両方に精通している必要があります。次に、各ツールは単一の特定の問題を解決することが多く、汎用性が非常に低いです。最後に、ツールのメンテナンスと更新には継続的な技術リソースの投入が必要です。
以下は開発モデルの比較です:
機能 | 従来の WAAPI 方式 | WwiseAgent | 突破点 |
---|---|---|---|
需要応答時間 | 数日から数週間 | 即時 | 専門の開発不要 |
開発ハードル | 専門のプログラマーが必要 | 不要 | 自然言語による対話 |
機能の汎用性 | 低(特化型カスタマイズ) | 高 | 一つのシステムで多様なニーズを解決 |
メンテナンスコスト | 継続的に必要 | ほぼゼロ | モデルの自己更新 |
実戦演示#
以下は、仕事で比較的一般的な waapi のニーズを Wwise Agent で解決した例です。
- 簡単なオブジェクトの作成とその後の操作
- Excel を使用してオブジェクトを一括作成
(録画予定の動画) - 特定の要求に応じてプロジェクトを整理し、資産管理を標準化
(録画予定の動画)
以上は、比較的簡単ですが、日常業務で煩雑なタスクです。このようなタスクを技術音声に任せるとスケジュールが遅れ、デザイナーが自分で行うと非常に面倒です。もちろん、Wwise Agent が実現できる機能はこれだけではなく、すべての Waapi で可能な操作を行うことができ、具体的にはデザイナーが実際の生産で試してみる必要があります。
後続方向#
Wwise Agent の次の発展方向は、応答速度の最適化とさらなる多モーダル入力の検討に尽きます。結局のところ、今日の AI の波の中で、Wwise がいつ公式の AI サービスを発表するかは誰にもわかりませんし、同時に自身も Waapi の操作権限に制限されています。
応答速度の最適化については、エンドツーエンドのローカルモデルのデプロイを推進し、蒸留やプルーニングなどの技術を通じてモデルのサイズをさらに圧縮することが考えられます。
多モーダル入力については、実際の作業シーンに基づいて、画像、動画、音声などの入力サポートを追加する必要があります。