banner
KiWi

KiWi的博客

这里是一个搞技术的音频er的网站
wechat
email

WwiseAgent:AI驱动的Wwise工作流助手

前言#

在游戏音频设计领域,Wwise 作为主流音频中间件提供了 WAAPI(Wwise Authoring API)来支持工具开发。然而,长期以来,WAAPI 的使用一直局限于少数技术音频工程师,形成了明显的技术门槛。传统开发模式下,每个项目特定需求都需要专人开发专门工具,不仅效率低下,还难以在不同项目间复用。

而在 AI 大模型技术爆发的今天,WwiseAgent 项目应运而生,彻底改变了这一现状。
image

技术突破#

WwiseAgent 的核心优势在于打破了传统 WAAPI 工具开发的技术壁垒。

传统 WAAPI 开发面临三大痛点:首先,开发者必须同时精通编程和 Wwise 音频系统;其次,每个工具往往只解决单一特定问题,泛化能力极差;最后,工具维护和更新需要持续投入技术资源。

下面是开发模式对比:

功能传统 WAAPI 方式WwiseAgent突破点
需求响应时间数天到数周即时无需专门开发
开发门槛需专业程序员自然语言交互
功能泛化性低(专项定制)一套系统解决多种需求
维护成本持续需要几乎为零模型自我更新

实战演示#

以下是一些在工作中比较常见的 waapi 需求,通过 Wwise Agent 解决的表现

  1. 简单的创建对象,并进行进一步操作
(如果看不到视频的话是博客暂时遇到一些问题)
  1. 通过 excel 直接批量创建对象
    (待录制视频)
  2. 按照特定要求整理工程,规范资产管理
    (待录制视频)

以上是三个比较简单,但是在平时工作中比较繁琐的任务。这种任务交给技术音频的话排期又会很靠后,设计师自己来的话又很麻烦。当然,Wwise Agent 能够实现的功能不止如此,所有通过 Waapi 能够做到的操作,它都可以做到,具体就需要设计师在实际生产中自己尝试了。

后续方向#

对于 Wwise Agent 的下一步发展方向,无非也只有优化响应速度和进一步的多模态输入来考虑了。毕竟在当今 AI 浪潮下,谁也不知道 Wwise 会在何时推出官方的 AI 服务,同时其自身也受限于 Waapi 的操作权限。

对于优化响应速度的话,无非也就是推动端到端的本地模型部署,通过蒸馏,剪枝等技术进一步压缩模型大小。

对于多模态输入来说的话,则需要根据实际工作场景,增加对于可能的图片,视频,音频等的输入支持。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。