趣丸科技贾朔:AI音乐迎来应用元年,五年内将重构产业格局|中国AIGC产业峰会
4月16日,由量子位主办的第三届中国AIGC产业峰会在北京圆满举办,主题为“万物皆可AI”。趣丸科技副总裁贾朔以《人人都能玩点音乐——音乐生成大模型应用实践》为题发表主题演讲。
AI音乐创作正掀起普惠浪潮。人人都能玩一点音乐的时代正在到来。
趣丸作为AI音乐大模型赛道的独角兽,凭借其自研「天谱乐」,正在让艺术创作的门槛变得触手可及。
会上,贾朔首次演示即将发布的天谱乐新功能“Midi Render”,该功能将AI音乐创作从盲盒式生成到精确控制。用户只需点击琴键,输入旋律灵感,天谱乐将帮助用户快速完成旋律扩写、填词、编曲和演唱。让人类牢牢掌握艺术创作的方向盘!
此外现场宣布趣丸科技将开放天谱乐的四大能力——歌曲生成能力、纯音乐能力、二次编辑能力、音色控制能力。天谱乐为企业和开发者提供功能完善、易用的 API 服务,赋能音乐产业智能升级,重塑企业音效生产力。
以下为贾朔演讲全文:
一、AI对于音乐是硬币的两面
我从音乐赛道的产业视角出发,跟大家分享一下AI对音乐产业影响的观察,并且分享一下我们自身探索的一些案例。
2024年对于AI音乐模态的发展是比较重要的节点,音乐是在文字、图片、视频后,跨越了GPT之后智能飞跃的节点。之前要创作音乐是门槛很高的事情,但去年随着Suno 3.5出来,技术门槛、创作门槛被极大降低。
这个事实发生之后,从科技普惠的视角来说,这是一件蛮令人兴奋的事情。如果从音乐行业的视角来看,这其中既有兴奋、机遇,同时也包含了危机、挑战。所以我跟很多从业者交流的时候,发现大家不约而同会抛出这么一个问题:
在AI带来的变量下,未来的五年音乐行业可能会如何被AI改变?
因为是否改变已经不是问题了,是一个确定性的结论,只是说会如何改变。我把这个问题问了一下DeepSeek,因为现在遇事不决先问一下DeepSeek怎么看。
这里DeepSeek给的回答很有意思,仅供参考。我觉得也提供了大致的思考框架,首先确实让音乐创作这件事情变得非常普惠,并且让原来一个相对来说复杂、专业的创作流程,随着AI技术发展发生了很大的变化。
在消费体验上,过往更多的普通人跟音乐进行交互,只能通过一些像类似听歌这种体验,而未来将会有更多从创作切入的玩音乐的方式。
这里DeepSeek也说了,挑战和机遇是并存的,那可能的风险是什么?
大家如果关注各种媒体报道的话,也经常听到,动不动就是一个新AI模型发布要让多少人失业了,或者对音乐人的工作和未来发展造成巨大冲击。
我们也收集整理了海外智库关于音乐发展的一些预判,根据他们的观点,音乐行业里面有很多细分的工作,确实在未来五年的时间内,会或多或少地被音乐模型带来不小的冲击跟改变。
从渗透率的角度来说,可能从智库的观点,相当一部分工作都会被AI参与,甚至是替代。并且可能当中的一部分用例也会影响一部分音乐人的收入,包含娱乐音乐、氛围音乐。部分游戏领域BGM创作的群体,有较高概率会被AI影响甚至替代。
一个硬币也有两面,我们会看到,虽然有一部分相对来说可能简单或重复度高的工作有可能会被AI介入,甚至是局部替代。但还有很多工作其实会随着AI的辅助方式的介入,而大大地提效,并且从而提高创作的效率跟质量。
所以在这块也能看到,传统音乐制作里面,无论是创意的获取、还是编曲编排等方面,我们也看到有较高的可能性会以AI辅助的方式来帮助到音乐人。
二、2025应用元年让AI音乐创造价值
站在2025年应用元年的时间点,我们也想分享一下,从一个行业从业者的角度,我们看AI有可能以什么样的方式,去对这个产业做出一些正向的影响。
大家在媒体上看到一些比较吸引眼球的,往往是一个完整的AI数字人来唱歌,这种效果固然会引起很多的关注,但事实上我们也相信,其实有很多AI的产业化的应用,有可能是以润物细无声的方式在背后默默进行的。
今年年初的小年夜,在国家级舞台中国网络视听盛典上其中的一个节目,就是以AI音乐模型天谱乐作为词曲创作,并且与人类艺术家共同演唱的作品。
在这里我们也可以看到AI完全取代人类唱作的另外一种可能,我们认为AI更有可能作为辅助的方式帮助现有的从业者、创作家,以更低的成本、更快的速度去完成更高质量的艺术创作。
以这次舞台表演为例,以AI的方式创作的提效提速的比例,我们初步估算至少是在10倍以上,我们也看到这样一种新的可能性。AI的应用与传统的产业不是一个替代跟竞争的关系,更有可能是协助产业升级的方式。
三、天谱乐的三大独特优势
这里正式介绍一下我们的公司跟团队。我们来自趣丸科技,我们在去年7月份发布了全球首个自研的多模态音乐生成大模型。
我们团队在移动互联网时代做过一个产品叫唱鸭APP,首次普及了“无弦弹唱”玩法。我们去年在中国人工智能协会主办的琶洲算法大赛上获得全球总冠军,得到了大家对我们技术方面的认可。
我们主要在这几个方面比较有特色,首先是首创的多模态音乐生成能力,也就是智能识别图片跟视频从而创作歌曲,这个是全球首发。其次是中文人声的歌曲生成能力,在效果上截至目前为止是全球领先的。同时我们还拥有专业可控的录音棚级精确编曲能力,接下来会给大家稍做呈现。
音乐最打动人的部分往往是人声部分,这也是大家去认识和评价一首歌非常重要的一部分。但音乐带有一定的主观性,很难像其他大模型领域,靠题库打榜的方式证明自己SOTA的技术效果。
但我们也找到一种方式,我们邀请了音乐专业的一些学生用盲测的方式。所谓盲测,就是事先不知道这个作品来自哪个模型,以同样的方式、同样的prompt生成,让专业的从业者去做打分对比。
在相应的打分结果出来后,会发现天谱乐大模型,尤其在中文人声唱词层面的效果,如果跟美国领先的SUNO模型相比有一定的优势,并且大多数评测者其实已经较难区分人声是机器还是真人。
以上是我们模型能力的效果。当然虽然有自研的模型能力,但我们更多认为趣丸科技是一个有模型能力的应用厂商,应用层也是2025年趣丸探索的重要方向。
从产业视角看,虽然AI音乐生成效果已经非常领先和优秀,但还有一些问题得不到从业者的认可。
我跟很多音乐人交流的时候,发现大家都有一个共同的问题,或者比较排斥AI的地方,即AI更多是类似盲盒式的创作方式,就是所谓的摇歌——更多的是靠多试、多筛去找出符合自己想要效果的音乐。
这种方式可能对于音乐这种特殊的媒介来说,并不符合行业的创作习惯,以及音乐人的创作直觉。经过跟大量音乐人的交流,我们拿出了我们的解决方案,我们以尊重传统音乐人对于MIDI电子编曲的音乐方式作为切入点,同时让音乐人的核心旋律、创意作为音乐的骨干,由AI辅助帮助音乐人去快速地生成完整的作品。
我们既保留了AI创作的提效部分,同时我们让整个音乐最核心的创意部分,也就是曲的创作部分,还是交由艺术家来做最核心的创作,这就是我们提到的价值主张。
我们还是希望在艺术创作这件事情上,应该由人类把握最终的方向盘,而不是由AI托着人类去跑,这个是我们想要对这个产业做出的一点贡献跟改变。
四、开放四大能力赋能音乐产业升级
刚才提到了天谱乐具备的音乐能力,我们在过去几个月模型发布后,也接收到很多从业者朋友们来咨询我们,他们问我们有没有考虑把能力开放出来?当时我想好像确实也没有什么理由不开放出来。
所以我们在今年早些时候已经上线了API开放平台,来公开AI音乐的生成能力。
近期我们会把更多的能力做上线和赋能,包括前面演示的完整的歌曲生成能力,能够达到唱片级的完整效果,同时还有深受影视行业欢迎的纯音乐能力的创作。我们现在使用这个能力的合作方,也包括在好莱坞的一些影视制作公司。
另外像二次编辑、音色控制、音色克隆的能力,我们也会逐步开放跟提供。我们希望通过这些能力的开放,能够帮助到更多对音乐有需求的产业上下游方,能够更加普惠地享受到技术升级带来的能力变化。