趣丸科技钟鹏:AI辅助创作,两分钟内就能生成高质量音乐

2025-01-23

被评选为琶洲领军算法师后,钟鹏表示:“这是对自己算法研究成果的肯定。技术的进步是无止境的,我们需要保持好奇心跟求知欲,继续探索与钻研。”

2022年初,钟鹏加入趣丸科技并带领团队进行天谱乐AI音乐大模型的自主研发和应用落地。天谱乐大模型是业界首个实现视频生音乐的多模态产品,能在短时间内生成达到出版级别的音乐作品,颠覆了传统版权音乐生产周期长、制作成本高的瓶颈。

 
天谱乐大模型——业界首个实现视频生音的多模态产品

研究生在读期间,钟鹏已经开始接触自然语言处理领域、情感分析方向的研究,即通过情感分析辅助抑郁症等心理疾病的治疗。这让钟鹏切身感受到人工智能的力量,他希望能用所学知识做出有温度的产品跟服务。

工作后,钟鹏从事自然语言处理与音频技术的研究,产出了如AI智能音箱、AI儿童故事机等产品。随后,钟鹏的研究方向扩展到了音乐理解与音乐生成。在他看来,语言能够传递意图,音乐则是表达情感。“音乐的复杂性远远超过了语言,音乐音频里任意细的震动与排列都代表不同的情绪,这十分吸引我。”

出于对音乐的热爱,钟鹏还自发学习吉他与尤克里里,这让他感觉到音乐是有门槛的。“我希望通过AIGC,让人人都能玩点音乐。”

2022年初,钟鹏加入了趣丸科技并参与了天谱乐大模型的研发。作为天谱乐AI音乐算法团队领头人,钟鹏带领团队进行天谱乐AI音乐大模型的自主研发和应用落地,围绕数据构建、数据标注、模型设计、模型训练评价等环节进行深耕跟探索。

天谱乐大模型采用业内领先的LLM音频域大模型技术方案,训练参数量多达4亿,可生成拟真度极高的专业级音乐成品。除了文生音、音生音,还突破性实现了视频生音功能,成为业界首个实现视频生音的多模态产品,能在短短1-2分钟内生成达到出版级别的音乐作品,突破了传统版权音乐生产周期长、制作成本高的瓶颈。

鹏发现,近两年大模型技术的发展对音乐生成领域带来了很多变化。以前AI音乐生成的技术链路主要以音乐符号生成为基础,从基础的作曲编曲入手,用生成式的算法结合规则的方式,先由算法生成曲谐,再利用歌声合成、伴奏生成、音频渲染等技术,将曲谐进行演绎,进而生成音乐音频。然而,这种方式会导致音乐的质量波动很大。

大模型技术发展后,对AI音乐生成的研究便转向音频域方向,这可以从音乐数据中发现并且总结规律,以端到端的方式实现完整的音乐生成。

尽管技术高速发展,但作为一种情感表达的艺术,音乐生成必须结合具体场景设计模型架构跟交互的方式。“因此我们从来不主张用AI音乐取代人类的创作,而是AI音乐辅助人类创作。”


AI技术不断选代
算法师需拓展更多技术链路

在钟鹏刚开始接触人工智能技术时,比较常见的是应用层的业务场景,比如说语音识别、图像识别。钟鹏称:“那时候感觉AI技术是非常有趣的,可以大大提高工作效率。”参与工作后,钟鹏转而从事展现层的业务场景,比如语音合成,这可以让技术与普通人实现交互。“将情感色彩赋予一个冰冷的机器,这非常吸引人。”

近几年,随着大模型技术的普及,生成式人工智能获得了更大维度的飞跃,拥有了分析和理解的能力。这让钟鹏觉得,让技术做出更多有温度的产品不再是空中楼阁。“AI技术不断选代,对现实的生活带来越来越多的影响,这正是AI的魅力所在。”

钟鹏分享道,作为音频算法工程师,需要有大量音乐相关的背景知识,才能将音乐生成工作做得更好。但是随着技术迭代,音频算法师学习的对象不仅局限于音乐音频。譬如天谱乐大模型的业务形态融合了文本、视频及图像的输入。因此,算法师还需关注自然语言处理、视频理解、图像分析等技术的融合。


钟鹏称:“作为这个时代背景下的算法工程师,除了深耕自己特定的领域外,我们还需拓展更多的技术链路。”

在第三届琶洲算法大赛上,钟鹏获评“琶洲领军算法师”。“非常感谢组委会的认可,”钟鹏说,“这也是对自己算法研究成果的肯定。技术的进步是无止境的,我们需要保持好奇心跟求知欲,继续探索与钻研。”

加入我们
趣丸招聘
联系我们
广州市天河区黄埔大道西平云路163号广电平云广场B塔16-20F 020-81450999
关注我们
趣丸科技公众号
©2014-2025 广州趣丸网络科技有限公司版权所有 举报邮箱:jubao@52tt.com 增值电信业务经营许可证: 粤B2-20210263 粤ICP备15000434号 粤公网安备44010602006240号