跳转到主要内容
DJMag.cn

将中国DJ与俱乐部文化推向世界

搜索表单

字节跳动发布最新音乐检索系统ByteCover2

检索速度提高八倍

字节跳动发布最新音乐检索系统ByteCover2

近期,字节跳动火山语音团队的最新音乐检索系统ByteCover2入选了ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高8倍。经Da-Tacos数据集上的评估,准确率远超其他方案的SoTA 性能。

在ByteCover系统中,团队通过多任务学习范式联合ResNet-IBN模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,还提出了PCA-FC模块,实践证明该模块在保证ByteCover2模型性能不变甚至提高的前提下可将向量尺寸压缩至八分之一。

一直以来Da-Tacos作为用来评估翻唱识别的基准测试数据集被使用,在该数据集上采用1536维的ByteCover2模型取得了远超其他方案的SoTA性能,全类平均正确率指标(mAP)达到79.1%;而ByteCover系列以外的最好方法Re-MOVE的该项指标只有52.5%,更加值得被提及的一点,128维的ByteCover2模型甚至超过了2048维的ByteCover1和Re-MOVE方法。

此外,ByteCover1系统还参加了2020国际音频检索评测大赛(MIREX),过程中大幅刷新了翻唱识别赛道历年最好记录,mAP指标达到84%,是同年参加该竞赛的其他方案性能的14倍。

主题