近日,团队硕士生吴炜在国际著名期刊《Applied Acoustics》(中科院二区期刊,影响因子:3.4)发表题为“Orchard bird song recognition based on multi-view multi-level contrastive learning”的研究成果。
在收获季节,果园经常受到鸟类的困扰,因此大量的果实啄食会严重影响水果的质量和产量。识别鸟鸣声对于防止果园鸟类造成的损害至关重要,因为它可以为后续的鸟类驱赶工作提供依据。然而,为声音样本进行注释所需的大量工作对监督深度学习构成了重大挑战。
在本研究中,我们提出了一种基于多级对比(MV-MLC)的自监督多视图学习框架用于鸟鸣识别。该框架利用时间和频谱图视图作为输入,利用MLC自动从未标记数据中学习表示,并采用多尺度特征提取(MSFE)骨干网络来捕捉不同尺度的鸟鸣时间特征。MLC学习中的时间-频谱图一致性任务促进了多视图之间的语义级信息交换,而层次对比学习任务则捕捉了粒度级信息,从而产生了更强大的上下文表示。此外,在MSFE中嵌入注意力模块有助于挖掘鸟鸣特征的空间和通道依赖性,进一步增强了多尺度网络的特征表示。本研究在自建的10类鸟鸣数据集(Orchard-birds)和公开可用的Birdsdata和Powdermill数据集进行了广泛的实验。实验结果表明,MV-MLC的表现优于最先进的自监督模型。特别是,即使只有一小部分标记数据,MV-MLC也取得了出色的性能。基于Orchard-birds和Birdsdata数据集的识别准确率分别为99.40%和92.67%,宏F1分数分别为99.40%和92.61%。