近日,团队电气工程及其自动化产教融合班2022级本科生方明慧以第一作者身份在在《应用声学》Applied Acoustics(中科院二区,IF=3.6)期刊发表了题为“ Multi-label bird sound recognition based on multi-view learning and dynamic threshold adjustment”《基于多视图学习和动态阈值调整的多标签鸟声识别》论文。解决了在实际环境中鸟声混鸣复杂情况下分类困难的问题。
鸟类物种监测对鸟类保护至关重要,但自然环境中的鸟声的混鸣使多标签分类复杂化,影响了模型性能。为了解决这些问题,提出了自适应多标签注意力阈值网络作为鸟鸣声分类框架(图一)。
图一自适应多标签注意力阈值网络结构
自适应多标签注意力阈值网络(AMAT-Net)采用多视图策略:利用双向门控循环单元(BiGRU)-注意力网络分析时间特征,并采用多尺度卷积神经网络(CNN)提取频谱特征,以实现全面的鸟类声音分析。鉴于时间特征主要捕捉瞬时动态变化,而频域特征则揭示频谱趋势特征,在保留两者关键信息的同时实现有效融合存在挑战。为此,本文设计了时间-频谱注意力特征融合(TSAFF)模块,该模块基于注意力机制融合时域与频域特征,增强了跨域特征的互补性。模型首先对每个标签进行相关/不相关的二分类判断,并据此确定初始阈值。随后,提出一种基于得分的动态阈值缩放(DTS)策略:首先利用皮尔逊相关系数构建标签相关性矩阵;在预测过程中,对高相关标签对的分类器得分进行协同调整;最后,通过分层交叉验证搜索使F1分数最大化的最优阈值,动态优化每个物种的决策边界,以适应实际标签分布。
图二动态阈值缩放(DTS)策略
全文链接:https://doi.org/10.1016/j.apacoust.2025.110943