基于BERT和深度主动学习的农业新闻文本分类方法
基于BERT和深度主动学习的农业新闻文本分类方法
Publication information
Publisher
中国农业科学院农业信息研究所
More information
Scope and Contents
Contents
[目的 /意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法 /过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果 /结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低...
Alternative Titles
Full title
基于BERT和深度主动学习的农业新闻文本分类方法
Identifiers
Primary Identifiers
Record Identifier
TN_cdi_wanfang_journals_nytsqbxk202208002
Permalink
https://devfeature-collection.sl.nsw.gov.au/record/TN_cdi_wanfang_journals_nytsqbxk202208002
Other Identifiers
ISSN
1002-1248
DOI
10.13998/j.cnki.issn1002-1248.22-0172