江汉大学学报(自然科学版) ›› 2024, Vol. 52 ›› Issue (4): 37-44.doi: 10.16389/j.cnki.cn42-1737/n.2024.04.004
• 人工智能 • 上一篇
许楠桸,柯圆圆,胡晓莉*
XU Nanxi,KE Yuanyuan,HU Xiaoli*
摘要: 基于网络实时新闻内容数据,对一份具有时效的中文长文本数据集进行了新闻主题分 类。利用年度关键词增强的分词方案提升分词精度,采用一种长文本压缩方法处理中文长文本 的特殊数据,具体方法为选择关键句并利用 TF-IDF 算法提取长文本中关键词,再将组合的新 文本进行词向量训练。最后,采用增强的语言表示模型进行新闻主题分类,并与 6 种机器学习和 深度学习模型进行对比评估,评价指标为召回率、准确率、精度和 F1分数等。实验结果表明:本 文的模型可通过提取 16 个重要词对实时新闻长文本进行有效的分类。
中图分类号: