×
语言研究

计算机软件及计算机应用论文_基于语言模型词嵌

文章摘要:针对基于关键词字符匹配和短语级情感分析等传统敏感信息检测方法准确率低和泛化性差的问题,提出了一种基于语言模型词嵌入和注意力机制(A-ELMo)的敏感信息检测方法。首先,进行字典树快速匹配,以最大限度地减少无用字符的比较,极大提高查询效率;其次,构建了一个语言模型词嵌入(ELMo)模型进行语境分析,通过动态词向量充分表征语境特征,实现较高的可扩展性;最后,结合注意力机制,加强模型对敏感特征的识别度,进一步提升对敏感信息的检测率。在由多个网络数据源构成的真实数据集上进行实验,实验结果表明,所提敏感信息检测方法与基于短语级情感分析的方法相比,准确率提升了13个百分点;与基于关键字匹配的方法相比,准确率提升了43个百分点,充分验证了所提方法在加强敏感特征识别度,提高敏感信息检测率方面的优越性。

文章关键词:

项目基金: