关键词:
文本语义匹配
机械知识问答
义原知识
词向量
BERT
Transformer
机械制造
摘要:
文本语义匹配旨在判断两个句子的语义是否一致,是问答对话、语义搜索、智能推荐等领域的核心算法。本文从义原知识应用、词向量构建以及交互式匹配创新方法出发,对文本语义匹配任务进行了深入研究。采用基于深度学习的方法,提出了两种文本语义匹配模型,设计了一种单轮检索式机械知识问答系统,对模型进行机械领域的实际应用验证。在公开数据集和机械制造相关数据集上的实验表明,本文模型能够有效提升文本语义匹配成功率,能够应用于机械领域。
本文先对结合先验知识的文本语义匹配进行研究。针对模型难以理解同义词、一词多义等问题,提出了基于Transformer和How Net义原知识融合的文本语义匹配方法,拓展了对于句子语义信息获取方面的研究。在模型中引入Transformer、Bi LSTM等网络结构来进行特征提取,引入外部知识库How Net进行知识驱动,建模词汇之间的义原知识关联。研究了不同分词工具、不同Transformer层数对于匹配结果的影响。在BQ数据集上的实验表明,本文提出的模型能够有效利用义原知识,提高模型处理同义词、近义词的准确率。
本文还对字向量的运用及特征提取方式进行研究。针对现有模型匹配方法交互不充分、字信息利用程度低的问题,提出了基于BERT与CNN的文本语义匹配方法。采取了基于Word2Vec和基于BERT的方案生成词向量,设计了一种基于Bi LSTM和余弦注意力机制的语义信息循环处理单元。研究了基于BERT字向量基础的不同词向量生成方式、不同注意力机制方式对模型效果的影响。在LCQMC数据集上的实验结果表明,该模型与ESIM等具有语义信息挖掘能力的模型相比,F1值和准确率均有所提高,获取深度语义信息的能力更强。
为验证上述方法在机械领域的实际应用效果、解决传统机械问答系统匹配准确率低的问题,本文设计了一种单轮检索式机械知识问答系统,整理了建立专业数据集所需要的数据收集工作,建立了机械制造相似问句判定数据集。在该系统上使用机械制造相似问句判定数据集进行准确率和推理时间测试,结果表明,该系统准确度比基于Bi LSTM的问答系统高13.3%,本研究所设计的算法能够有效地在机械领域进行应用。