1518.
“汉籍合璧”是国家重要文化工程,汉籍中人物行程路线的可视化是“汉籍合璧”工程的研究内容之一。目前的古汉语命名实体识别存在实体边界定位不准确、基于全监督的传统模型在少量样本中学习性能差和泛化能力弱等问题。针对以上问题,该文提出一种汉籍使者行程命名实体定义方案,构建了基于《奉使辽金行程录》的使者行程命名实体数据集SongCorpus;提出一种基于APDBERT的汉籍人物行程命名实体识别方法。该方法第一阶段使用古汉语语料对RoBERTa-WWM模型和ERNIE模型进行无监督适应性预训练;第二阶段首先将两个模型根据字的上下文生成的语义向量进行拼接,然后输入到融合层进一步提取语义信息,最后利用条件随机场得到最佳的标签序列,并且在训练过程中引入对抗训练,提高方法的泛化能力和鲁棒性。实验结果表明,该方法在SongCorpus数据集上的F
1值达到81.30%,较基线模型BERT-CRF其F
1值提高了3.76%。… …
相似文献