8843.
针对藏文文本自动校对研究中缺乏高质量标注语料、鲜有纠错任务研究等问题,该文以藏文音节为单元的等长文本为研究内容,通过分析藏文文本错误类型,开展了藏文查错、纠错模型研究,该文主要贡献如下: 1针对缺乏标注语料问题,一是提出了结合语言知识的藏文混淆集构建算法,自动建立了音似、形似和拼写错误音节的混淆集,二是根据音似、形似、动词时态、易错虚词的不同混淆集,提出了加噪算法,在等长文本中将正确音节替换为错误音节。2针对查错问题,提出了基于预训练模型Word2Vec和ELMo的BiGRU-Attention藏文音节查错模型。最终实验表明,使用预训练模型能有效提升藏文音节查错效果,其中ELMo-BiGRU-Attention模型的查错效果达到最佳,音节级查错F
1为90.91%,句子级查错F
1为83.24%。3针对纠错问题,提出了soft-masked+BERT的藏文音节纠错网络,效果最好的模型音节级查错F
1和纠错F
1分别为95.51%和90.69%,句子级查错F
1和纠错F
1分别为86.34%和79.77%。… …
相似文献