1315.
知识蒸馏(KD)作为一种模型压缩的有效技术,其通过利用教师(参数量较大)模型中的知识来训练学生(参数量较小)模型。这种技术能够助力利用大模型构建更适用于需要隐私保护和边缘计算场景的高性能小模型,这对于基于Transformer的大模型尤为关键。然而,当前对知识蒸馏的研究主要集中在提升学生模型的性能上,对教师和学生模型之间知识传递的本质以及知识蒸馏的可解释性探索不足。为填补这一空白,提出一个知识蒸馏可解释性框架(E
xp-KD),从自然语言知识的角度来系统性地分析蒸馏过程中教师和学生模型之间的知识传递过程。从知识的角度总结凝练了知识蒸馏过程中尚不明确的三个关键问题:如何量化知识,如何量化转移的知识,如何量化转移的知识对学生模型的影响。依据自然语言知识与欧式空间中凸包的结构相似性,将自然语言知识表征为欧式空间中的凸包,并参考语义中的含义、中心思想以及关键词这三个概念,提出了用于量化自然语言知识的三个特征,知识范围、知识核心和知识框架。在此基础上,从教师和学生两个不同的视角,构建了知识转移率、知识吸收率、知识扩展度等一系列指标,用于测量知识在“教师-学生”范式中的变化情况,从而形成知识蒸馏可解释性分析框架。通过在多个数据集上以大语言模型(Bert-base-cased和Llama2-7B)作为教师模型进行的实验,探索了知识转移与学生模型学习结果之间的关系,从知识角度阐明了知识蒸馏的可解释性。研究表明,教师模型通常可以将大约50%到60%的知识传授给学生模型,同时,关系型知识最容易被学生模型吸收,这一结果将引导设计更适合关系型知识的损失函数来提升知识蒸馏效果。… …
相似文献