微軟提出AdaLM,用於開發小型、快速且有效的領域預訓練語言模型

智源社區 2022-01-08 01:44:24 阅读数:724

提出 adalm 小型 快速 且有

論文標題:

Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains

收錄會議:

ACL 2021

論文鏈接:

https://arxiv.org/abs/2106.13474

代碼鏈接:

https://github.com/microsoft/unilm/tree/master/adalm

大型預訓練模型在許多自然語言處理任務中取得了巨大的成功。然而,當這些模型應用於特定的領域時,往往會出現領域遷移(domain shift)的問題,並且會因為延遲和容量限制原因,為微調和在線服務帶來挑戰。

在本文中,作者引入了框架 AdaLM,來開發用於特定領域的小型、快速且有效的預訓練語言模型。

具體是通過適應(adapt)現有的通用預訓練模型和在目標領域執行任務獨立的知識蒸餾(knowledge distillation)來實現的。作者提出在 adaptation 適應階段進行特定領域的詞匯擴展,並根據語料庫的出現概率來自動選擇增量詞匯的大小。

然後,為壓縮用於特定領域的大型預訓練模型,作者系統地探討了不同的壓縮策略。作者在生物醫學和計算機科學領域上進行了實驗,實驗結果錶明,在特定領域的任務中,該方法比 BERT-BASE 模型具有更好的性能,而且比 BERT-BASE 模型小 3.3 倍,快 5.1 倍。

 

 

版权声明:本文为[智源社區]所创,转载请带上原文链接,感谢。 https://gsmany.com/2022/01/202201080144242989.html