NIT Trichy、nference | AMMUS:自然語言處理中基於Transformer的預訓練模型綜述

作者:ke 2021-08-15 16:07:20 阅读数:809

本文一共[544]字,预计阅读时长:1分钟~
nit trichy nference ammus 自然

【論文標題】AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

【作者團隊】Katikapalli Subramanyam Kalyan, Ajit Rajasekharan, Sivanesan Sangeetha

【發錶時間】2021/08/12

【機 構】NIT Trichy、nference

【論文鏈接】https://arxiv.org/pdf/2108.05542v1.pdf

【推薦理由】基於Transformer的NLP預訓練綜述

基於Transformer的預訓練語言模型(T-PTLMs)已經在幾乎所有的NLP任務中取得了巨大的成功。這些模型的演變始於GPT和BERT等建立在Transformer、自監督學習和遷移學習之上的模型。基於Transformer的PTLMs利用自監督學習從大量的文本數據中學習通用語言錶征,並將這些知識遷移到下遊任務中。這些模型為下遊任務提供了良好的背景知識,避免了下遊模型的從頭訓練。在這篇全面的調研報告中,我們首先對自監督學習進行了簡要概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下遊適應方法。接下來,我們提出了一個新的T-PTLM分類法,然後簡要介紹了各種基准,包括內在的和外在的。我們總結了各種有用的庫來處理T-PTLMs。最後,我們强調了一些未來的研究方向,這將進一步改善這些模型。我們堅信,這篇全面的調查報告將成為學習核心概念以及了解T-PTLM最新進展的良好參考。

上圖顯示了預訓練模型的各個層次的分類。為了了解和跟踪各種T-PTLM的發展,本文從四個不同的角度對T-PTLM進行分類,即預訓練語料庫、模型結構、SSL類型和其他擴展如compact等。

上圖顯示了語言模型下遊任務的過程。一旦語言模型經過預訓練,它就可以被用於下遊任務中使用。一個經過預訓練的語言模型可以通過三種方式用於下遊任務,即基於特征的微調和基於提示(prompt)的。基於特征的方法包括從語言模型中生成上下文詞嵌入,然後將其作為特定任務下遊模型的輸入特征;微調包括通過最小化特定任務的損失使模型權重適應下遊任務。另外,模型的下遊性能可以通過基於提示的微調得到改善,特別是在小樣本和零樣本的情况中,這種微調過程往往被制定為接近語言建模目標的槽比特填充。

對預訓練模型有用的資源

 

版权声明:本文为[作者:ke]所创,转载请带上原文链接,感谢。 https://gsmany.com/2021/08/20210815160652988m.html