新加坡南洋理工大學、西南交通大學 | Self-Training Vision Language BERTs with a Unified Conditional Model(基於統一條件模型的自訓練視覺語言BERT模型)

智源社區 2022-01-07 12:46:22 阅读数:381

新加坡 南洋 理工大 理工 工大

作者:Xiaofeng Yang,Fengmao Lv,等

簡介:本文研究視覺語言BERT類模型的自訓練新方法並獲得顯著效果。自然語言BERT類的模型,通過語言語料庫以自我監督的方式進行訓練。與自然語言BERT模型不同,視覺語言BERT類的模型(VL-BERT)需要成對數據進行訓練,這限制了VL-BERT預訓練的規模。作者提出了一種自訓練方法,允許從未標記的圖像數據中訓練VL BERT。從統一條件模型開始,作者提出新方法:一個可以執行小樣本條件生成的視覺語言BERT模型。在不同的條件下,統一條件模型可以生成字幕、密集字幕甚至問題。作者使用標記的圖像數據來訓練教師模型,並使用訓練後的模型在未標記的圖像數據上生成偽字幕。然後,作者結合標記數據和偽標記數據來訓練學生模型。該過程通過將學生模型作為新教師進行迭代。通過使用所提出的自訓練方法和僅300k未標記的額外數據,與使用300萬額外圖像數據訓練的類似模型大小的模型相比,作者獲得了具有競爭力甚至更好的性能。

 

 

論文下載:https://arxiv.org/pdf/2201.02010

 

版权声明:本文为[智源社區]所创,转载请带上原文链接,感谢。 https://gsmany.com/2022/01/202201071246222218.html