2020 AI 研究大盤點!這些大牛的論文你都看過嗎?

新智元 2021-08-16 01:30:56 阅读数:36

本文一共[544]字,预计阅读时长:1分钟~
ai 研究 大牛

新智元報道

來源:Reddit

編輯:LRS

【新智元導讀】AI發展日新月异,但又具有時代性!本文介紹了一些2020年那些有趣且重要的AI研究工作,涵蓋了nlp, cv等多個AI領域。快來看看哪些番你還沒補!

人工智能領域的發展逐漸迅猛,在各個分支領域上不止兩開花!

但每年研究關注的內容都有所變化,有學者整理了2020年中最重要的、最有意思的人工智能相關論文,其中人工智能倫理 、模型偏見等都受到了比以往更多的重視。

目前這項分享在Reddit上已經獲得了近100贊,網友紛紛留言「無價之寶」,「感謝樓主」。

快看看下面哪些論文你還沒有讀過,趕緊來補番,下面選取10項工作在文中作簡單介紹,每份工作都有保姆級教程,包教包會!

1、YOLOv4

該算法的主要目標是制作一個有更高精度、更快速度的目標檢測器(object detector)。

通常一個目標檢測器的模型架構由幾個組件組成:首先是輸入(圖像),然後是骨幹,以此圖像作為輸入,使用深層神經網絡提取特征映射。

最後使用像 YOLO 或 SSD 這樣的對象檢測器來做出並處理這些預測。

YOLOv4 引入了一種新的數據增强方法,稱為馬賽克和自我對抗訓練。

與以前的版本和其他對象檢測器相比,在多種 GPU 體系結構上進行了測試,比如 Maxwell,Pascal 和 Volta,YOLOv4在速度和性能方面都有了顯著的提昇。

對於諸如自動駕駛汽車、撲克牌作弊檢測等多個需要進行實時目標檢測的領域來說,YOLOv4是一個巨大的改進。

2、DeepFaceDrawing:根據粗糙的人臉圖像,甚至不完整的草圖來生成高品質的人臉圖像。

這個模型的關鍵思想是隱式模擬合理的人臉圖像的形狀空間,並在這個空間合成一個人臉圖像,以逼近輸入的草圖,所以系統能够允許用戶在很少或根本沒有從粗糙或甚至不完整的徒手草圖生產高質量的人臉圖像的模式中訓練。

該方法輸入筆畫時忠實地複述用戶的意圖,這更像是一種軟約束來指導圖像合成,因此即使是從這些粗糙的草圖也能够產生高質量的人臉圖像。

3、PULSE算法:把一張超低分辨率的16x16圖像變成一張1080p高清晰度的人臉。

還在為拍的照片糊了而感到後悔嗎?PULSE的目標是在一組合理的解决方案中生成逼真的圖像。

這意味著他們想要依賴於一個真實的圖像是現實的,其縮小版本將看起來與原來的低分辨率圖像相同。而不是必須直接從低分辨率圖像猜測。

因此,他們引入了一種新的自監督技術,遍曆高分辨率的自然圖像流形,尋找圖像向下縮放到原始的低分辨率圖像。

4、Unsupervised Translation of Programming Languages

由Facebook AI提出的一種編程語言之間的無監督轉換方法,這種新的模式可以把代碼從一種編程語言以無監督的形式轉換到另一門語言上,例如它可以將 Python 函數轉換為 C++ 函數,反之亦然。

訓練數據來自開源的GitHub項目,並且主要訓練C++, Java, Python之間的函數變換。

基本架構是一個seq2seq的模型,該模型由一個編碼器和一個具有Transformer結構的解碼器組成。以無監督的方式專門針對函數進行訓練。

在訓練結束後,相似的詞在錶示空間中有更近的距離。

5、GPT-3: Language Models are few-shot learners

GPT-3是OpenAI開發的一個新的文本生成程序。該模型經過預訓練後參數即固定。

他們在1750億個參數的5萬億個單詞的數據集上訓練GPT-3,這個參數量是以前非稀疏語言模型的10倍,所以這個模型就不再需要微調了,只有few-shot示例通過與模型的文本交互來指定。

例如,在翻譯任務中,只給定一個英語句子及其法語翻譯。

few-shot的工作原理是給出一定數量的上下文和完成示例(completion),然後給定一個待定的上下文示例,預期模型將在不更改模型參數的情况下提供補全。

該模型甚至可以通過直接針對特定任務進行微調達到現有sota模型的效果。

總之,GPT-3的效果很好,因為它的記憶中幾乎包含了人類在互聯網上發布的所有文本。

6、Image GPT — Generative Pretraining from Pixels

在之前Gmail展示的新功能中,一個最有趣的能力就是可以根據已經寫的郵件內容來推測剩下的連貫文本。

OpenAI提出的Image GPT就是根據不完全的圖像,來預測剩餘的像素,而不考慮二維圖像結構的知識。

他們想知道一個主要用於自然語言處理的架構是否可以與圖片一起「重建」圖像。就像Gmail預測你信息的結尾一樣。

他們使用了的模型是Transformers雙向編碼器錶示(BERT),Google開發的自然語言處理預訓練模型。

應用GPT-2序列架構預測像素而不是語言標記。

這兩個模型,BERT和GPT-2是領域不可知的,這意味著它們可以直接應用於任何形式的一維序列,例如像素序列,而不是單詞和字母。

他們發現該模型甚至可以理解二維圖像的特征,比如物體的外觀和類別!

7、Lifespan Age Transformation Synthesis

來自 Adobe 研究所的一組研究人員開發了一種新的技術,用於年齡轉換合成,這種技術僅僅基於人的一張照片。它可以從你發送的任何圖片生成不同年齡段的照片。

他們同樣使用GAN模型,但做了一些修改,他們稱他們的新方法為「多域圖像到圖像生成對抗網絡」。

它基本上是學習代錶連續雙向老化過程的潜在空間模型。這意味著它學習如何錶現一個特定的人的圖片,無論是年長的還是年輕的。

主要目標是了解頭部形狀隨時間的變形,而目前的方法往往都忽略了這一點。當然,這不是唯一的挑戰,他們還需要了解不同年齡段的外貌變化,這不是一項容易的任務。

由於沒有數據集可以為我們提供同一個人在不同年齡的多張照片,所以無法使用監督學習來完成這項任務。

否則的話他們可以獲得所有這些照片,並對照片上的人的性別和年齡進行注釋,從而使任務實現更簡單。

8、DeOldify:對舊的黑白照片進行上色,目前SOTA的黑白圖像著色方式,並且也是開源的。

主要模型同樣是GAN來完成。

生成器的訓練是通過像常規深度網絡的架構(如ResNet),由於已經預訓練過了,所以在訓練完整的GAN架構之前,該模型已經非常擅長對圖像進行著色。

然後,只需對這種景點的生成器判別器進行少量訓練,即可優化生成圖片的“真實感”。

高斯噪聲還隨機應用於圖像中,以在訓練期間生成假噪聲。

9、Stylized Neural Painting:風格化神經繪畫

圖像到圖像的翻譯是一個非常有趣的任務,最近主要涉及到GANs和風格轉換。當前最先進的方法,如pix2pix網絡或CycleGANs,都使用GANs。

它們在這樣的應用中錶現效果非常好,因為這裏的目標是將一幅圖片轉換為另一幅圖片,同時保留其屬性,並且只更改圖像的整體樣式。

研究人員在一個空畫布上開始上圖中的過程(a)。然後使用兩個生成器網絡繪制真實的筆劃向量,也稱之為「雙路徑神經渲染器」。重複這個過程直到我們得到最終結果。

過程(b)展示了這些筆劃是如何生成的,以及網絡如何知道它們看起來是否真實(b)。

10、Neural Re-Rendering of Humans from a Single Image

這篇文章是關於Facebook Reality Labs的一篇新論文,該論文將在2020年歐洲計算機視覺會議(ECCV)上發錶。

該算法將身體姿勢和形狀錶示為一個參數化網格(parametric mesh),該網格可以從單個圖像重建,並且很容易恢複。

給定一個人的圖像,他們能够創建從另一個輸入圖像中獲得的不同姿勢或穿著不同服裝的人的合成圖像。

大多數方法使用基於顏色的UV紋理貼圖。其中,對於特征貼圖的每個紋理像素,指定源圖像中的對應像素坐標。

然後使用該對應貼圖來估計公共曲面UV系統上輸入圖像和目標圖像之間的顏色紋理。

而Facebook的新技術的主要區別在於,他們沒有使用這種基於顏色的UV紋理貼圖,而是使用學習過的高維UV紋理貼圖對外觀進行編碼。

這是一種獲取照片中姿勢、視點、個人身份和服裝樣式之間外觀變化的更多細節的方法。

除了上述十篇文章外,作者總共總結了28篇有趣的AI研究工作,完整的列錶可以在https://github.com/louisfb01/Best_AI_paper_2020中找到。

參考資料:

https://github.com/louisfb01/Best_AI_paper_2020

版权声明:本文为[新智元]所创,转载请带上原文链接,感谢。 https://gsmany.com/2021/08/20210816013014884X.html