基於多模態特征的視覺實體鏈接

智源社區 2022-01-08 01:45:36 阅读数:699

特征

文章題目:

Visual Entity Linking via Multi-modal Learning

作者:鄭秋碩,聞浩,王萌,漆桂林

論文鏈接:

https://direct.mit.edu/dint/article/doi/10.1162/dint_a_00114/108470/Visual-Entity-Linking-via-Multi-modal-Learning

現有的視覺場景理解方法主要關注識別視覺對象及檢測視覺關系,其側重於粗粒度概念發現,而忽略了細粒度場景理解。事實上,網絡上的許多數據驅動應用場景(例如新聞閱讀和電子購物)需要准確地將概念提及識別為實體,並正確地鏈接到知識圖譜。有鑒於此,本文確定了一項新的研究任務:用於細粒度場景理解的可視化實體鏈接。為了完成這項任務,我們首先從不同的模態中提取候選實體的特征,即視覺特征、文本特征和知識圖譜特征。然後,我們設計了一種基於深度模態注意力的神經網絡,利用排序學習方法,將所有特征集合起來,並將視覺提及映射到知識圖譜中的實體。

圖2.視覺實體鏈接概述,它由兩部分獨立組成,即特征提取模塊和視覺實體鏈接模塊。特征提取模塊從三種模式中提取特征。

在本文中,我們提出了一個新的框架來實現視覺場景理解中的視覺實體鏈接。具體地說,我們首先為圖像生成一個粗粒度的場景圖,並利用VGG-16網絡提取對象的視覺特征。然後,我們使用GRU語言方法從圖像標題中提取對象的文本特征,並通過命名提及匹配發現候選KG實體。在提取候選實體的KG特征後,我們提出了一種基於深度模態注意神經網絡的學習排序方法來聚合所有特征並將視覺對象映射到KG中的實體。

版权声明:本文为[智源社區]所创,转载请带上原文链接,感谢。 https://gsmany.com/2022/01/202201080145362697.html