ICCV2021 |重新思考人群中的計數和定比特:一個純粹基於點的框架

CV技術指南 2021-08-15 21:13:57 阅读数:741

本文一共[544]字,预计阅读时长:1分钟~
iccv2021 iccv 重新 思考 人群中

論文:Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework

代碼:github.com/TencentYout…

點個關注 ,專注於計算機視覺的技術總結、最新技術跟踪、經典論文解讀。

前言:

在人群中定比特個體更符合後續高級人群分析任務的實際需求,而不是簡單地計數。然而,現有的基於定比特的方法依賴於作為學習目標的中間錶示(即密度圖或偽框)是違反直覺和容易出錯的。

論文提出了一個純粹基於點的框架,用於聯合人群計數和個體定比特。對於這個框架,論文提出了一個新的度量標准,稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報告圖像級別的絕對計數誤差,以提供更全面和更精確的性能評估。

此外,論文在這個框架下設計了一個直觀的解决方案,稱為點對點網絡(P2PNet)。P2PNet 丟弃了多餘的步驟,直接預測一組point proposals來錶示圖像中的頭部,與人類標注結果一致。通過徹底的分析,論文揭示了實現這種新穎想法的關鍵步驟是為這些proposals分配最佳學習目標。

P2PNet 不僅在流行的計數基准上顯著超越了SOTA方法,而且還實現了有前途的定比特精度。

出發點

  1. 在人群分析的所有相關具體任務中,人群計數是一個基本支柱,旨在估計人群中的個體數量。 然而,簡單地給出一個數字顯然遠遠不能支持後續更高層次的人群分析任務的實際需求,如人群跟踪、活動識別、异常檢測、流量/行為預測等。

  2. 事實上,這個領域有一個明顯的趨勢,即除了簡單的計數之外,更具有挑戰性的細粒度估計(即個體的比特置)。 具體來說,一些方法將人群計數視為頭部檢測問題,但在對小尺度頭部進行勞動密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點注釋的頭部偽邊界框,但這至少看起來很棘手或不准確。 同樣試圖直接定比特個體,有幾種方法在抑制或分裂過近的候選實例時陷入困境,由於頭部尺度的極端變化,特別是對於高度擁擠的區域,它們容易出錯。

  3. 在評估指標方面,一些有遠見的工作鼓勵采用補丁級別的指標進行細粒度評估,但它們僅提供了對定比特的粗略衡量標准。 其他現有的定比特感知指標要麼忽略了人群中的顯著密度變化,要麼缺乏對重複預測的懲罰。

創新思路

  1. 為了解决上述問題,論文提出了一個純粹基於點的框架,用於聯合計數和定比特人群中的個人。 該框架直接使用點標注作為學習目標,同時輸出點來定比特個體,受益於點錶示的高精度定比特特性和相對便宜的標注成本。

  2. 論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標,為定比特和計數錯誤提供綜合評估指標。nAP 指標支持框和點錶示作為輸入(即預測或注釋),沒有上述缺陷。

  3. 作為這個新框架下的直觀解决方案,論文開發了一種新方法來直接預測一組具有圖像中頭部坐標及其置信度的point proposals。具體來說,論文提出了一個點對點網絡 (P2PNet) 來直接接收一組帶標注的頭部點用於訓練,並在推理過程中預測點。

    為了使這樣的想法正確工作,論文深入研究了ground truth target分配過程,以揭示這種關聯的關鍵。結論是,無論是多個proposals 與單個ground truth匹配的情况,還是相反的情况,都會使模型在訓練期間混淆,導致高估或低估計數。

    因此,論文建議通過匈牙利算法進行一對一匹配,將point proposals與其ground truth target相關聯,未匹配的proposals 應歸類為負樣本。憑經驗錶明,這種匹配有利於改進 nAP 指標,作為論文在新框架下解决方案的關鍵組成部分。這種簡單、直觀和高效的設計產生了SOTA的計數性能和有前途的定比特精度。

Methods

Purely Point-based Framework

這裏簡要說明這種新框架的思路。給定一個有N個個體的圖像,用N個點來錶示個體的頭部中心點。網絡輸出兩個東西,一個是預測頭部的中心點P,一個是該中心點的置信度C。目標是使預測點與ground truth盡可能地接近,並有足够高的置信度。

與傳統的計數方法相比,該框架提供的個體比特置有助於那些基於運動的人群分析任務,如人群跟踪、活動識別、异常檢測等 此外,該框架不依賴於勞動密集型標注、不准確的偽框或棘手的後處理,受益於原始點錶示的高精度定比特特性,特別是對於人群中高度擁擠的區域。

因此,這個新框架由於其相對於傳統人群計數的優勢和實用價值而值得更多關注。 然而,由於存在嚴重的遮擋、密度變化和標注錯誤,處理這樣的任務是非常具有挑戰性的 ,這在 [13] 中甚至被認為是理想的但不可行的。

Density Normalized Average Precision

一個預測點 pˆj 只有在它可以匹配到某個ground truth pi 時才被歸類為 TP。 匹配過程由基於像素級歐幾裏德距離的准則 (ˆpj , pi) 指導。 然而,直接使用像素距離來測量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標准引入了密度歸一化,以緩解密度變化問題。

簡單說來就是引入最近鄰K(取3)個點,將它們的距離歸一化。

圖片

用公式錶示如下:

圖片

預測與ground truth匹配方案

圖片

(a) 在為每個ground truth點選擇最近的提議時,多個ground truth點可能與同一個提議匹配,這會導致計數低估。 (b) 在為每個提案選擇最近的ground truth時,多個提案可能會與相同的地面實况點匹配,這會導致高估計數。 (c) 論文通過匈牙利算法進行一對一匹配沒有以上兩個缺陷,因此適合直接點預測。

P2PNet

圖片

P2PNet 的整體架構

建立在 VGG16 之上,它首先引入了一個上采樣路徑來獲得細粒度的深度特征圖。 然後它利用兩個分支同時預測一組點提議及其置信度分數。pipeline中的關鍵步驟是確保point proposals和ground truth點之間的一對一匹配,這决定了這些proposals的學習目標。

loss function如下:

圖片

Conclusion

圖片

圖片

本文來源於公眾號 CV技術指南 的論文分享系列。

歡迎關注公眾號 CV技術指南 ,專注於計算機視覺的技術總結、最新技術跟踪、經典論文解讀。

其它文章

CV技術指南--精華文章匯總分類

計算機視覺中的自注意力

綜述專欄 | 姿態估計綜述

漫談CUDA優化

為什麼GEMM是深度學習的核心

使用深度神經網絡為什麼8比特足够?

經典論文系列--膠囊網絡:新的深度學習網絡

經典論文系列 | 目標檢測--CornerNet & 又名 anchor boxes的缺陷

如何看待人工智能的泡沫

使用Dice loss實現清晰的邊界檢測

PVT--無卷積密集預測的多功能backbone

CVPR2021 | 開放世界的目標檢測

Siamese network總結

視覺目標檢測和識別之過去,現在及可能

在做算法工程師的道路上,你掌握了什麼概念或技術使你感覺自我提昇突飛猛進?

計算機視覺專業術語總結(一)構建計算機視覺的知識體系

欠擬合與過擬合技術總結

歸一化方法總結

論文創新的常見思路總結

CV方向的高效閱讀英文文獻方法總結

計算機視覺中的小樣本學習綜述

知識蒸餾的簡要概述

優化OpenCV視頻的讀取速度

NMS總結

損失函數技術總結

注意力機制技術總結

特征金字塔技術總結

池化技術總結

數據增强方法總結

CNN結構演變總結(一)經典模型

CNN結構演變總結(二)輕量化模型

CNN結構演變總結(三)設計原則

如何看待計算機視覺未來的走向

CNN可視化技術總結(一)特征圖可視化

CNN可視化技術總結(二)卷積核可視化

CNN可視化技術總結(三)類可視化

CNN可視化技術總結(四)可視化工具與項目

版权声明:本文为[CV技術指南]所创,转载请带上原文链接,感谢。 https://gsmany.com/2021/08/20210815211248114e.html