基于人眼視覺規(guī)律的注視點分類及其在圖像標注中的應用

作者：漆正溢方紅萍萬中華張瀚源伍世虔來源：《液晶與顯示》日期：2023-05-29人氣：1323

圖像標注廣泛應用于計算機視覺領域，如物體檢測、識別等［1-4］。傳統(tǒng)圖像標注通常由標注人員手動繪制目標物體邊界框，存在效率低、成本高的問題。據(jù)統(tǒng)計，在Mechanical Turk上對ImageNet進行大規(guī)模標注時，繪制邊界框耗費的時間中位數(shù)為25.5 s。此外，還需要對標注人員進行相關培訓［5-6］。

生物學研究表明，人類的視覺系統(tǒng)存在選擇性注意機制［7］。目前，針對眼動規(guī)律與目標識別關系的相關研究結(jié)果表明，在任務驅(qū)動型眼動過程中，相較于背景，人眼注視點會更多地停留在與任務相關的圖像目標中［8-10］?；谏鲜鲅芯拷Y(jié)果，利用人眼在觀測標注目標過程中的注視點規(guī)律，自動確定目標物體邊界框，能有效提高標注效率，降低標注成本［11-12］。DIMITRIOS P等提出的眼動圖像標注算法［11］就是此類應用領域的一個經(jīng)典算法［13］。該方法將目標標注問題建模為一個目標和背景的分類問題。首先提取眼動注視點和背景分別所在的超像素塊的相關眼動特征和圖像外觀［14］、似物性特征［15］等，構(gòu)建一個支持向量機（Support Vector Machine， SVM）超像素塊分類模型，實現(xiàn)標注目標邊界框的初定位；然后采用似GrabCut能量模型［14］進行目標邊界框精定位。該算法只需使用較少的數(shù)據(jù)（7%）訓練標注模型，標注一幅圖片平均僅需2 s。

標定過程中采集的眼動數(shù)據(jù)中包含標定目標的位置先驗線索，利用這些線索能有效提高后續(xù)標定精度。但是，首先眼動過程中存在的固有抖動和眨動，使眼動數(shù)據(jù)中容易引入噪聲；另外，眼動圖像目標標注這類任務驅(qū)動型眼動過程是一個自底向上和自頂而下相互交互的復雜認知過程［11，16］。研究表明，人眼更容易關注動物、人之類的活動目標，也容易停留在顯著的非目標對象或背景對象上，因此目前提取和標注任務相關的眼動信息仍然是一個研究難點。目前DIMITRIOS P等提出的眼動圖像標注算法利用所有注視點定位標注目標，停留在非目標上的注視點容易引入干擾因素，存在算法精度不高的問題。文獻［10，17］采用熱力圖去除離群點算法提取和識別任務相關的注視點，但是該方法以每一個注視點為中心累加二維高斯函數(shù)，通過設置閾值將離群注視點濾除，未能有效地適應注視點通常以線狀而非球狀呈現(xiàn)這一空間特征，并且高斯函數(shù)計算量大、方差難以確定，因此存在運行效率低、閾值設置困難等問題。另外，這些算法主要應用在目標檢測領域，文獻［10］雖然提到目標標注問題，但是也是以現(xiàn)有圖像目標檢測結(jié)果為基礎，輔助眼動數(shù)據(jù)減少漏標注，與經(jīng)典的DIMITRIOS P眼動圖像標注算法思路不一致。

國內(nèi)已有針對駕駛過程中的注視序列［18-19］以及人機交互過程中的注視序列［20-21］的研究，但均不能適用于圖片標注研究領域。在目標導向、任務驅(qū)動的圖像標注過程中，人眼視覺由“預注意”和“注意”兩個階段組成［22-23］，被稱為人眼視覺的“搜索”和“識別”［16］，前者的凝視點不在目標上，而后者的凝視點在目標上。準確提取眼動識別階段的注視點是提高眼動圖像標注定位精度的關鍵。鑒于此，本文擬從探索圖像目標標注這一任務驅(qū)動下的眼動規(guī)律入手，設計注視點分類模型。首先研究圖像標注過程中眼動注視點在時間、空間維度上的眼動規(guī)律，然后結(jié)合眼動規(guī)律，提出基于參數(shù)自適應的DBSCAN（Density-Based Spatial Clustering of Applications with Noise）［24］算法將人眼注視序列中注視點自動分類為視覺搜索和視覺識別兩個類別，旨在將提取的眼動識別階段注視點作為圖像標注算法的輸入，提高標注精度。

2 搜索和識別兩階段的眼動規(guī)律

為了探究隸屬于視覺識別和視覺搜索階段注視點的規(guī)律，本文選取2014 DIMITRIOS P數(shù)據(jù)集［11，25］當中的包含單目標的圖片開展眼動規(guī)律實驗研究。該數(shù)據(jù)集選取Pascal VOC2012數(shù)據(jù)集中的10類目標，共6 270幅圖片，其中單目標圖片共5 104幅圖。這10類目標分別為貓/狗、自行車/摩托車、飛機/船、牛/馬以及沙發(fā)/餐桌。5位受試者眼動標注過程中的眼動數(shù)據(jù)采用Eyelink 2 000眼動儀采集，采樣頻率為1 000 Hz。眼動數(shù)據(jù)格式用F=(xi,yi,t_starti,t_endi)Ni=1表示，其中x,y表示坐標（單位：像素），t_start,t_end分別記錄為注視點的開始時間戳和結(jié)束時間戳（單位：ms），可通過t_end?t_start計算得到注視點的持續(xù)時間。每個目標的標注真值框由數(shù)據(jù)集提供。圖1為摩托車目標圖像，5位受試者的眼動注視數(shù)據(jù)使用不同顏色繪制，目標標注真值框使用綠色標識。

圖1 數(shù)據(jù)集展示

Fig.1 Data set presentation

下載: 原圖 | 高精圖 | 低精圖

針對標注目標i（1≤i≤10），5位受試者標注過程中的眼動注視點集合為Ui。定義實驗中視覺搜索和視覺識別兩階段注視點的量化判定標準如下：若注視點落在目標物體i的標注真值框B內(nèi)，則屬于視覺識別階段注視點集合Ri，反之屬于視覺搜索階段注視點集合Si，即Ui=Ri?Si。具體如圖2所示。

圖2 視覺搜索-識別階段注視點的量化標準示意圖

Fig.2 Visual search and recognition fixations

下載: 原圖 | 高精圖 | 低精圖

針對10類標注目標，從注視點分布占比率、注視持續(xù)時間、注視空間聚集度3個角度探索兩個視覺階段的眼動規(guī)律。

（1）兩階段注視點分布占比率對比

針對上述10類標注目標，分別計算5位受試者眼動注視點集合Ri、Si中注視點數(shù)目占集合Ui中注視點總數(shù)目的比例：card(Ri)/card(Ui)、card(Si)/card(Ui)。

從圖3所示的計算結(jié)果可知，所有標注目標視覺識別階段的注視點分布占比明顯比視覺搜索階段高，其中8個目標在視覺識別階段的注視點占比甚至超過70%。說明在標注這類任務驅(qū)動的眼動過程中，人類的眼動注視點會明顯分布在標注目標附近。

圖3 不同標注目標的人眼注視點分布情況

Fig.3 Fixations distribution of different objects

下載: 原圖 | 高精圖 | 低精圖

（2）兩階段注視點持續(xù)時間對比

針對標注目標i，將每一幅包含i的圖片當中的人眼注視點歸類于集合Ri和集合Si，并計算兩階段的注視點持續(xù)時間均值。最后分別累加得到集合Ri和集合Si中相應注視點的注視持續(xù)時間，研究二者占集合Ui所有注視點的持續(xù)時間總和的比例。

從圖4可知，在所有類別標注目標過程中，視覺識別階段注視點的注視持續(xù)時間明顯大于視覺搜索階段。標注目標“貓”的視覺識別階段與其視覺搜索階段的注視持續(xù)時間差異最顯著，目標“船”的差異最小，但也有22.8%。所有目標兩階段的持續(xù)時間占比差的平均值為58.5%。

圖4 不同標注目標的搜索-識別階段注視點的持續(xù)時間占比

Fig.4 Proportion of the duration of fixations in the search-recognition of different targets

下載: 原圖 | 高精圖 | 低精圖

（3）兩階段注視點空間聚集度對比

針對視覺識別和視覺搜索兩個階段，分別按照式（1）和（2）計算標注目標i的眼動注視點集合Ri、Si中的眼動注視點空間位置歸一化點密度D(Ri)和D(Si)：

D(Ri)=1Mi∑j=1MiRji/Ujiλji

，（1）

D(Si)=1Mi∑j=1MiSji/Uji1?λji

，（2）

式中：i表示標注目標類別，Mi表示第i類標注目標的圖片總數(shù)，Rji和Sji分別表示第i類目標中第j幅圖片的視覺識別階段注視點集合和視覺搜索階段注視點集合，λji表示第i類物體的第j幅圖片目標框B的面積與圖片面積的比值。

繪制不同類別目標物體的搜索、識別階段歸一化點密度，如圖5所示。視覺識別階段的注視點密度明顯高于視覺搜索階段的注視點密度。

圖5 不同標注目標的搜索-識別階段注視點的歸一化點密度

Fig.5 Normalized point density of fixations in the visual search-recognition of different targets

下載: 原圖 | 高精圖 | 低精圖

綜合上述實驗結(jié)果，可分析得出如下眼動規(guī)律：

（1）在眼動圖像標注這類任務驅(qū)動的眼動過程中，眼動注視點會明顯落在標注目標上。因此以標注者的眼動注視點位置為線索，能較準確地初步定位標注目標位置。

（2）從眼動注視點的時間維度上看，視覺識別階段的注視點總的持續(xù)時間呈現(xiàn)明顯大于視覺搜索階段的趨勢。

（3）從眼動注視點的空間維度上看，視覺識別階段注視點在目標內(nèi)部聚集，視覺搜索階段注視點在標注目標四周稀疏分布。

3 基于眼動規(guī)律的眼動注視點分類

實驗結(jié)果表明：在眼動標注過程中，處于眼動搜索階段和眼動識別階段的注視點在空間聚集度和時間持續(xù)性兩個方面存在明顯的差別。因此本文提出基于眼動注視點空間和時間兩個維度特征的眼動注視點分類方法。在圖6（a）中紅色標識的是該圖片標注過程中一位受試者的所有注視點。為了有效分類注視點，首先在第一階段利用視覺識別階段存在的空間聚集度高的特點，提出基于參數(shù)自適應的DBSCAN密度聚類算法，得到k個候選眼動識別階段注視點集。然后結(jié)合識別階段注視點持續(xù)時間長的特性，篩選出注視總時長最長的集合，將其中所包含的注視點分類為眼動識別注視點。算法流程示意圖和具體算法如圖6和表1所示。

圖6 視覺搜索-識別注視點劃分流程圖。（a）注視序列用紅點標識，藍線相連；（b）、（c）聚類簇由綠色和粉紅色點標識；（d）視覺搜索階段使用紅點標識，視覺識別階段使用黃點標識。

Fig.6 Framework of visual search-recognition fixations classification. （a） Fixation sequence marked with red dots and linked by blue lines；（b），（c） Different clusters marked with green and pink dots individually；（d） Visual search phase and visual recognition phase marked with the red and yellow dots correspondingly.

下載: 原圖 | 高精圖 | 低精圖

表1 視覺搜索-識別注視點劃分算法偽代碼

Tab.1 Visual search-recognition classification pseudocode

算法：視覺搜索與識別注視點分類算法

輸入：圖像I，注視序列F=(xi,yi,t_starti,t_endi)Ni=1，參數(shù)α,β

輸出：視覺識別注視序列R，視覺搜索注視序列S

begin

//獲取自適應參數(shù)

(W,H)=size(I)

Eps=max(W,H)/α

MinPts=N/β

//DBSCAN劃分聚類簇Ck以及離群點集合O

[Ck,O]=DBSCAN(F,Eps,MinPts)

//分類聚類簇，完成劃分

if k==0

R=?

S=F

else if k==1

R=Ck

S=O

else k>1

//Tk表示第k個簇Ck的注視點持續(xù)時間之和

k'=argmaxk=1,2,...kTk

R=Ck'

S=F?Ck'

end

下載: 導出CSV

表1算法中，關鍵的是第一步，即基于空間維度聚集特性的眼動識別階段注視點候選集的確定。傳統(tǒng)的聚類算法如k-means聚類或者高斯混合聚類算法，都是適合球形聚類簇。但是觀察發(fā)現(xiàn)，眼動識別階段的注視點簇不一定滿足該形狀假設。DBSCAN算法［24］是一種基于密度且適應任何形狀簇的經(jīng)典聚類算法，同時只需要迭代一次，具有聚類速度快的特點。但是算法中的兩個重要參數(shù)鄰域半徑Eps和鄰域密度閾值MinPts的設置對算法的執(zhí)行效果影響較大。本文結(jié)合標注任務特點，通過分析發(fā)現(xiàn)了參數(shù)的如下特點：

（1）目標標注問題中聚類簇的鄰域半徑Eps與標注目標的尺寸有較明確的對應關系。觀察發(fā)現(xiàn)，標注目標尺寸占標注圖片總尺寸的比例主要分布在5%~50%左右，因此定義Eps參數(shù)取值公式如公式（3）所示：

Eps=max(W,H)α

，（3）

式中：(W,H)表示標注圖像I的寬度和高度，α取值可選范圍大致在3~7。

（2）鄰域密度閾值MinPts與停留在標注目標上的平均注視點數(shù)量有關。統(tǒng)計分析發(fā)現(xiàn)，數(shù)據(jù)集中標注目標上的注視點數(shù)目占注視點總數(shù)比例分布在12.7%~29.3%之間?；诖耍xMinPts參數(shù)取值公式如式（4）所示：

MinPts=Nβ

. （4）

其中：N表示當前標注圖像I中的注視點總數(shù)目，β可取值范圍大致在3~10。

圖7繪制了α、β取不同值時，眼動注視點分類的查準率指標結(jié)果。從圖7可知，分類準確率對參數(shù)α的敏感程度更高，當α取7、β在3~10之間時，查準率基本穩(wěn)定在0.65~0.66之間。當β取5時，查準率相對最高。因此，自適應參數(shù)設置為α=7,β=5。

圖7 參數(shù)取值情況

Fig.7 Parameter value situation

下載: 原圖 | 高精圖 | 低精圖

4 實驗與分析

本文針對標注過程中的眼動序列，結(jié)合眼動規(guī)律提出算法將包含的眼動注視點分類到對應的搜索階段和識別階段。本節(jié)將首先圍繞算法分類性能、算法執(zhí)行效率兩個方面開展對比分析，然后驗證本文算法對提高眼動圖像標注精度的有效性。

實驗數(shù)據(jù)集：2014 DIMITRIOS P公共眼動數(shù)據(jù)集（10類目標，目標物體占整幅圖片比小于30%，單目標圖片共1 962幅），訓練集和測試集比例為1∶9。

實驗硬件環(huán)境：第4代Intel Core i5 （3.3 GHz）；8GB內(nèi)存；256 GB SSD；Matlab R2018b；操作系統(tǒng)為Win10 專業(yè)版。

4.1　視覺搜索和識別注視點分類相關實驗與分析

4.1.1　眼動注視點分類性能評估

本文提出將受試者眼動序列中的注視點分為視覺搜索和識別兩個階段，這個過程可看作一個二分類問題。因此，采用機器學習常用的查準率P、查全率R和F1度量分數(shù)來評估算法的分類性能，其中F1度量計算如式（5）所示：

F1=2×P×RP+R

. （5）

計算熱圖（Heatmap）算法［17］、基于固定參數(shù)的本文算法（DBSCAN）和基于自適應參數(shù)的本文算法（Adaptive-DBSCAN）3種方法的查準率P、查全率R和F1度量分數(shù)。其中，Heatmap算法使用自適應閾值，設置thr=mean(T)/12，T表示圖片內(nèi)注視點的注視持續(xù)時間之和；DBSCAN算法的參數(shù)設置為MinPts=2，Eps=65；本文的Adaptive-DBSCAN算法自適應參數(shù)設置為α=7,β=5。計算結(jié)果如表2所示。

表2 眼動注視點分類結(jié)果對比

Tab.2 Comparison of the classification results of eye movement fixation points

方法 P R F1

Heatmap 0.61 0.876 0.71

DBSCAN 0.65 0.74 0.69

Adaptive-DBSCAN 0.65 0.881 0.75

下載: 導出CSV

從表2結(jié)果可知，DBSCAN方法相對于Heatmap方法，僅在查準率方面有提升，但卻影響了查全率R和F1度量分數(shù)。而本文提出的Adaptive-DBSCAN算法在查準率、查全率和F1度量分數(shù)均高于Heatmap算法。圖8給出了本文算法對標注過程中眼動注視點的分類結(jié)果。從圖8可以看出當注視序列符合“識別階段注視序列聚集，搜索階段注視序列離散”和“視覺識別階段的注視持續(xù)時間比視覺搜索階段的注視持續(xù)時間長”這兩條規(guī)律時，本文算法性能表現(xiàn)良好。另外，圖8（b）繪制了圖片中有顯著物體的情況，此時只要滿足上述的兩條規(guī)律，算法的輸出結(jié)果依然較好。

圖8 視覺搜索-識別注視序列劃分算法的結(jié)果。（a）常規(guī)情況；（b）含有顯著物體的情況。

Fig.8 Results of visual search-recognition classification. （a） Normal situation；（b） Situation containing visual attention objects.

下載: 原圖 | 高精圖 | 低精圖

4.1.2　算法執(zhí)行效率對比

從表3可知，本文算法的運行速度明顯優(yōu)于Heatmap算法。Heatmap算法是由高斯函數(shù)累加，運行速度與注視序列的數(shù)量成正比，每一個注視點都需要進行一次二維高斯函數(shù)的計算，極大地影響了算法的運行速度。而本文基于空間特征聚類，無需反復進行高斯函數(shù)累加，因此運行速度有較大的改善。

表3 算法的整體運行速度

Tab.3 Overall running speed of the algorithm

方法運行時間/s

本文Adaptive-DBSCAN算法 24.16

Heatmap算法 47.21

下載: 導出CSV

4.2　眼動圖像標注精度對比

利用眼動數(shù)據(jù)標注圖像的方法的研究目前還處于初級階段，DIMITRIOS P等［11］提出的眼動圖像標注算法是一個非常經(jīng)典的算法。因此，為了驗證本文算法對提高眼動圖像標注精度的可行性和有效性，本實驗將以該算法為基礎對比以下3種方法的圖像標注精度：（1）復現(xiàn)的DIMITRIOS P圖像標注算法（DIMITRIOS P）；（2）基于熱力圖過濾離群點的圖像標注算法（Heatmap-Annotation）；（3）基于本文方法提取眼動識別階段注視點的圖像標注方法（Ours）。為了比較結(jié)果的客觀性，這3種方法僅在眼動序列輸入的選擇上采取不同策略，后續(xù)的圖像標注過程均保持一致。DIMITRIOS P算法未開源，因此復現(xiàn)該算法的初分割部分作為本文標注算法的基線。其中似物性特征使用BING算法［26］構(gòu)建。

精度評估指標CorLoc［11，27］的計算公式如式（6）所示：

CorLoc=mn

，（6）

式中：n為預測的物體框總數(shù)，m為標注結(jié)果與目標真值框重疊率大于0.5目標總數(shù)。

針對數(shù)據(jù)集中的10種標注目標，上述3種方法標注結(jié)果的CorLoc精度指標計算結(jié)果如表4所示。原始DIMITRIOS P算法基于標注過程中所有的眼動注視點，而實際情況中這些注視點有一部分可能停留在背景或者顯著非目標上，因此容易造成標注目標定位不準確的問題。從表4中可以明顯看到，10種目標中除了“牛”和本文算法相等、“狗”高于本文算法之外，標注指標均明顯低于Heatmap-Annotation或者本文算法。實驗結(jié)果說明在眼動標注過程中，選擇與標注物體相關的眼動注視點進行后續(xù)標注目標位置的初定位能提高標注精度，證明了文本研究思路的有效性和可行性。比較Heatmap-Annotation算法和本文算法的標注結(jié)果，本文方法7種目標的標注精度明顯比Heatmap-Annotation方法高，精度指標的平均值高于Heatmap-Annotation。本文算法相較于DIMITRIOS P算法和Heatmap-Annotation算法分別平均提高了3.34%和1.02%，能更準確地定位標注目標。圖9展示了部分目標的標注結(jié)果圖。

表4 眼動圖像標注精度指標CorLoc結(jié)果

Tab.4 Eye movement image annotation accuracy index CorLoc results

飛機自行車船貓牛餐桌狗馬摩托車沙發(fā) 均值

DIMITRIOS P 52.5 7.5 16.5 39.7 34.9 23.3 31.0 35.5 30.5 21.3 29.27

Heatmap-Annotation 52.8 29.1 18.7 37.6 30.3 23.3 32.4 28.0 38.0 25.7 31.59

Ours 55.9 21.2 20.3 40.2 34.9 24.7 30.8 38.3 33.3 26.5 32.61

下載: 導出CSV

圖9 眼動圖像標注算法的輸出結(jié)果對比圖。（a）~（c）飛機標注圖；（d）~（f）自行車標注圖；（g）沙發(fā)標注圖。

Fig.9 Comparison of the output results of the eye movement image annotation. （a）~（c） Aeroplane；（d）~（f） Bicycle；（g） Sofa.

下載: 原圖 | 高精圖 | 低精圖

5 結(jié) 論

眼動圖像標注算法以標注序列中的所有人眼注視點為輸入實現(xiàn)目標框標注，然而注視點并非都是等權(quán)重的，未落在目標物體上的注視點會為標注算法引入目標定位干擾因素，降低算法性能。

鑒于此，本文結(jié)合目標標注任務中的眼動特點，提出將注視點分類為視覺搜索和視覺識別兩大類，首先探究了兩個階段注視點在時間維度和空間維度上的眼動規(guī)律，然后結(jié)合眼動規(guī)律提出基于參數(shù)自適應的DBSCAN算法的注視點分類方法。實驗結(jié)果表明，該方法能有效提取和標注目標相關的視覺識別注視點，提高目標標注精度，同時算法運行穩(wěn)定，執(zhí)行效率高。

目前我們僅考慮利用眼動規(guī)律實現(xiàn)兩個階段注視點的分類，對于標注目標大、停留其中的注視點空間聚集度不明顯的注視點，分類還不夠準確。另外在多目標聚集的情況下，多標注目標注視點的提取也比較困難。針對上述問題，在本文現(xiàn)有Adaptive-DBSCAN算法聚類特征僅為注視點眼動特征的基礎上，如何融合注視點所在超像素塊圖像特征（如紋理、顏色、邊緣等），提高大目標、多目標聚集時的圖像目標標注精度將是下一步的研究重點。

關鍵字：論文篇論文發(fā)表咨詢圖像論文

上一篇：基于迭代剪枝VGGNet的火星圖像分類
下一篇：結(jié)合SML與差分圖像的多聚焦圖像融合算法

欄目分類

熱門排行

推薦信息

期刊知識