近日,北京大學(xué)人工智能研究院朱毅鑫助理教授及合作者在ICLR發(fā)表論文,題為“Understanding Embodied Reference with Touch-Line Transformer”,該研究改變了之前計(jì)算機(jī)視覺(jué)和機(jī)器人中對(duì)指向的理解,通過(guò)學(xué)習(xí)起源于觸摸的指向型手勢(shì),使機(jī)器人更好地和人類(lèi)交互。

當(dāng)機(jī)器人與人類(lèi)交互時(shí),許多機(jī)器人很難確定人在指什么,因?yàn)榇蠖鄶?shù)現(xiàn)代學(xué)習(xí)算法在理解人的指向性手勢(shì)時(shí)不能很好地同時(shí)考慮手勢(shì)和語(yǔ)言。盡管先前的工作(Chen et al.,2021)嘗試了讓算法明確地考慮人的姿勢(shì)和人的語(yǔ)言,機(jī)器人仍然只能在14%的情況下準(zhǔn)確定位(IoU>= 0.75)人指的物體。影響上述模型表現(xiàn)的一個(gè)可能的因素是沒(méi)有很好地建模人的指向性手勢(shì)?,F(xiàn)代計(jì)算機(jī)視覺(jué)中人體姿勢(shì)表示由COCO(Lin et al.,2014)定義:一個(gè)由 17 個(gè)節(jié)點(diǎn)(關(guān)鍵點(diǎn))和14個(gè)邊(關(guān)鍵點(diǎn)連線(xiàn))組成的圖。COCO的人體姿勢(shì)表示包括肘部和腕部的連線(xiàn),但不包括眼睛到指尖的連線(xiàn)。以圖1為例,使用COCO人體姿勢(shì)表示可以得到紅色的線(xiàn)(肘腕線(xiàn)),但是不能得到綠色的線(xiàn)(觸摸線(xiàn))。

北京大學(xué)人工智能研究院朱毅鑫合作者在提升機(jī)器人指向型手勢(shì)理解能力方向取得研究進(jìn)展-肽度TIMEDOO

圖1 所指物體(??框內(nèi)微波爐)在觸摸線(xiàn)(綠?)上,不在肘腕線(xiàn)(紅?)上

人類(lèi)對(duì)指向性手勢(shì)存在一個(gè)常見(jiàn)的誤解(Herbort & Kunde, 2018):許多人錯(cuò)誤地認(rèn)為被指的物體在紅色的肘腕線(xiàn)上。以圖1為例,許多人會(huì)錯(cuò)誤地依靠紅色的肘腕線(xiàn)來(lái)定位被指的物體,從而錯(cuò)誤地認(rèn)為被指的物體是冰箱。使用如圖1中所示的紅色肘腕線(xiàn)來(lái)定位被指物體是有根本錯(cuò)誤的,而這也是之前所有計(jì)算方法所使用的定位原則。

經(jīng)過(guò)大量的觀(guān)察,課題組發(fā)現(xiàn)綠色的觸摸線(xiàn)(眼睛到指尖的連線(xiàn))能夠更好地表示被指物體的方向。圖1中的人實(shí)際指的物體是黃色框中的微波爐(因?yàn)樗傅耐瑫r(shí)說(shuō)了“微波爐”)。圖中的綠色的觸摸線(xiàn)穿過(guò)了微波爐的中心,很準(zhǔn)確地表示了所指物體的方向。因此,使用觸摸線(xiàn)可以幫助人們更準(zhǔn)確地定位被指的物體。

發(fā)表于Science Advances的一項(xiàng)心理學(xué)研究 (O’Madagain et al., 2019) 很好地佐證了上述的觸摸線(xiàn)能幫人們更準(zhǔn)確定位被指物體這一觀(guān)點(diǎn)。該心理學(xué)研究發(fā)現(xiàn)觸摸線(xiàn)能更準(zhǔn)確地反映被指物體的方向,并且提出了人們的“指向性手勢(shì)源于觸摸”。

受到觸摸線(xiàn)比肘腕線(xiàn)更準(zhǔn)確這一基本觀(guān)察的啟發(fā),課題組希望讓機(jī)器人學(xué)習(xí)這個(gè)起源于觸摸的指向性手勢(shì),從而更好地與人類(lèi)交互。因此,課題組連接了眼睛和指尖,從而擴(kuò)充了現(xiàn)有的 COCO人體姿勢(shì)表示。課題組的實(shí)驗(yàn)結(jié)果表明讓模型學(xué)習(xí)觸摸線(xiàn)能夠顯著提高理解人類(lèi)指向性手勢(shì)時(shí)的準(zhǔn)確性。

為此,本文構(gòu)建了一個(gè)包含多模態(tài)編碼器和Transformer解碼器的框架、使用余弦相似度來(lái)衡量物體和觸摸線(xiàn)之間的共線(xiàn)性、并使用一個(gè)referent alignment loss來(lái)鼓勵(lì)模型預(yù)測(cè)出和觸摸線(xiàn)具有較高共線(xiàn)性的所指物體。

在0.25、0.50和0.75的IoU閾值下,課題組的方法分別優(yōu)于現(xiàn)有的最先進(jìn)方法16.4%、23.0% 和 25.0%(表1)。具體來(lái)說(shuō),課題組的模型比沒(méi)有明確利用非語(yǔ)言手勢(shì)信號(hào)的visual grounding 方法(Yang et al.,2019;2020) 表現(xiàn)更好。課題組的方法也比YouRefIt (Chen et al.,2021)中提出的方法表現(xiàn)更好,后者沒(méi)有利用觸摸線(xiàn)或transformer模型來(lái)完成多模態(tài)任務(wù)。

北京大學(xué)人工智能研究院朱毅鑫合作者在提升機(jī)器人指向型手勢(shì)理解能力方向取得研究進(jìn)展-肽度TIMEDOO

表1 與state-of-the-art方法的比較

同時(shí),課題組比較了讓模型明確預(yù)測(cè)觸摸線(xiàn)、明確預(yù)測(cè)肘腕線(xiàn)、和不預(yù)測(cè)任何手勢(shì)信號(hào)的三種模型的表現(xiàn)??偟膩?lái)說(shuō),在所有三個(gè)IoU閾值下,訓(xùn)練來(lái)預(yù)測(cè)觸摸線(xiàn)的模型比訓(xùn)練來(lái)預(yù)測(cè)肘腕線(xiàn)的模型表現(xiàn)更好(表2)。在 0.75的IoU閾值下,經(jīng)過(guò)訓(xùn)練可以明確預(yù)測(cè)肘腕線(xiàn)的模型比沒(méi)有經(jīng)過(guò)訓(xùn)練可以明確預(yù)測(cè)任何手勢(shì)信號(hào)的模型表現(xiàn)更差。

北京大學(xué)人工智能研究院朱毅鑫合作者在提升機(jī)器人指向型手勢(shì)理解能力方向取得研究進(jìn)展-肽度TIMEDOO

表2 預(yù)測(cè)觸摸線(xiàn)的模型和預(yù)測(cè)肘腕線(xiàn)模型的比較

(None:不明確預(yù)測(cè)觸摸線(xiàn)或肘腕線(xiàn);EWL:明確預(yù)測(cè)肘腕線(xiàn);VTL:明確預(yù)測(cè)觸摸線(xiàn))

我們的定性結(jié)果也顯示學(xué)習(xí)預(yù)測(cè)觸摸線(xiàn)的模型在很多情況下比學(xué)習(xí)預(yù)測(cè)肘腕線(xiàn)的模型表現(xiàn)更好(圖2)。

北京大學(xué)人工智能研究院朱毅鑫合作者在提升機(jī)器人指向型手勢(shì)理解能力方向取得研究進(jìn)展-肽度TIMEDOO

圖2: 定性結(jié)果:學(xué)習(xí)預(yù)測(cè)觸摸線(xiàn)的模型在很多情況下表現(xiàn)更好

課題組提出讓計(jì)算模型學(xué)習(xí)觸摸線(xiàn)從而更好地理解人類(lèi)的指向性手勢(shì)。課題組的模型將視覺(jué)和文本特征作為輸入,同時(shí)預(yù)測(cè)指示對(duì)象的邊界框和觸摸線(xiàn)向量。利用觸摸線(xiàn)先驗(yàn),課題組進(jìn)一步設(shè)計(jì)了一種幾何一致性損失函數(shù),鼓勵(lì)所指物體和觸摸線(xiàn)之間的共線(xiàn)性。學(xué)習(xí)觸摸線(xiàn)可以顯著提高模型性能。在YouRefIt數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,課題組的方法在0.75IoU標(biāo)準(zhǔn)下實(shí)現(xiàn)了+25.0%的精度提升,縮小了計(jì)算模型與人類(lèi)表現(xiàn)之間63.6%的差距。此外,課題組通過(guò)計(jì)算模型驗(yàn)證了此前的人類(lèi)實(shí)驗(yàn)的結(jié)果:課題組證明了計(jì)算模型在學(xué)習(xí)觸摸線(xiàn)時(shí)比學(xué)習(xí)肘腕線(xiàn)時(shí)能更好地定位所指物體。

本文的通訊作者是清華大學(xué)智能產(chǎn)業(yè)研究院的李陽(yáng)、助理教授趙昊、朱毅鑫。其他作者包括加州圣地亞哥分校副教授Federico Rossano、清華大學(xué)智能產(chǎn)業(yè)研究院的李陽(yáng)、陳小雪、龔江濤、周谷越。

參考文獻(xiàn)

[1] Yixin Chen, Qing Li, Deqian Kong, YikLun Kei, Song-Chun Zhu, Tao Gao, Yixin Zhu, and Siyuan Huang. Youre?t: Embodied reference understanding with language and gesture. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 1385–1395, 2021. 1, 2, 5, 6, 9, 10

[2] Tsung-YiLin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision (ECCV), 2014. 2

[3] Oliver Herbort and Wilfried Kunde. How to point and to interpret pointing gestures? instructions can reduce pointer–observer misunderstandings. Psychological Research, 82(2):395–406, 2018. 2, 3

[4] Cathal O’Madagain, Gregor Kachel, and Brent Strickland. The origin of pointing: Evidence for the touch hypothesis. Science Advances, 5(7): eaav2558, 2019. 2

[5] Zhengyuan Yang, Boqing Gong, Liwei Wang, Wenbing Huang, Dong Yu, and Jiebo Luo. A fast and accurate one-stage approach to visual grounding. In International Conference on Computer Vision (ICCV), 2019. 6, 10

[6] Zhengyuan Yang, Tianlang Chen, Liwei Wang, and Jiebo Luo. Improving one-stage visual grounding by recursive sub-query construction. In European Conference on Computer Vision (ECCV), 2020. 6, 10

來(lái)源:北京大學(xué)