北京大學人工智能研究院朱毅鑫合作者在提升機器人指向型手勢理解能力方向取得研究進展
近日,北京大學人工智能研究院朱毅鑫助理教授及合作者在ICLR發(fā)表論文,題為“Understanding Embodied Reference with Touch-Line Transformer”,該研究改變了之前計算機視覺和機器人中對指向的理解,通過學習起源于觸摸的指向型手勢,使機器人更好地和人類交互。
當機器人與人類交互時,許多機器人很難確定人在指什么,因為大多數現代學習算法在理解人的指向性手勢時不能很好地同時考慮手勢和語言。盡管先前的工作(Chen et al.,2021)嘗試了讓算法明確地考慮人的姿勢和人的語言,機器人仍然只能在14%的情況下準確定位(IoU>= 0.75)人指的物體。影響上述模型表現的一個可能的因素是沒有很好地建模人的指向性手勢?,F代計算機視覺中人體姿勢表示由COCO(Lin et al.,2014)定義:一個由 17 個節(jié)點(關鍵點)和14個邊(關鍵點連線)組成的圖。COCO的人體姿勢表示包括肘部和腕部的連線,但不包括眼睛到指尖的連線。以圖1為例,使用COCO人體姿勢表示可以得到紅色的線(肘腕線),但是不能得到綠色的線(觸摸線)。
圖1 所指物體(??框內微波爐)在觸摸線(綠?)上,不在肘腕線(紅?)上
人類對指向性手勢存在一個常見的誤解(Herbort & Kunde, 2018):許多人錯誤地認為被指的物體在紅色的肘腕線上。以圖1為例,許多人會錯誤地依靠紅色的肘腕線來定位被指的物體,從而錯誤地認為被指的物體是冰箱。使用如圖1中所示的紅色肘腕線來定位被指物體是有根本錯誤的,而這也是之前所有計算方法所使用的定位原則。
經過大量的觀察,課題組發(fā)現綠色的觸摸線(眼睛到指尖的連線)能夠更好地表示被指物體的方向。圖1中的人實際指的物體是黃色框中的微波爐(因為他指的同時說了“微波爐”)。圖中的綠色的觸摸線穿過了微波爐的中心,很準確地表示了所指物體的方向。因此,使用觸摸線可以幫助人們更準確地定位被指的物體。
發(fā)表于Science Advances的一項心理學研究 (O’Madagain et al., 2019) 很好地佐證了上述的觸摸線能幫人們更準確定位被指物體這一觀點。該心理學研究發(fā)現觸摸線能更準確地反映被指物體的方向,并且提出了人們的“指向性手勢源于觸摸”。
受到觸摸線比肘腕線更準確這一基本觀察的啟發(fā),課題組希望讓機器人學習這個起源于觸摸的指向性手勢,從而更好地與人類交互。因此,課題組連接了眼睛和指尖,從而擴充了現有的 COCO人體姿勢表示。課題組的實驗結果表明讓模型學習觸摸線能夠顯著提高理解人類指向性手勢時的準確性。
為此,本文構建了一個包含多模態(tài)編碼器和Transformer解碼器的框架、使用余弦相似度來衡量物體和觸摸線之間的共線性、并使用一個referent alignment loss來鼓勵模型預測出和觸摸線具有較高共線性的所指物體。
在0.25、0.50和0.75的IoU閾值下,課題組的方法分別優(yōu)于現有的最先進方法16.4%、23.0% 和 25.0%(表1)。具體來說,課題組的模型比沒有明確利用非語言手勢信號的visual grounding 方法(Yang et al.,2019;2020) 表現更好。課題組的方法也比YouRefIt (Chen et al.,2021)中提出的方法表現更好,后者沒有利用觸摸線或transformer模型來完成多模態(tài)任務。
表1 與state-of-the-art方法的比較
同時,課題組比較了讓模型明確預測觸摸線、明確預測肘腕線、和不預測任何手勢信號的三種模型的表現??偟膩碚f,在所有三個IoU閾值下,訓練來預測觸摸線的模型比訓練來預測肘腕線的模型表現更好(表2)。在 0.75的IoU閾值下,經過訓練可以明確預測肘腕線的模型比沒有經過訓練可以明確預測任何手勢信號的模型表現更差。
表2 預測觸摸線的模型和預測肘腕線模型的比較
(None:不明確預測觸摸線或肘腕線;EWL:明確預測肘腕線;VTL:明確預測觸摸線)
我們的定性結果也顯示學習預測觸摸線的模型在很多情況下比學習預測肘腕線的模型表現更好(圖2)。
圖2: 定性結果:學習預測觸摸線的模型在很多情況下表現更好
課題組提出讓計算模型學習觸摸線從而更好地理解人類的指向性手勢。課題組的模型將視覺和文本特征作為輸入,同時預測指示對象的邊界框和觸摸線向量。利用觸摸線先驗,課題組進一步設計了一種幾何一致性損失函數,鼓勵所指物體和觸摸線之間的共線性。學習觸摸線可以顯著提高模型性能。在YouRefIt數據集上進行的實驗表明,課題組的方法在0.75IoU標準下實現了+25.0%的精度提升,縮小了計算模型與人類表現之間63.6%的差距。此外,課題組通過計算模型驗證了此前的人類實驗的結果:課題組證明了計算模型在學習觸摸線時比學習肘腕線時能更好地定位所指物體。
本文的通訊作者是清華大學智能產業(yè)研究院的李陽、助理教授趙昊、朱毅鑫。其他作者包括加州圣地亞哥分校副教授Federico Rossano、清華大學智能產業(yè)研究院的李陽、陳小雪、龔江濤、周谷越。
參考文獻
[1] Yixin Chen, Qing Li, Deqian Kong, YikLun Kei, Song-Chun Zhu, Tao Gao, Yixin Zhu, and Siyuan Huang. Youre?t: Embodied reference understanding with language and gesture. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 1385–1395, 2021. 1, 2, 5, 6, 9, 10
[2] Tsung-YiLin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision (ECCV), 2014. 2
[3] Oliver Herbort and Wilfried Kunde. How to point and to interpret pointing gestures? instructions can reduce pointer–observer misunderstandings. Psychological Research, 82(2):395–406, 2018. 2, 3
[4] Cathal O’Madagain, Gregor Kachel, and Brent Strickland. The origin of pointing: Evidence for the touch hypothesis. Science Advances, 5(7): eaav2558, 2019. 2
[5] Zhengyuan Yang, Boqing Gong, Liwei Wang, Wenbing Huang, Dong Yu, and Jiebo Luo. A fast and accurate one-stage approach to visual grounding. In International Conference on Computer Vision (ICCV), 2019. 6, 10
[6] Zhengyuan Yang, Tianlang Chen, Liwei Wang, and Jiebo Luo. Improving one-stage visual grounding by recursive sub-query construction. In European Conference on Computer Vision (ECCV), 2020. 6, 10
來源:北京大學


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。