近日,清華大學(xué)醫(yī)學(xué)院生物醫(yī)學(xué)工程系國家特聘專家廖洪恩教授課題組學(xué)術(shù)論文“OANet:基于層次結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)兩視圖幾何匹配關(guān)系建立”(OANet: Learning Two-View Correspondences and Geometry Using Order-Aware Network)被國際電氣電子工程師學(xué)會-模式分析與機(jī)器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI)出版,刊登在2022年第44期第6卷。該研究通過設(shè)計一個新的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對兩視圖的初步匹配關(guān)系進(jìn)行誤匹配識別和剔除,取得了很好的結(jié)果,極大提升了三維重建任務(wù)的效果。IEEE TPAMI是人工智能領(lǐng)域公認(rèn)的最頂級的期刊之一,也是中國計算機(jī)學(xué)會認(rèn)定的人工智能領(lǐng)域A類期刊之一。

清華大學(xué)醫(yī)學(xué)院廖洪恩課題組在人工智能視覺三維重建方面取得重要進(jìn)展-肽度TIMEDOO

圖1. 本研究提出的OA-Net網(wǎng)絡(luò)結(jié)構(gòu)

我們生活在一個三維的世界中,三維信息對于我們的感知和理解這個世界至關(guān)重要。從二維顯示中獲得深度信息可以更好地實(shí)現(xiàn)人機(jī)交互;獲取和處理實(shí)時三維路況信息是自動駕駛技術(shù)的關(guān)鍵;醫(yī)生在手術(shù)場景中獲取三維信息可以更精確地識別和處理病灶位置……獲取、恢復(fù)和重建三維信息,是計算機(jī)視覺領(lǐng)域的核心研究內(nèi)容,在工業(yè)、娛樂、教育、醫(yī)療等領(lǐng)域有著廣泛應(yīng)用前景。

兩視圖幾何是三維重建的基礎(chǔ)。在兩幅相關(guān)圖片中找到對應(yīng)于同一三維點(diǎn)的二維特征點(diǎn),即建立匹配關(guān)系,可以計算出位姿變換和三維點(diǎn)坐標(biāo),這是許多三維重建任務(wù)的基礎(chǔ)步驟,比如運(yùn)動恢復(fù)結(jié)構(gòu)(structure from motion, SFM),同時定位與地圖構(gòu)建(simultaneous localization and mapping,SLAM)等。一般通過對提取到的特征點(diǎn)建立描述符,然后根據(jù)最近鄰關(guān)系進(jìn)行初步匹配。這樣得到的匹配關(guān)系存在大量的誤匹配(可能高達(dá)95%),因此需要識別并剔除錯誤匹配(outlier rejection)。傳統(tǒng)的方法是基于隨機(jī)一致性采樣(RANSAC),但是在視角變換大、亮度變換劇烈、存在遮擋等情況中無法取得滿意效果。因此,如何更好地識別和剔除誤匹配成為了三維重建中的瓶頸任務(wù)。

廖洪恩課題組提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)OANet(Order-Aware Network,圖1)實(shí)現(xiàn)了對誤匹配的高效識別和剔除。該網(wǎng)絡(luò)以初始建立的匹配點(diǎn)對為輸入,輸出每對點(diǎn)對是正確匹配的概率。由于輸入點(diǎn)對沒有順序關(guān)系,無法應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),本研究從圖卷積中的池化操作得到啟發(fā),以多層神經(jīng)網(wǎng)絡(luò)為基本結(jié)構(gòu),設(shè)計了差異化池化層(Differentiable Pooling layer)模塊(圖2左),通過訓(xùn)練得到一個分配矩陣(assignment matrix),將該矩陣和輸入點(diǎn)對矩陣相乘,實(shí)現(xiàn)對輸入點(diǎn)對的聚類(cluster)。文中證明,這樣得到的聚類是輸入不變的(permutation-equivariant),即無論輸入點(diǎn)對是以什么順序進(jìn)入網(wǎng)絡(luò),得到的聚類順序是不變的,這樣通過網(wǎng)絡(luò)學(xué)習(xí)到了輸入點(diǎn)對的內(nèi)在結(jié)構(gòu)。為了使得網(wǎng)絡(luò)能對每個輸入點(diǎn)對都進(jìn)行分類,又設(shè)計了差異化反池化層(Differentiable Unpooling Layer)模塊(圖2右),通過學(xué)習(xí)到一個反池化分配矩陣(unpooling assignment matrix),將聚類反投影成為與輸入點(diǎn)對一一對應(yīng)的輸出結(jié)構(gòu)。利用新的池化和反池化操作,可以構(gòu)建層次化的圖神經(jīng)網(wǎng)絡(luò),從而極大地提升了基于多層神經(jīng)網(wǎng)絡(luò)的圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,并保持了O(N)的復(fù)雜度。網(wǎng)絡(luò)最終為每個輸入點(diǎn)對都被分配了一個概率,表示是否為正確匹配,以這個概率加權(quán)的八點(diǎn)法得到的兩視圖基本矩陣作為損失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在應(yīng)用階段,剔除掉低概率的點(diǎn)對,就能實(shí)現(xiàn)對匹配的識別和過濾。

清華大學(xué)醫(yī)學(xué)院廖洪恩課題組在人工智能視覺三維重建方面取得重要進(jìn)展-肽度TIMEDOO清華大學(xué)醫(yī)學(xué)院廖洪恩課題組在人工智能視覺三維重建方面取得重要進(jìn)展-肽度TIMEDOO

圖2. 左:差異化池化層(Differentiable Pooling layer)模塊;右:差異化反池化層(Differentiable Unpooling Layer)模塊

本研究使用該網(wǎng)絡(luò)結(jié)構(gòu)在多個任務(wù)中進(jìn)行了實(shí)驗(yàn),包括:室內(nèi)室外數(shù)據(jù)集上的位姿估計任務(wù)、運(yùn)動恢復(fù)結(jié)構(gòu)任務(wù)、視覺定位任務(wù),都極大提升了重建精度,并超越了同時期其他算(圖3)法。相關(guān)的研究方法曾在IEEE國際計算機(jī)視覺與模式識別會議(CVPR 2019)圖像匹配比賽中取得了第一名,并在視覺定位任務(wù)中也取得了最優(yōu)(state-of-the-art)。本研究提出的網(wǎng)絡(luò)結(jié)構(gòu)通用性好,對特征點(diǎn)提取等步驟沒有限制。匹配點(diǎn)對的內(nèi)在結(jié)構(gòu)和是否是正確匹配由網(wǎng)絡(luò)訓(xùn)練得到,無需人工定義,可以非常方便地在特定任務(wù)中“即插即用”(Plug-and-Play)。本研究還對網(wǎng)絡(luò)的泛化性進(jìn)行了實(shí)驗(yàn),結(jié)果表明提出的網(wǎng)絡(luò)泛化性好,有遷移到其他非自然圖像場景的應(yīng)用潛力。

清華大學(xué)醫(yī)學(xué)院廖洪恩課題組在人工智能視覺三維重建方面取得重要進(jìn)展-肽度TIMEDOO

圖3. 在室內(nèi)室外位姿估計任務(wù)中和其他方法對比,最下一行是本研究提出的方法

清華大學(xué)醫(yī)學(xué)院教授廖洪恩是該研究的通訊作者,博士畢業(yè)生張家輝為該研究的共同第一作者,合作者為香港科技大學(xué)權(quán)龍教授團(tuán)隊。該研究得到國家自然科學(xué)基金項(xiàng)目國家重大科研儀器研制項(xiàng)目、國家重點(diǎn)研發(fā)計劃重點(diǎn)專項(xiàng)、北京市自然科學(xué)基金等項(xiàng)目支持。

廖洪恩課題組長期致力于三維醫(yī)學(xué)影像和微創(chuàng)精準(zhǔn)診療的研究,依據(jù)臨床手術(shù)過程中的實(shí)時信息指引,以實(shí)施精密治療從而提高治愈率和患者的生存質(zhì)量(Quality of Life)為目的,致力于創(chuàng)建和推廣一種以增強(qiáng)現(xiàn)實(shí)醫(yī)學(xué)影像顯示技術(shù)和智能微創(chuàng)器械為診斷和治療平臺的精準(zhǔn)微創(chuàng)診療一體化模式。課題組先后提出了基于術(shù)前術(shù)中多模態(tài)信息融合分析實(shí)時診療引導(dǎo)、智能型微創(chuàng)手術(shù)機(jī)器人輔助精準(zhǔn)診療等理論與系統(tǒng),為針對復(fù)雜外科疾病的跨尺度多模態(tài)成像引導(dǎo)智能化診療理論的建立奠定了堅實(shí)的基礎(chǔ),相關(guān)研究被國際知名學(xué)術(shù)期刊《醫(yī)學(xué)影像分析》(Medical Image Analysis)、《IEEE醫(yī)學(xué)影像匯刊》(IEEE Transaction on Medical Imaging)、《柔性機(jī)器人技術(shù)》(Soft Robotics)、《診療》(Theranostics)等報道。

文章鏈接:

論文網(wǎng)址https://ieeexplore.ieee.org/document/9310246

本研究github網(wǎng)址https://github.com/zjhthu/OANet

清華大學(xué)微創(chuàng)診療與三維影像實(shí)驗(yàn)室http://at3d.med.tsinghua.edu.cn/

來源:清華大學(xué)