來自 MIT 的研究者使用深度學習推出了 3D 全息圖生成新方法,可認為VR、3D 打印、醫(yī)學成像等創(chuàng)建全息圖,同時能夠在智專家機上運行。
提起三維場景可視化,虛擬現實(VR)是最常見的一種技術。但通過多年宣傳,VR 頭戴式耳機仍未成為電視或計算機屏幕上觀看視頻的必備設備。一個重要的原因是 VR 會讓用戶感覺不適。盡管用戶實際上是注視著 2D 顯示器,但 VR 會產生 3D 觀看的錯覺,從而使人視覺勞累和感覺頭暈惡心。更好的 3D 可視化解決方案也許在于一種產生了六十年的技術:全息圖。
全息圖能夠杰出地展現 3D 世界,同時它的出現結果非常漂亮。全息圖可以依據觀看者的位置提供變化的視角,并同意眼睛調整焦深以交替聚焦在前景和背景上。
長期以來,研究者們一直在試圖制造出計算機生成的全息圖,但傳統(tǒng)上,該過程需要一臺超級計算機來進行物理模擬,這非常耗時,並且産生的結果真實感不高。
邇來,來自麻省理工學院的研究者已經開發(fā)出一種幾乎可以馬上生成全息圖的研究方法。研究者表達:「基于深度學習的方法非常高效,使得新方法瞬間就能夠在筆記本電腦上運行。」
研究團隊的要緊成員,MIT 電氣工程與計算機科學系(EECS)的博士生 Liang Shi 說:「以前人們認為,使用現有的消費級硬件還不也許進行實時 3D 全息計算的。人們經常說:商用全息顯示器將在未來十年左右出現,但這種說法差不多存在了數十年。」
Shi 認為該團隊稱為「張量全息術」的新方法將最后實現這一「十年目標」。這一進展也許會推動 VR 和 3D 打印等土地引入全息技術。該研究的論文現已發(fā)表在《Nature》上,索尼對部分研究提供了支持。
論文鏈接:https://www.nature.com/articles/s41586-020-03152-0
代碼地址:https://github.com/liangs111/tensor_holography
追求更好的 3D 全息圖
照片可以忠實地再現場景的顏色,但最后產生的是一個平面圖像。相比之下,全息圖對每一個光波的亮度和相位都進行編碼。這種組合可以更加真實地描述場景的視差和深度。莫奈的《睡蓮》可以突出畫作的色彩感,而全息圖可以讓作品變得栩栩如生,出現出每一筆特殊的 3D 質感。
但全息圖的制作與共享仍是一個挑戰(zhàn)。
全息圖從 20 世紀中期結束發(fā)展,早期全息圖是用光學原理記載的。這種技術需要將激光分為兩部分,一半用來照亮被攝體,另一半用作光波相位的參考,該參考產生了全息圖特有的深度感。產生的圖像基本上靜態(tài)的,不能捕捉運動。很難復制和共享。
而計算機生成全息術通過模擬光學裝置躲開了這些挑戰(zhàn),但是該過程也許是一個就算難題。Shi 說:「由于場景中每個點都有不同的深度,因此無法對所有點都使用雷同的操作,這大大增加了龐大性!怪笓]集群超級計算機運行這些基于物理的模擬也許需要幾秒鐘或幾分鐘來獲得一張全息圖像。另外,現有的算法不能精確地對遮擋物(occlusion)進行建模。
因此,Shi 的團隊采取了不同的方法:「讓計算機自學物理!
他們使用深度學習來加速計算機生成全息術,從而實現實時全息圖的生成。該團隊設計了一個卷積神經網絡:這是一種處置技術,使用一系列可訓練張量來粗略模擬人類處置視覺信息的方法。通常,訓練神經網絡需要比較大的、高質量的數據集,但此前 3D 全息圖土地并不存在如此的數據集。
該團隊建立了一個包含 4000 對計算機生成圖像的數據庫。每一對都匹配一張圖片,圖像信息包括每個像素的顏色和深度信息,這些信息與全息圖相對應。研究者使用外形和顏色龐大多變的場景,像素的深度從背景到前景均勻分布,并使用一組基于物理的新型計算來處置遮擋,產生了逼確實訓練數據。接下來,算法結束發(fā)揚作用。
數據集樣例
通過學習每個圖像對,張量網絡調整了其計算參數,從而逐步增強了其創(chuàng)建全息圖的能力。完全優(yōu)化的網絡的運行速度比基于物理的計算快了多個數量級。這種功效讓研究團隊也感覺驚訝。
Matusik 說:「它的表現讓我們很驚奇。在短短幾毫秒內,張量全息術可以從含有深度信息的圖像中生成全息圖,其中深度信息是由典型的計算機生成圖像提供的,可以通過多機位的設置或激光雷達傳感器(這兩者基本上一些新型智專家機的標準配置)計算出來。
這一進展為實時 3D 全息攝影鋪平了道路。更重要的是,壓縮型張量網絡僅需要不足 1 MB 的內存。這一點非常適合現代智專家機。
微軟第一光學架構師 Joel Kollin 說:「這項研究表明真正的 3D 全息顯示器是實用的,只需要適當的計算需求。該研究的圖像質量比此前有了顯著的改善,將提升觀看者的真實感和舒適感!
Kollin 還暗示:「全息顯示器可以依據觀看者的眼部定制,矯正眼睛的像差!
其他應用
實時 3D 全息技術還有助于 VR、3D 打印等系統(tǒng)的發(fā)展。研究團隊表達,新系統(tǒng)可以幫助 VR 觀眾沉醉在更真實的場景中,同時排除眼睛勞累和長期使用 VR 的其他副作用。這項技術可以很容易地應用在調制光波相位的顯示器上。目前,大多數價格有理的消費級顯示器只調節(jié)亮度,但如果廣泛采用 3D 全息技術,相位調制顯示器的成本會下降。
另外,3D 全息技術還可以促進立體 3D 打印技術的發(fā)展。事實證明,這種技術比傳統(tǒng)的逐層 3D 打印更快、更精確。其他的應用還包括用于顯微鏡、醫(yī)療數據可視化以及具有特殊光學特征的平面設計。
Matusik 說:「這是一個巨大的飛躍,可以完全轉變人們對全息技術的態(tài)度,我們覺得神經網絡是為這項任務而生的!
作者介紹
該論文的第一作者是 MIT 的計算機科學與人工智能實驗室(CSAIL)的博士生史亮。他本科卒業(yè)于北京航空航天大學,2016 年獲得斯坦福大學電氣工程碩士學位。史亮的研究興致包括 VR/AR、計算攝影、計算制造、計算機圖形學、機器學習等。
第二作者是 MIT CSAIL 博士生李北辰。他本科卒業(yè)于清華大學。他的研究興致是機器學習在計算機圖形學、計算設計和計算制造中的跨學科應用。
參考鏈接:https://news.mit.edu/2021/3d-holograms-vr-0310
對于企業(yè)和開發(fā)者,如何加滿機器學習技能點,更輕松地上手機器學習?
3月15日,亞馬遜雲科技機器學習高級國產產品經理孟和將帶來線上分享。本次分享從供應鏈和自動駕駛領域的相關應用案例視頻出發(fā),詳細講解亞馬遜雲科技將提供哪些關鍵資源,幫助開發(fā)者團隊提高機器學習技能,從而更好地應用AI。