OpenAI最新工具Shap-E能將文本或圖像轉換成3D模型?
著名人工智能產品ChatGPT 的OpenAI公司近日在 GitHub 網站上上發佈了一款名爲Shap-E 的條件生成模型,專門用於生成3D 圖像。該模型可供用戶免費下載使用,它能夠使用文本從頭開始生成模型,從而將 2D 圖像轉換爲 3D 模型,還可以獲取模型並對其進行更改。從長遠來看,這可能會大大增加 3D 打印的普及率。畢竟對於3D打印從業者來講,熟練的建模能力是不可或缺的一環。
與這項研究相關的還有一篇由 Alex Nichol 和 Haewoo Jun 撰寫的隨附論文,題爲“Shap-E: GeneratingConditional 3D Implicit Functions”。
根據 OpenAI 的說法,Shap-E是一種新型的3D 圖像條件生成模型。傳統的模型只能生成單一的輸出表達形式,但Shap·E 可以生成隱式函數的參數,這些函數可以作爲紋理網格或神經輻射場(NeRF) 進行渲染,從而實現多樣化和逼真的3D 圖像生成。Shap·E 採用了隱式神經表示(INRs) 來編碼3D 圖像,提供了一個靈活且高效的框架,能夠捕捉到3D 圖像的詳細幾何特徵。
使用AI 生成3D 模型是想當困難的,因爲3D 模型可以是非常複雜,具有大量的細節和紋理。因此,需要處理大量的數據和計算來生成這些模型,這需要強大的計算機和算法支持。同時需要精確測量和處理大量的數據,包括幾何形狀、尺寸、紋理、顏色等等。因此,算法必須具有高度的精度和準確性,以確保生成的3D 模型符合預期。
Shap-E 的訓練包括先將編碼器用來將3D 圖像轉換成隱式函數參數,再用有條件擴散模型進行訓練,從而生成多樣且複雜的3D 圖像。與Point-E 模型相比,Shap-E 在更高維度和多重表示輸出空間的情況下,顯示出更快的修正速度和相當或更好的樣本質量。
與Point-E的對比
OpenAI去年發表的Point-E是據文字提示產生3D點狀雲,而新發布的Shap-E可以將文字或圖片轉成3D圖形的Shap-E模型。輸出文件可以在微軟小畫家3D(Paint 3D)中打開,甚至能夠轉成用於3D打印機的STL文件。此外,Shap-E相較去年發表的Point-E,能夠提供更好的3D圖像,產出效率更高。
Source:OpenAI
OpenAI所開發的Shap-E 3D模型,是直接建立出物體的輪廓,並採用神經輻射場(Neural Radiance Fields,NeRF)的功能,克服了初期模型的模糊性。NeRF與VR、AR使用的技術相同,可使3D場景視覺上更有臨場真實。Shap-E 可在GitHub下載,並能在個人電腦上安裝執行,目前Shap-E也不需要OpenAI API密鑰,能夠免費使用。
據外媒《Tom’s Hardware》測試,Shap-E無論是要利用圖片還是文字都需要大量的電腦系統資源。Tom’sHardware 指出,例如以搭載RTX 3080顯卡和Ryzen9 5900X處理器的桌機跑Shap-E,完成繪製大約需要5分鐘。
而在ROG電競筆電配備RTX 4090顯卡和Intel Core i9-13980HX處理,只需要兩到三分鐘。但當嘗試在搭載Intel第8 代U 系列處理器結合內建顯卡的舊款筆電跑Shap-E,1 個小時只繪製約3%。此外Shap-E 不支援NVIDIA以外的顯卡品牌,硬體規格需要達到一定程度,纔不會耗費許多等待時間。整體而言,目前Shap-E的成果多數仍是低解析度,缺少細節。
Source:Shap-E
開源的Shap-E 模型
用戶可以在 GitHub 上免費下載Shap-E模型,並在 Microsoft Paint 3D 上打開這一程序。該程序可以將用戶創建的渲染3D圖像轉換爲 STL 文件,並通過3D 打印機如實呈現出來。
雖然 Shap-E 模型的這些基本知識可能看起來很簡單,但可能需要一些技術知識才能安裝和運行該模型。
Shap-E 開源模型的開發者Avram Piltch對其進行測試,他聲稱他花了 8 個小時才熟悉。他補充說,除了解釋您應該使用 Python pip 命令進行安裝之外,OpenAI 幾乎沒有提供任何說明。
安裝後,Piltch 說他能夠使用彩色動畫 GIF 文件和單色 PLY 文件測試提示,他指出,動畫 GIF 很受歡迎。這其中的一些有趣案例如下所示:包括一隻企鵝、一把椅子和一架看起來像香蕉的飛機,所有這些都有不同的質量級別,具體取決於它們的文件類型。Piltch 還使用了該模型的功能,該功能允許用戶上傳 2D 圖像以轉換爲 3D 對象。
Source:Shap-E
Shap-E開發者還指出,那些試圖安裝Shap-E 和渲染 3D 對象的人需要注意的是該模型需要大量的電腦系統資源。特別是,Shap-E 僅與 Nvidia GPU 兼容,需要高性能 CPU 才能在幾分鐘而不是幾小時內完成渲染。