OpenAI最新工具Shap-E能將文本或圖像轉換成3D模型？

A A A

著名人工智能產品ChatGPT 的OpenAI公司近日在 GitHub 網站上上發佈了一款名爲Shap-E 的條件生成模型，專門用於生成3D 圖像。該模型可供用戶免費下載使用，它能夠使用文本從頭開始生成模型，從而將 2D 圖像轉換爲 3D 模型，還可以獲取模型並對其進行更改。從長遠來看，這可能會大大增加 3D 打印的普及率。畢竟對於3D打印從業者來講，熟練的建模能力是不可或缺的一環。

與這項研究相關的還有一篇由 Alex Nichol 和 Haewoo Jun 撰寫的隨附論文，題爲“Shap-E: GeneratingConditional 3D Implicit Functions”。

根據 OpenAI 的說法，Shap-E是一種新型的3D 圖像條件生成模型。傳統的模型只能生成單一的輸出表達形式，但Shap·E 可以生成隱式函數的參數，這些函數可以作爲紋理網格或神經輻射場(NeRF) 進行渲染，從而實現多樣化和逼真的3D 圖像生成。Shap·E 採用了隱式神經表示(INRs) 來編碼3D 圖像，提供了一個靈活且高效的框架，能夠捕捉到3D 圖像的詳細幾何特徵。

使用AI 生成3D 模型是想當困難的，因爲3D 模型可以是非常複雜，具有大量的細節和紋理。因此，需要處理大量的數據和計算來生成這些模型，這需要強大的計算機和算法支持。同時需要精確測量和處理大量的數據，包括幾何形狀、尺寸、紋理、顏色等等。因此，算法必須具有高度的精度和準確性，以確保生成的3D 模型符合預期。

Shap-E 的訓練包括先將編碼器用來將3D 圖像轉換成隱式函數參數，再用有條件擴散模型進行訓練，從而生成多樣且複雜的3D 圖像。與Point-E 模型相比，Shap-E 在更高維度和多重表示輸出空間的情況下，顯示出更快的修正速度和相當或更好的樣本質量。

與Point-E的對比
OpenAI去年發表的Point-E是據文字提示產生3D點狀雲，而新發布的Shap-E可以將文字或圖片轉成3D圖形的Shap-E模型。輸出文件可以在微軟小畫家3D（Paint 3D）中打開，甚至能夠轉成用於3D打印機的STL文件。此外，Shap-E相較去年發表的Point-E，能夠提供更好的3D圖像，產出效率更高。

Source：OpenAI

OpenAI所開發的Shap-E 3D模型，是直接建立出物體的輪廓，並採用神經輻射場（Neural Radiance Fields，NeRF）的功能，克服了初期模型的模糊性。NeRF與VR、AR使用的技術相同，可使3D場景視覺上更有臨場真實。Shap-E 可在GitHub下載，並能在個人電腦上安裝執行，目前Shap-E也不需要OpenAI API密鑰，能夠免費使用。

據外媒《Tom’s Hardware》測試，Shap-E無論是要利用圖片還是文字都需要大量的電腦系統資源。Tom’sHardware 指出，例如以搭載RTX 3080顯卡和Ryzen9 5900X處理器的桌機跑Shap-E，完成繪製大約需要5分鐘。

而在ROG電競筆電配備RTX 4090顯卡和Intel Core i9-13980HX處理，只需要兩到三分鐘。但當嘗試在搭載Intel第8 代U 系列處理器結合內建顯卡的舊款筆電跑Shap-E，1 個小時只繪製約3%。此外Shap-E 不支援NVIDIA以外的顯卡品牌，硬體規格需要達到一定程度，纔不會耗費許多等待時間。整體而言，目前Shap-E的成果多數仍是低解析度，缺少細節。

Source：Shap-E

開源的Shap-E 模型
用戶可以在 GitHub 上免費下載Shap-E模型，並在 Microsoft Paint 3D 上打開這一程序。該程序可以將用戶創建的渲染3D圖像轉換爲 STL 文件，並通過3D 打印機如實呈現出來。

雖然 Shap-E 模型的這些基本知識可能看起來很簡單，但可能需要一些技術知識才能安裝和運行該模型。

Shap-E 開源模型的開發者Avram Piltch對其進行測試，他聲稱他花了 8 個小時才熟悉。他補充說，除了解釋您應該使用 Python pip 命令進行安裝之外，OpenAI 幾乎沒有提供任何說明。

安裝後，Piltch 說他能夠使用彩色動畫 GIF 文件和單色 PLY 文件測試提示，他指出，動畫 GIF 很受歡迎。這其中的一些有趣案例如下所示：包括一隻企鵝、一把椅子和一架看起來像香蕉的飛機，所有這些都有不同的質量級別，具體取決於它們的文件類型。Piltch 還使用了該模型的功能，該功能允許用戶上傳 2D 圖像以轉換爲 3D 對象。