騰訊近日發布了一款名為Hunyuan3D-1.0的開源大模型,據官方介紹,這是首個能同時支持文本和圖像生成的三維開源模型。
該模型采用了一種創新的兩階段生成方法,可以在保證高質量和可控性的基礎上,僅需10秒就能生成3D資產。在第一階段,團隊利用多視角擴散模型,在約4秒內快速生成包含豐富紋理和幾何信息的多視角圖像。這一步驟有效地將任務從單視角重建轉變為多視角重建,從而提高了生成的準確性和效率。
進入第二階段,團隊引入了一種前饋重建模型,該模型能夠利用第一階段生成的多視角圖像,在約3秒內完成3D資產的快速且精確重建。這一重建模型不僅學會了處理多視角擴散過程中引入的噪聲和不一致性,還能有效利用條件圖像中的信息,高效地恢復3D結構。
官方強調,Hunyuan3D-1.0模型具有強大的泛化能力和可控性,能夠重建各種尺度的物體,無論是宏偉的建筑還是精致的工具花草,都能得到高質量的重建效果。
為了方便開發者和研究者使用和學習該模型,騰訊已經將Hunyuan3D-1.0在Github和Huggingface平臺上開源,并提供了詳細的研究論文。感興趣的讀者可以通過以下鏈接獲取更多信息:
Github:https://github.com/Tencent/Hunyuan3D-1
Huggingface:https://huggingface.co/tencent/Hunyuan3D-1
研究論文:https://3d.hunyuan.tencent.com/hunyuan3d.pdf