產經情報

OpenAI發布可用文字敘述產生合理圖像的神經網路DALL·E

日期:2021-01-08

非營利人工智慧研究組織OpenAI訓練了一個稱為DALL·E的神經網路,可讓使用者以自然語言文字註解,創建內容相符的圖像。而DALL·E的名稱由來,來自西班牙加泰隆尼亞超現實主義畫家薩爾瓦多·達利(Salvador Dalí),以及皮克斯動畫人物瓦力(WALL·E)的混合詞。

DALL·E是一個具有120億個參數的GPT-3語言模型,經過文字圖像配對資料集訓練,可以從文字敘述生成圖像。DALL·E具有豐富的功能,除了創建擬人化動物與物體,還能以合理的方式組合不相關的概念,而渲染文字以及轉換圖像等工作,也都難不倒DALL·E。

研究人員提到,GPT-3的出現,代表語言已經可以用來指示大型神經網路,執行各種文字生成工作,而圖像GPT代表著類似於GPT-3的神經網路,也可以用來產生高解析度的圖像,而OpenAI擴展了兩者的概念,DALL·E的貢獻在於證明人們已經可以透過語言,來操縱神經網路所產生的視覺概念。

就如同GPT-3一樣,DALL·E是一個變換語言模型(Transformer Language Model),其以包含多達1,280個權杖(Token)的單一串流,接收文字以及圖像,並使用最大可能性,一個接一個地生成所有權杖。由於這個訓練過程,讓DALL·E不只能夠以文字提示一致的方式,從頭開始產生圖像,還能夠順著既有圖像,重新生成符合文字敘述的圖像。

DALL·E能夠探索語言結構的組成,從大量不同的句子中產生合理的圖像。研究人員發現,DALL·E具有控制物體屬性的能力,像是可渲染多邊形物體,即便有些物體在現實世界不太可能出現,但DALL在繪製時,仍會考慮其合理性,例如DALL·E在繪製像框或是畫框,會傾向避開七邊形,而人孔蓋或是停車標誌,DALL·E較不會使用五邊形等特殊形狀。

詳細內文請參考網址