產經情報

字級設定：
大
中
小
收藏
.
.

OpenAI發布可用文字敘述產生合理圖像的神經網路DALL·E

日期：2021-01-08

非營利人工智慧研究組織OpenAI訓練了一個稱為DALL·E的神經網路，可讓使用者以自然語言文字註解，創建內容相符的圖像。而DALL·E的名稱由來，來自西班牙加泰隆尼亞超現實主義畫家薩爾瓦多·達利（Salvador Dalí），以及皮克斯動畫人物瓦力（WALL·E）的混合詞。

DALL·E是一個具有120億個參數的GPT-3語言模型，經過文字圖像配對資料集訓練，可以從文字敘述生成圖像。DALL·E具有豐富的功能，除了創建擬人化動物與物體，還能以合理的方式組合不相關的概念，而渲染文字以及轉換圖像等工作，也都難不倒DALL·E。

研究人員提到，GPT-3的出現，代表語言已經可以用來指示大型神經網路，執行各種文字生成工作，而圖像GPT代表著類似於GPT-3的神經網路，也可以用來產生高解析度的圖像，而OpenAI擴展了兩者的概念，DALL·E的貢獻在於證明人們已經可以透過語言，來操縱神經網路所產生的視覺概念。

就如同GPT-3一樣，DALL·E是一個變換語言模型（Transformer Language Model），其以包含多達1,280個權杖（Token）的單一串流，接收文字以及圖像，並使用最大可能性，一個接一個地生成所有權杖。由於這個訓練過程，讓DALL·E不只能夠以文字提示一致的方式，從頭開始產生圖像，還能夠順著既有圖像，重新生成符合文字敘述的圖像。

DALL·E能夠探索語言結構的組成，從大量不同的句子中產生合理的圖像。研究人員發現，DALL·E具有控制物體屬性的能力，像是可渲染多邊形物體，即便有些物體在現實世界不太可能出現，但DALL在繪製時，仍會考慮其合理性，例如DALL·E在繪製像框或是畫框，會傾向避開七邊形，而人孔蓋或是停車標誌，DALL·E較不會使用五邊形等特殊形狀。

詳細內文請參考網址