產經情報

消費級 PC 也能跑!Stability AI 釋出新 2B 模型「Stable Diffusion 3 Medium」

日期:2024-06-20

不過,雖然 Stable Diffusion 3 Medium 最低僅需 5GB 的 GPU VRAM,但 Stability AI 仍建議GPU VRAM 有到 16GB。

Stability AI 釋出了「Stable Diffusion 3 Medium」,同樣為文字生成圖像模型,但規模更小具 2B 參數,可在消費級 GPU 上運行。

要運行 Stable Diffusion 3 Medium 僅需 5GB 的 GPU VRAM,但 5GB 是最低標準,Stability AI 仍建議使用 16GB GPU VRAM,雖然對大多數 PC 來說容量偏大,但仍然不是一個不合理的數字。

另外 Stability AI 稱 Stable Diffusion 3 Medium 和較大規模的 Stable Diffusion 3 Large 表現相當,擁有相同功能包括保有照片真實感、遵守指令、生成文字、資源使用效率和微調等。

Stability AI 解釋,透過人工神經網絡結構「變分自編碼器(VAE)」Stable Diffusion 3 Medium 能生成的細節優於先前的模型。且 Stable Diffusion 3 對自然語言能更快速的理解,包括對元素的所在位置的理解,受惠於 Diffusion Transformer 架構,SD3 模型都能較準確的生成文字。同時較小的模型也擅長微調,可以有效地從微調資料集中捕捉細節。

Stable Diffusion 3 最大的優勢在於資源使用效率,2B 的參數量小於其他 8 億到 80 億個參數的 Stable Diffusion 3 模型,其賴較少的運算,同時也不會影響到性能。

Stable Diffusion Medium 目前可透過 API 以及 Stable Artisan Discord 機器人服務試用,模型權重也將提供給 Hugging Face 上的非商業用途。

Stable Diffusion 3.0 早期預覽版在今年 2 月釋出,最大的改進即是藉由 Diffusion Transformers 架構提升文字拼寫能力,並透過不須模擬的模型訓練方法「flow matching 技術」,提高模型的訓練效率和輸出品質。