產經情報

字級設定：
大
中
小
收藏
.
.

消費級 PC 也能跑！Stability AI 釋出新 2B 模型「Stable Diffusion 3 Medium」

日期：2024-06-20

不過，雖然 Stable Diffusion 3 Medium 最低僅需 5GB 的 GPU VRAM，但 Stability AI 仍建議GPU VRAM 有到 16GB。

Stability AI 釋出了「Stable Diffusion 3 Medium」，同樣為文字生成圖像模型，但規模更小具 2B 參數，可在消費級 GPU 上運行。

要運行 Stable Diffusion 3 Medium 僅需 5GB 的 GPU VRAM，但 5GB 是最低標準，Stability AI 仍建議使用 16GB GPU VRAM，雖然對大多數 PC 來說容量偏大，但仍然不是一個不合理的數字。

另外 Stability AI 稱 Stable Diffusion 3 Medium 和較大規模的 Stable Diffusion 3 Large 表現相當，擁有相同功能包括保有照片真實感、遵守指令、生成文字、資源使用效率和微調等。

Stability AI 解釋，透過人工神經網絡結構「變分自編碼器（VAE）」Stable Diffusion 3 Medium 能生成的細節優於先前的模型。且 Stable Diffusion 3 對自然語言能更快速的理解，包括對元素的所在位置的理解，受惠於 Diffusion Transformer 架構，SD3 模型都能較準確的生成文字。同時較小的模型也擅長微調，可以有效地從微調資料集中捕捉細節。

Stable Diffusion 3 最大的優勢在於資源使用效率，2B 的參數量小於其他 8 億到 80 億個參數的 Stable Diffusion 3 模型，其賴較少的運算，同時也不會影響到性能。

Stable Diffusion Medium 目前可透過 API 以及 Stable Artisan Discord 機器人服務試用，模型權重也將提供給 Hugging Face 上的非商業用途。

Stable Diffusion 3.0 早期預覽版在今年 2 月釋出，最大的改進即是藉由 Diffusion Transformers 架構提升文字拼寫能力，並透過不須模擬的模型訓練方法「flow matching 技術」，提高模型的訓練效率和輸出品質。