Stable Diffusion核心技術(shù)來(lái)源于AI視頻剪輯技術(shù)創(chuàng)業(yè)公司Runway的Patrick Esser,以及慕尼黑大學(xué)機(jī)器視覺(jué)學(xué)習(xí)組的Robin Romabach。該項(xiàng)目的技術(shù)基礎(chǔ)主要來(lái)自于這兩位開(kāi)發(fā)者之前在計(jì)算機(jī)視覺(jué)大會(huì)CVPR22上合作發(fā)表的潛擴(kuò)散模型(Latent Diffusion Model)研究。
相比較于DALL-E等大模型,Stable Diffusion讓用戶使用消費(fèi)級(jí)的顯卡便能夠迅速實(shí)現(xiàn)文生圖。Stable Diffusion完全免費(fèi)開(kāi)源,所有代碼均在GitHub上公開(kāi),任何人都可以拷貝使用。
Stable Diffusion模型第一個(gè)版本訓(xùn)練耗資60萬(wàn)美元,而提供資金支持正是Stability AI。該公司成立于2020年,最初資金都來(lái)自創(chuàng)始人兼CEO Emad Mostaque。