2022-11-04

AIGC成科技界新寵！Stability AI、Jasper淡市中獲巨額融資！AI產圖技術到底有何商機？

#Smart Living #AI #投資 #Stability AI #Jasper #融資 #AI作畫工具 #創科 #數碼

　　任何人只要輸入寥寥數字，AI就能畫出符合要求的斑斕畫作，一下子讓美術創作門檻變得極低！在全球經濟不明朗下，投資者態度愈發保守，但這種AI生成圖像技術卻在逆市中備受追捧，相關初創近期陸續傳出完成巨額融資的喜訊：Stability AI取得1.01億美元（約7.88億港元）種子輪投資；Jasper則獲得1.25億美元（約9.75億港元）A輪融資。為甚麼這些AI作畫工具在2022年突然爆紅起來？當中蘊藏的商機到底有幾大呢？

Stable Diffusion模型學習了逾50億幅圖像素材，因而能夠生成輪廓細緻的人像畫作。其訓練數據庫內的圖片主要來自Pinterest、Flickr等圖片社交平台，以及Getty等商業圖庫網站。（圖片來源：Stability AI官網）

AI初創兩年內晉身獨角獸

　　2022年10月18日，總部位於英國倫敦的AI初創企業Stability AI宣布，已完成由Coatue Management與Lightspeed Venture Partners領投的1.01億美元融資。外界估計，其公司估值已攀升到10億美元（約78億港元），得以晉身獨角獸行列。

　　Stability AI完成融資的翌日，總部座落於美國德州柯士甸的AI初創Jasper，也拿下由 Insight Partners領投的1.25 億美元投資，令公司估值上漲至15億美元（約117億港元），成為另一家新晉獨角獸公司。

　　Stability AI創立於2019年，Jasper則創辦於2021年，換言之，它們用了不足兩年時間，便已升格為獨角獸（估值達10億美元或以上的初創）；就算以科網產業的發展標準而言，增長速度也非常驚人，這可說是2022年AI產業爆發式成長的縮影。

生成型人工智能爆發式增長

　　有別於傳統的「分析型人工智能」（Analytical AI），這兩家初創所研發的是「生成型人工智能」（Generative AI）技術，代表著AI不再是分析已存在的事物，而是正在產生全新的東西——「AI生成內容」（Artificial Intelligence Generated Content，AIGC）。

　　紅杉資本（Sequoia Capital）近日發表一份題為《Generative AI: A Creative New World》的研究報告，預測從2020年至2025年之間，AIGC技術將會變得愈來愈成熟，能夠生成文字、圖片、影片、語音、程式碼、以至遊戲模型等，為設計、遊戲、編程、社交媒體等產業帶來顛覆性的轉變。

　　AI生成內容意指，基於AI演算法而產生的文字、圖片或影片內容。研發人員收集大量內容樣本讓AI學習，並了解箇中規律，然後根據人類輸入指令，按照不同規律而生成內容。AIGC技術一直存在，但過往卻因技術本身的局限性，故此未受市場注視。

Diffusion擴散模型利用逆轉噪點方式，逐步生成的AI畫作。（圖片來源：CompVis/Github網站）

生成對抗網絡始終未成氣候

　　2022年以前，AIGC研發團隊主要使用「生成對抗網絡」（Generative Adversarial Networks，GAN）來產出內容。這套演算法模型是讓兩個AI網絡以相互博弈方式進行學習：「生成網絡」從訓練圖庫中隨機取樣作為輸入，其輸出結果需要盡量模仿人類作品；「判別網絡」則要將生成網絡的輸出作品，從真實樣本中盡可能分辨出來。

　　生成網絡要盡可能地騙過判別網絡，讓判別網絡無法認出生成網絡輸出的是AI作品；如此一來，便可以產生最接近人類創作的圖像。然而最大問題是，AI網絡用作模仿的樣本，均是來自人類創作的現成作品，於是生成內容只是無限仿製既有內容，意味著AI無法「創作」出全新作品。

　　譬如說，當用戶輸入一些天馬行空的設計意念，如「眼睛長在額頭的人臉」或「騎著由彩虹與烈火構成的單車」等，由於沒有現成作品可供模仿，所以GAN通常就會失效。同時，在操作上，用戶需要輸入自己繪畫的草圖，讓GAN將其轉化為真實的圖像；換言之，如果你不懂得畫畫，便無法有效使用GAN。

Google Imagen先以基礎擴散模型把文字轉化為解像度較低的圖片，然後再用一系列超解像度模型，逐步提升圖片解像度。（圖片來源：Google Research官網）

DALL·E掀起AIGC研究浪潮

　　後來，因為「Diffusion」與「CLIP」演算法模型出現，解決了GAN的問題，AIGC技術才有機會真正落地使用。Diffusion是一種去噪擴散模型，其原理是先給一幅圖像不斷加入噪點，直到整幅圖完全被白噪音（White Noise）所覆蓋，接著將整個過程逆轉過來給AI學習。

　　AI所看到的是被噪點遮蓋的圖像，怎樣一點點變清晰，直至回復原本模樣；通過這個類似替相片去除雜訊的學習過程，AI能夠理解圖像是如何逐步繪畫出來。因此，Diffusion模型生成圖像的精確度不但比GAN為高，而且更能符合人類審美邏輯。

　　CLIP（Contrastive Language-Image Pre-training）是一種基於對比圖片與文字的訓練模型，使用已經標註好的「文字-圖片」數據給AI訓練，讓AI能夠將文字與圖像的意思進行匹配連接。有了CLIP後，才可以實現文字轉化圖像（Text-to-image）的嶄新交互方式，容許用戶輸入文字來驅使AI作畫。

　　2021年1月，AI研究機構OpenAI整合了Diffusion與CLIP模型，研製出能夠以文生圖的AI作畫工具《DALL·E》，驗證此技術方案的可行性，遂掀起學術界對AIGC的新研究浪潮。隨後，多家科技企業也紛紛進場，投入AIGC技術開發。

Stable Diffusion用戶逾千萬

　　踏入2022年，不同公司與機構的AI產圖工具相繼誕生，形成百家爭鳴的局面：3月，《Midjourney》啟動Beta版本測試；4月，OpenAI推出製圖解像度更高的第二代版本《DALL·E 2》；5月，Google Research發布AI繪圖模型《Imagen》；真正將AI生成圖像浪潮推上高峰的，是8月面世的《Stable Diffusion》。

　　相比起限制免費產圖數量的DALL-E、不對外開放的Imagen，Stability AI旗下的《Stable Diffusion》不但免費給公眾使用，更主動開放程式原始碼，讓其他人能夠利用其原始碼開發自己的AIGC應用，成功吸引逾2萬開發者加入開發社群。

　　現時《Stable Diffusion》已被譽為最受歡迎的AI生成圖像平台，日均活躍總用戶數突破1,000萬；其衍生AI作畫工具《DreamStudio》的用戶數亦超過150萬，自8月以來累計產出逾1.7億幅AI作品。Stability AI租用了亞馬遜AWS雲端平台上約4,000部NIVIDIA A100 GPU運算卡，以應付大量產圖需求。

　　Stability AI現有約100名員工，獲得1.01億美元融資後，計劃擴編到300人。該公司創辦人兼執行長 Emad Mostaque表示，現已跟一些政府與機構建立了合作夥伴關係來銷售這項AIGC技術，所以該公司將具備一定的盈利能力。

Stable Diffusion原始碼的開發社群現有約2萬名成員，基於其原始碼開發的AI生成工具涵蓋圖像、語言、音樂、3D等多個內容領域。（圖片來源：Stability AI官網）

Stability AI建立了可供免費使用的《DreamStudio Lite》，讓沒有編程或繪畫技能的用戶，只要在平台上輸入文字描述，便可直接產生AI圖像。（圖片來源：DreamStudio）

Jasper Art主攻營銷圖像設計

　　另一家拿到巨額融資AIGC初創Jasper，以「AI生成文字」作主打服務，能夠產生適用於社交媒體貼文、博客文章、營銷文案、或電子郵件等文字內容；其後又推出圖像生成工具《Jasper Art》，同樣可將用戶輸入文字轉化成圖片。

　　《Jasper Art》定位成專為營銷圖像設計而生的AIGC系統，特設無版權圖片庫，讓用戶以20美元月費訂閱服務。Jasper總訂戶數現已超過7萬，2021年收入達4,000萬美元（約3.12億港元），預計2022年將可暴增1倍以上，達到9 ,000萬美元（約7.02億港元）。

　　市調機構Gartner評估，及至2025年，生成型AI將佔所有生成數據的10%，而目前佔比仍少於1%。另一市調機構IDC預測，全球AI產業規模將在2025年增長至2218.7億美元（約1.73兆港元）。由此可見，AIGC市場確是有很大的成長空間。

Jasper平台上不但有AI生成圖像功能，也有AI生成文案服務，讓用戶可以同時獲得好文章與精美配圖。（圖片來源：Jasper官網）

Jasper將《Jasper Art》定位成專門用於行銷設計的AI作畫工具，以建立品牌的差異化。（圖片來源：Jasper官網）

版權爭議阻礙AIGC商業化

　　不過，AIGC邁向商業化的道路上，仍然存有不少障礙，當中最受關注的是版權爭議。AI學習所需的訓練數據量極度龐大，就算是研發團隊都無法保證，AI不會誤拿需付費使用或有版權保障的圖像資源。2022年9月，一篇刊登於《麻省理工技術評論》的文章指出，數碼藝術家Greg Rutkowski發現其繪畫風格被Stable Diffusion複製了，因而感到很不安。

　　為規避版權風險，Getty Images、Shutterstock等大型付費圖庫經已不再接收由《DALL·E 2》、《Stable Diffusion》、《Midjourney》等生成的AI畫作。部分遊戲製作人亦因顧慮版權問題，暫不考慮用AI產圖技術來設計遊戲角色與場景。

　　科技巨頭Google對AIGC技術始終存有疑慮，故此一直抱持謹慎態度，只發表論文公布研發成果，但卻未有將《Imagen》開放給公眾使用。至於《DALL‧E》、《Midjourney》等則明確表示，用戶擁有AI生成圖像的所有權。

　　也有一些AIGC初創積極探索，解決版權爭議的方法，包括：盡量清除訓練數據庫內有版權保護的圖像素材；生成的畫作結果附有版權風險提示；或者索性跟一些畫家、攝影師或設計師直接合作，以分成或直接購買方式，鼓勵他們來上傳可以被利用來訓練AI的圖像。

　　事實上，AI訓練數據庫內可能含有受版權保護的內容，但因為AI生成內容充滿高度的隨機性與不確定性，就算有版權爭議，舉證亦非常困難。不過，隨著愈來愈多藝術家抗議自己遭到AI抄襲，業界、學術界、以及相關政府部門應盡快探討，擬定出比較好的版權解決方案。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。