無界 AI 創始人長鋏:無界在 AI 生態中的“光合作用”定位
1 月 5 日,由杭州未來科技城管委會、餘杭區科技局和餘杭區企業(人才)綜合服務中心聯合指導,時戳科技主辦,AI 新智界提供媒體特別支持的“智求共贏・中國 AIGC 產業應用峰會暨無界 AI 生態合作伙伴大會”在杭州正式開幕。
本次大會深度聚焦 AIGC 應用,邀請到了全國各地近百家合作伙伴參會,以及來自產研、投資機構、高校、AIGC 創業者等衆多行業精英和專家,共同分享過去一年 AIGC 應用進展,探討未來發展趨勢。
無界AI創始人長鋏出席大會並做主題演講:《光合作用:無界在AI生態中的定位》。他講到,AIGC的過程特別像是光合作用,“光”是文本、語音、圖像等外界的信息輸入,“二氧化碳和水”是訓練的數據集,“碳水化合物”是生成的圖片。無界AI的定位是光合作用中的“葉綠體”,爲生態夥伴賦能。
長鋏表示,在過去一年,無界 AI 訓練了大概1000萬張圖片素材,並且與國內50多所高校、博物館建立了數據上的合作。近期,無界AI將陸續上線各大行業模型和國風、藝術插畫、私人影像等模型,將自己的模型能力更好地輸出給生態夥伴。未來一年,無界AI 還將在技術上進一步升級,加強對自然語言的支持,支持文字生成和書法生成等功能。
以下是AI新智界整理的演講內容,爲方便閱讀進行了部分刪減:
無界AI的定位
AIGC的過程特別像是光合作用,“光”是文本、語音、圖像等外界的信息輸入,“二氧化碳和水”是訓練的數據集,“碳水化合物”是生成的圖片。無界AI的定位相當於生態中的葉綠體,從宏觀層面來說就是這個生態中的植物。生態中的動物是那些把我們模型能力應用得好,做出現象級、殺手級,或者國民級應用的生態合作伙伴。
定位有toB和toC之分。toB是一個效率工具,能夠節省時間;toC是一個情感陪伴,消磨時間。無界AI更偏向於toB,我非常相信將來生態夥伴能做出現象級的應用。當前,無界更希望將模型能力賦能生態合作伙伴,專注幫企業降本增效。
模型訓練的兩大流派
模型訓練分爲兩個流派:參數派和像素派。
參數派,就是各種追求CLIP(生成圖片與提示詞的一致性)、FID(生成圖片與訓練素材的一致性)等這些可以用算法來評價的參數,通過優化參數實現霸榜。他們非常關注參數的規模,而忽視人類的審美,因爲審美很難用算法來評價。無界屬於像素派,也就是說我們更注重在像素層面的優化。我們非常關注人類審美的反饋,也就是社區用戶的反饋。
說到像素派,我們就要提到 Midjourney,它的審美是一直在線的,它也屬於像素派。我們和Midjourney有什麼不一樣呢?
模型規劃不同
最大的區別就是我們在產品的模型規劃上有很大不同。Midjourney本質上只有兩個模型,一個是對應通用的方向的Midjourney模型;另外是對應二次元的方向的Niji模型。我們不太一樣,我們把模型細分爲汽車設計、產品設計、服裝設計、建築設計等不同的垂直領域,同時要做到美學上比Midjourney表現更好。
上圖是無界AI與其他模型在生成效果上的評分示意圖,如果SDXL是平均分70分的模型,Midjourney的得分是80分。我們對美學的要求更高,在細分賽道的模型要做到80分以上,才能達到模型上線的標準。
美學風格不同
無界 AI 與Midjourney 在理念上也不太一樣。Midjourney有非常強烈的美學特徵,下圖中左邊的圖片很容易看出是Midjourney畫的,它有很強烈的MJ藝術風格,個性化,具有辨識度。我們更強調的是模型藝術上的多樣性,因爲很難用單一的標準來評價美,所以我們儘可能還原美。
產品體驗不同
如果把Midjourney比作米其林大廚,無界AI就是魔法師。米其林大廚把菜做到了90%,用戶只需要簡單的熱一下,就可以直接享用。我們更希望用戶自己成爲魔法師,在不同的瓶瓶罐罐裡添入不同的材料、不同的配方,調配出專屬於自己的藝術風格。
易用性和靈活性不同
Midjourney的產品易用性更高,只需要簡單的提示詞就可以生成非常漂亮的圖片。無界AI產品的靈活度更高,支持圖片的後期處理。
我們在研發工藝美術模型時,和十幾個高校和博物館進行了學術上的交流。例如,在訓練過程中,我們生成了一幅畫琺琅鼻菸壺的圖像,並向山東工藝美術學院韓明老師請教。他給出的指導意見是,胎底材料應爲琉璃而非陶瓷,所以應該帶有一點半透明的質感。我們迅速用工藝美術模型搭配玻璃質感的LoRA,將權重設爲0.8,很快就調出了韓明老師描述的質感,這就是無界產品的靈活性體現。
靈活性和易用性是可以兼備的。雖然我們的用戶一開始入手難度可能會比較高,但我們可以通過產品上的設計,比如工作流的機制,把所有參數設置都封裝好。我這裡要提前透露一下,我們將來可能會支持Midjourneycontroller的一些應用,也就是說用戶可以直接在無界上使用MJ的模型,同時可以獲得非常豐富的後期處理功能。
審美偏好不同
我們畫一張穿着漢服的女孩圖像,MJ V6的效果確實非常驚豔,但畫出來是一個穿和服的女子,說明它可能不是特別懂中國的審美。右邊是我用無界AI 的漢服模型畫的漢服女孩,得到了理想的效果。我們是一個國內的團隊,立足本土,所以在更懂中國的審美。
人類反饋不同
在人類反饋方面,Midjourney 就做了一個簡單的處理,每生成4張圖片,用戶挑選最好的一張,這樣也是幫它做了反饋。無界 AI 基於APP可以收集到非常多元的用戶反饋數據,有點贊、收藏、同款、用戶的調研等等。
版權邏輯的不同
產品理念的不一樣,也會導致版權的邏輯不一樣。根據 Midjourney的版權規定,免費的用戶不可以商業使用,但付費用戶可以獲得商業使用授權。我們要注意到,這是一個商業使用的授權,不是版權著作權,也不是所有權。
無界AI很早之前就宣佈,凡是用無界AI創作的圖片,版權歸創作者所有,這個理念是比較超前的。我們每一張作品都是上鍊存證的,而且和杭州互聯網法院是打通的。當時存在較大爭議,人們認爲用提示詞創作並不是原創。但現在已經有越來越多的案例顯示,用戶在創作圖片的過程中有非常多智力的參與,應該尊重創作者的智力成果。比如前段時間互聯網AI圖片侵權第一案,北京互聯網法院就支持了這樣的觀念。
無界AI模型訓練成果
在過去一年,無界 AI 訓練了大概1000萬張圖片素材。同時,我們還和國內50多所高校、博物館都建立了數據上的合作。
我們來看一下無界 AI 訓練的模型:
1.漢服模型。這也是我們第一個出圈的模型,右邊這4張圖是我們的用戶結合水墨風格創作的一組漢服圖片,參加了浙江省委宣傳部舉辦的“夢溪杯”。
2.汽車設計模型。一言以蔽之,無論是100多年來汽車工業出現的所有汽車品牌和產品,還是現在的國產新勢力最新的車型,我們的汽車設計模型都能畫。即便是設計未來的概念車型,也不在話下。
3.工藝美術模型。這個模型我們是把市面上能收集到所有擁有數字博物館資源都訓練了一遍,相當於一個變化的國家版本館。國家版本館大家都知道,它有非常豐富的數字資源,但它的數字資源是一種靜態的展示。當工藝美術模型訓練過以後,它就變成了流動的資源或者變化的資源,用戶可以非常方便地使用提示詞實現不同博物館館藏之間的聯名,把它們的風格結合起來。
4. 壁紙模型。這個模型的使用率很高,看到這些圖片我就不禁感慨,以後誰還會用那些圖庫的網站呢?用戶生成的每一張圖片都比它精美,而且著作權還屬於自己。所以這就隱含着一個邏輯,每個模型背後就對應着一個一個行業的顛覆。
5. 私人影像模型。這個模型就是非常精準對標影樓這個場景或者行業,凡是拍寫真、證件照、婚紗照,以後都可以在家裡直接進行。影樓這個行業我認爲也會被顛覆。
同樣我們最近也上線了“個性相機”,支持用戶使用一張照片訓練私人模型,實現快速換臉。最近我們和熱播大劇《神隱》合作,粉絲上傳一張自己的照片,就能穿上劇中女主的穿着。
(點擊鏈接解鎖神隱同款寫真https://mp.weixin.qq.com/s/BLtFC25WNImQouWKC30-hA)
6. 產品美學模型。這個模型使用率同樣很高。下面這幾張圖形都是我創作的。左上角大家可以猜猜使用了什麼樣的提示詞,其實非常簡單,我大概是使用了“陰陽、太極,減振、氣墊、發光材料,耐克鞋”這些提示詞,就可以出這樣的效果。這將是電商和產品設計行業的一個利器。
7. 建築模型。不管是現代還是古典的建築藝術風格都可以出,也包括世界各地和國內各種城市的地標。
8.室內設計模型。也從草圖設計到建模方案呈現,短期內就能提供室內設計方案。
無界AI模型訓練的未來趨勢
對於模型訓練的未來趨勢,我認爲有以下四點,也是無界接下來要完善的:
1.對自然語言的支持會越來越好。因爲大語言模型現在和文生圖模型之間還存在一些距離,文生圖模型大部分都是基於標籤式的提示詞體系。未來,我們將升級文本編碼器,加強對自然語言的支持,無縫對接大語言模型。
2.支持文字生成和書法生成。一些英文字母和一些數字已經可以畫了。但支持中國書法或者漢字的模型,目前比較少,這個將來也會實現。
3.視頻生成模型也會逐漸的成熟。
4.生成模型會越來越像搜索。這是一個什麼概念呢?意味着將來隨機瀏覽一個互聯網的網頁,你看到一張非常的精美圖片,只要複製圖片下面一段描述性的文字放在無界模型中,就能畫出和同樣的藝術風格和主題的圖片。
無界AI生態夥伴合作方式
無界目前和生態夥伴合作的一些模式:
1.API接入,支持合作伙伴直接調用無界AI已經訓練好的模型。
2.模型訓練,支持合作伙伴對現有模型繼續優化,微調出專屬於自己私有的模型。
3.產品與模型深度定製,無界AI全流程深度參與客戶產品與模型的定製,24 小時全天候技術支持。
最後,談一點對AIGC的感想。對於AIGC,我認爲可以用這樣一句話來概括,就是“以宏觀敘事,從微觀行事”。
宏觀敘事,AIGC這樣一個大浪潮不是以個人意志爲轉移的,它是一種“灰犀牛”,是一種時代的潮流。我們牴觸和拒絕其實意義不大,最好的方式就是加入其中。在具體實踐當中,一定要從微觀行事去了解客戶具體的需求,去解決具體的問題。