Midjourney亮文生圖殺器 設計師、攝影師飯碗難保?下一步將是文生視頻

《科創板日報》12月23日訊 預告3個月後,熱門文生圖模型Midjourney終於上線了最新版本,當地時間12月21日,Midjourney在Discord上宣佈其最新版本V6的測試版發佈,目前處於alpha測試階段。從用戶的大量示例來看,V6對於寫實圖片、抽象畫作手到拈來,效果不輸設計師、攝影師。

Midjourney將V6定位爲重大革新成果,其首席執行官DaVid Holz稱,V6實際是在AI超級集羣上從零開始訓練而成的第三套模型,整個開發週期長達九個月,“這套模型生成的圖像在真實度方面遠超我們以往發佈的任何版本。” 根據官方介紹,V6的主要變化在於畫面質量更好、語義理解更強、能嵌入文本、容納更多提示詞且連貫性更高,模型知識也更爲豐富。

據用戶測試,V6現在支持的提示詞長度超過350個字符,甚至能夠理解標點和語法的細微差別。就目前網友展示的圖像來看,在理解力以及光影、構圖、材質、色彩等細節方面,V6的確比上一代產品更上一層樓。

用同樣的Prompt測試V6和V5.2,對比非常明顯(上圖爲V6生成;下圖爲V5.2生成):

主要提示詞:1980年代的懸疑電影,仰拍,身穿黑西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭

主要提示詞:1960年代的街頭風格照片,需要畫出一位年輕女子穿着綠色絲綢連衣裙、戴着珍珠項鍊坐在帆船上

主要提示詞:1940年代復古科幻電影中身穿高領銀色操作衣的女操作員

主要提示詞:街角酒吧的霓虹燈上寫着“營業至深夜”

主要提示詞:雨坑中日落的倒影

主要提示詞:一鍋燉菜,配一個木勺

在文字生成上,V6可以在圖像中更明確嵌入文本,甚至可以規定其風格。

注:可口可樂原文:CocaCola

還原毛衣質感、動物毛髮、窗戶上的雨滴

對長文本的處理也更好

產品logo圖

不同工具的帶文字產品設計圖對比

該性能提升有望爲設計、營銷行業帶來更大增益。據瞭解,一些跨境電商從業者早已使用文生圖大模型來製作商品介紹頁、模特展示圖,Midjourney是最常用的工具。

另外,V6會“畫手”了。此前AI繪畫一直被詬病不真實,尤其是人物手部細節,經常會出現畸形。但隨着V5推出,它完美解決了這個技術難題,甚至還能呈現手部的指紋、皮膚紋路,實現了AI繪畫的一次跨越性突破。下圖是一些手部畫作:

目前,V6還缺少V5.2模型中的一些功能,包括左右平衡和縮小,但Holz表示這些功能將在V6的後續更新中實現。

V6不會是Midjourney的終點,該產品一直處在迭代中,2022年3月份上線第一版,而後迅速進化到如今的第六版,平均每3個月更新一次。在Midjourney的公告中,他們表示:V6的速度、圖像質量、連貫性、提示遵循和文本準確性在未來幾周內應該會提高。而V6 beta在發佈半個小時之後宣佈了第一次更新,生成速度提升了2.7倍。

此前該公司還表示,未來的技術更新方向包括生成3D及視頻。Holz預測,未來可能實現以每秒30幀的高分辨率實時生成內容,並且到2030年,可能會實現整個視頻遊戲的生成。

值得一提的是,創始人David Holz據稱多次拒絕了風險投資人遞來的橄欖枝,在過去的一年裡,Midjourney在Discord平臺上的用戶數量從200萬增長到了1767萬,每天有超100萬人上線(截至發稿),且該產品早已開啓付費模式,用戶可以根據不同套餐選擇,每月收費10至120美元,憑藉40名員工組成的團隊,Midjourney在9月份成功實現年盈利2億美元。