夸克“兇猛”:一場手機鏡頭背後的狂野冒險
淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。
夸克“兇猛”:一場手機鏡頭背後的狂野冒險
文 | 史中
李逍遙出生的村子叫什麼你知道嗎?
我知道,叫盛漁村,地處杭州餘杭縣,位置偏僻,但風景秀麗。。。
我爲啥記得這麼清楚呢?
因爲10歲那年我第一次玩《仙劍奇俠傳》的時候,劇情剛剛展開,看着熱情的村民,聽着溫情的 BGM,我突然有奇怪的想法:爲啥我李逍遙不能一輩子慫在家鄉耍木劍採野果,非得去外面被妖怪毒打呢?
但是轉念一想,不遇到妖怪,也不會遇到趙靈兒。
想到這裡,DNA 動了,明知山有虎偏向釜山行,我就這樣走出了新手村。
好吧,咱們未必玩過一樣的遊戲,但咱們都過着同樣操蛋的人生。你我都有(不得不)從新手村出發的那一天,面對天書一樣的試卷時,面對老闆“今晚就要”的死線時,都會幻想:如果天上能掉下來一把神刀,一刀999級,該有多好。。。
今天,中哥就給你講一個“神刀”的故事。
(一)“戰五渣”和掃描王
“放假前剛發的卷子,我家小孩就找不到了!我還得在家長羣裡求着同學媽媽把試卷拍給我,打印出來讓孩子做。但人家孩子已經寫了答案,我只能用紙條擋住答案去複印。。。”
這是一個兩年前發在媽媽幫論壇上的帖子。
如此不能打的劇情,卻引來了不合時宜的共鳴,上百個家長回覆說:啊!我以爲只有我家孩子是這樣。。。
看來,身邊潛伏的渣渣不止一個啊。
吃瓜羣衆中潛伏着一個人,戴着眼鏡,自己就接近學生模樣,按道理都不應該知道這世界上有媽媽幫這樣“戾氣深重”的網站。
這個人就是尹毅彬。
尹毅彬
尹毅彬是夸克App的產品經理,之所以要逛家長論壇,是因爲他負責的正是當時大火的“學習版塊”。
他同時也是個暖男。“怎麼能讓媽媽們受這樣的苦呢?”於是趕緊把這個發現講給夥伴。
一個月後,夸克App裡添加了一個小功能——試卷去手寫——拿一張卷子來,能自動把裡面的手寫字去掉;不僅如此,還能把卷子角度自動轉正,把紙變白,把字變清晰,打印出來比原版的還原版,隔壁學霸都饞哭了。。。
就是這個效果⇩⇩⇩
別看就是這麼一個不起眼的功能,受歡迎程度卻難以言表,後臺調用量像火箭直入雲霄。
以防有的淺友不熟悉夸克,這裡中哥強勢插入一下,多介紹幾句背景姿勢:
很多人覺得夸克是個搜索 App,但是在年輕用戶心裡,搜索只是夸克“功能大餐”中的一道菜,他們還能用夸克看小說、看電影、拍圖識萬物、文檔翻譯、簡歷生成、自拍證件照、PDF轉Word、截長圖、轉gif、掛號買藥、學菜譜查快遞。。。
我覺得,夸克的夢想是成爲大家手機裡的 “瑞士軍刀” ——沒車沒房沒女票這種大事解決不了,但遇到蹩腳的小困難,掏出來一準兒能搞定。
給你們看一下夸克工具的列表⇩⇩⇩
爲了達成這個目標,不只是尹毅彬,夸克團隊每個人都患上了“需求蒐集癖”。。。
他們就像八爪魚:產品經理做調研,技術老師傅看數據,運營小姐姐接客訴,反正有各種渠道和用戶溝通。用戶想要啥,分分鐘就能傳遞到夸克團隊,沒準新功能幾個星期就做出來了,有一種“被寵溺”的感覺。
講真,在今天的世界,能夠和用戶混成這種好兄弟(好姐妹)的互聯網產品都已經不多了呀。
不過這也好理解,因爲夸克團隊和他們的用戶一樣年輕,幾乎一水的90後。其中最小的一位生於澳門迴歸的1999年。畢竟中國人不騙中國人,年輕人不坑年輕人嘛。
好,認識了這羣頭髮尚且濃密的年輕人,我們回到主線劇情。
搞出“試卷去手寫”,無數小朋友可以罵罵咧咧開開心心去寫作業了,但這只是故事的《序章》。
夸克這羣年輕人像胡八一那樣提鼻子一聞,忽然感覺自己站在一座“尚未完全被開發”的寶藏大門前,這座寶藏就叫——掃描。
之所以說尚未完全開發,是因爲掃描這座寶藏早已被人發現,市面上也早有一些掃描產品。
只是夸克這羣人覺得前人挖掘得不細心,或者說勘探技術不到位,就拿“試卷去手寫”這樣的具體任務來說,在他們之前就沒人做得這麼精細嘛。。。
於是,一場內部討論展開:如果做一個市面上最好的把“紙質文件”掃描成“數字文檔”的掃描工具,誰贊成?誰反對?
團隊那位99年的同學趕緊舉手:
我上大學那時候,哦,也就是去年,就特別想要一個這樣的工具。因爲老師講課的PPT翻得太快,我只能用相機一張張拍下來,再用 iPhone 的備忘錄功能整理起來。雖然四捨五入能用,但是像我這麼社恐的人,坐在教室最邊上,拍出來的照片都是梯形。。。
話音未落,另一個同學插話:
我表哥在投資公司工作,我記得他吐槽,說每天都得把各種紙質文件、單據神馬的掃描歸檔,掃描儀難用的一比。
恰在此時,探馬回報,在北京、廣州、秦皇島等等城市的用戶調研裡,很多夸克的主力用戶——老師和學生——也都吐了這個槽:學知識最好是舉一反三,得把錯題抄下來反覆練嘛。但除非愛好書法,誰能耐下心來手抄那麼多錯題呢?
而且,人類都已經進入賽博朋克紀元了,把這麼多時間用來物理抄題,也太 old school 了吧?能有個順手且強大的手機掃描工具多好啊!
正所謂,工欲善其事必先利其器。你讓哈利波特去削伏地魔,不得先給他個掃帚麼?你讓小智幹翻全世界的寶可夢,不得先給他個精靈球嗎?你讓你家小孩考清華,不得先給他個“掃描王”麼?
夸克掃描王產品負責人夏雅瞳小姐姐一拍桌子:決定了!咱們就幫大夥兒把“掃描王”做得更好用!
小智,你捫心自問,如果把精靈球改成三室一廳總統套房,皮卡丘能不願意進來麼?
(二)高清無碼大圖,get✓
說到掃描,咱們小時候見的掃描都是那樣的:把紙質文件按在一個掃描儀上,然後“呲——”,電腦上就顯示出了一模一樣的圖片。
那個操作叫“光學掃描”,實際上,那已經是老黃曆了。
聽中哥給你科普,現在的掃描比女生化妝還厲害:
第一步、 拍圖片
用手機給文件拍一張素顏照,App會自動幫你裁剪,擺正角度,去掉無用信息,相當於打了個遮瑕粉底,然後把圖片上傳雲端。
第二步、修圖片
雲端算力充沛,AI 能識別出文件上的瑕疵(例如紙上的髒點、水印、手寫痕跡),把它們都去掉;再識別出有用的文字,把它們加深,變得更清晰。相當於眼線紅脣化個全妝。
第三步、導圖片
雲端把這張圖片傳回給手機裡的 App,App 幫你導出定妝照,也就是掃描結果的圖片。
完美結束,撒花出街。
這樣三步下來,比光學掃描的“素面朝天”那簡直高到不知哪裡去了。
不過,欲戴王冠必承其重,這個“美顏之旅”比大多數人想得難多了。
怎麼個難法呢?咱們先請上夸克團隊的第一位現身說法的選手,他就是王淮。王淮在夸克App的研發團隊,負責我們剛纔說的“第一步”。
王淮
王淮是個“強迫症”,一幅畫掛歪1度都能看出來那種。但做 App 客戶端恰恰需要這種細緻的精神。
剛接到任務,一個不是問題的問題就擋在面前——該用什麼拍照方式?
你肯定沒有注意過,攝像頭獲取圖片其實是有兩種方式的:
王淮玩得比較遛的是第一種“視頻截圖”。因爲他們之前做的“萬物識別”功能,就在用這種方式。
爲啥呢?因爲那些圖片是用來做“分類”的——比如你拍了一隻狗,即便是模糊的狗,相比於貓,AI 也會覺得它也更像狗——所以不用清楚,拍得快纔是王道。
可是掃描就不同了,它的終極目標不是分類,而是清晰呈現這張照片裡的每一個細節。
沒辦法,王淮只能老老實實選擇“拍照模式”。可這樣一來,體驗就不太流暢,他又和一羣強迫症事們做了10086個優化。
接下來可以拍照了吧!王淮把自己手機翻過來一看,臥槽?!怎麼這麼多攝像頭?
第二個問題又迎面撲來——該用哪個攝像頭?
廢什麼話?隨便選一個不就行了嗎?
“不行。我們試了一下,長焦鏡頭一般光圈大,拍出來的照片景深小,這樣用戶如果拍攝角度傾斜,就會造成一半清晰,一半虛焦。。。廣角鏡頭一般光圈小,能拍清楚。但如果鏡頭視野太寬,紙張佔畫面的比例又比較小,有效像素不夠多。。。”
王淮解釋。
就像這樣⇩⇩⇩
他們最後寫了一套規則,讓夸克 App 在手機裡現場“唐伯虎點秋香”,找出最適合做掃描的那顆攝像頭。
可實戰中到底能不能選準秋香,王淮心裡有點嘀咕。。。他又請測試團隊的同學真的用不同型號手機拍了幾千張照片,把每一個機型都調優了一遍才罷休。
這下可以拍照了吧?還不行。。。
夸克的用戶數以億計,你永遠想象不到大家在拍照片的時候是在九天攬月還是在五洋捉鱉。
比如有的人手抖,拍出的照片就是帕金森模仿秀;有的人心不在焉,拍出的照片就是斜到懷疑人生;有的人是暗夜騎士,拍東西祖傳不開燈。
於是第三個問題來了——怎麼保證拍照清晰?
王淮他們在拍照界面加了提醒——探測到畫面光線不足,就提示開燈;還加了網格線——眼殘的可以參考網格拍得橫平豎直;還做了一個實時對焦模塊——哪怕用戶冷不丁地按下拍照,也能保證儘量清晰。
看到這兒,有老哥可能會問:這都是什麼雞毛蒜皮的小事啊?
其實我是故意選擇這些瑣碎細節講給你聽的。因爲你懂的,面對這些細節都能如此“強迫症”的人,是很難在圖像裁剪、圖像壓縮、圖片上傳鏈路這類更嚴肅的事情上偷工減料的。
“咻——”,隨着圖片傳上雲端,沉甸甸的接力棒也交到了第二位選手,雲端算法工程師黃銳華手上。
黃銳華
黃銳華是個技術控老司機。他的駕駛風格是:“我前面不能有車”。
凡是遇到什麼技術困難,他不睡覺也得把全世界的解法都找來,然後不允許任何一個解法比自己更好。。。
開發過程中,看着手機端傳上來的圖片,黃銳華皺皺眉頭:喂,這圖片怎麼有好多都是“S身材”啊??
你想想看,一張紙,如果能夠平平展展讓你拍照,那是燒高香的情況。大多數情況,咱們打開書拍某一頁,書頁肯定是彎折的,而且越靠近書脊,彎折程度越大,就像霍金的黑洞。。。
黃銳華當時就暴躁了,一張紙這麼“性感”,很影響掃描效果的好不好?!
接下來的問題就是——怎麼把S形書頁給拉直?
黃銳華給我解釋。
雖然但是,從哪去找這麼多書頁彎折的數據呢?這數據又不是可樂,街邊隨便找家店就有賣。。。而且也來不及自己一張張拍啊,等你拍完,等着掃描書頁的大學生都該領退休金了。。。
一個平時喜歡玩遊戲的同學若有所思:誒,3A遊戲大作不都會用到物理引擎麼?
一語點醒夢中人,黃銳華組織大家搞了好幾本書的3D模型,然後用遊戲物理引擎對它進行各種“蹂躪”,這不一下子就有了豐富的訓練數據嗎?
這麼一搞,效果拔羣。
看着 AI 書頁拉直的效果越來越棒,黃銳華仰天長嘯:果然,不會3D建模的AI工程師不是好司機啊!
搞完這些,已經是2021年春天。
醜媳婦總得見公婆,“夸克掃描王”終於發佈了。
春江水暖鴨先知,夸克新功能鐵桿粉絲先知——說時遲那時快,在夸克的粉絲羣裡,已經有眼尖的人發現了掃描王。
夸克團隊搬好小板凳排排坐,等着誇獎砸來,不過,誇獎沒等來,卻等來了板兒磚。
“欸我這個掃描出來怎麼是花的啊?”有粉絲問。
黃銳華一看粉絲髮來的“證據”,居然是對着電腦屏幕拍的,上面都是摩爾紋。。。
“欸我這個卷子怎麼掃描之後還能看出背面的字啊?”
黃銳華一問,才知道這哥們的卷子太薄,簡直是蕾絲半透款,背面的字毫無壓力地透了過來。。。
“欸我這掃描出來怎麼還帶手指頭啊?”
黃銳華一看,原來這哥們是拿手舉着一本書掃描的,手指頭也拍進去了,AI 以爲是書上的插圖呢,給強勢保留了。。。
“這好辦,你告訴他們拍照的時候別用手扶着不就行了?”我提議。
“用戶用手扶,一定有他不得不扶的道理。我們既然要做全世界最好的掃描工具,就不可能讓用戶來適應我們。”黃銳華一臉慷慨。
本着“做最牛X的掃描工具”的原則,老師傅們繼續返工:優化了人工智能算法,讓它更好地識別出背面透字;還教會了 AI 識別邊緣亂入的手指頭,自動擦除;還研究了去摩爾紋的濾鏡。
注意,剛纔提到的各種濾鏡是一層層“疊buff”的。
比如,上一層去摩爾紋的輸出結果是下一層去邊緣手指的輸入資料;去手指的輸出結果又是下一層去背面透字的輸入資料。
這很像雜技演員踩着高蹺,頭上頂着水缸,手裡扔着12個雞蛋,腰上還轉着5個呼啦圈——但凡中間任何一個環節出問題,整個雜技都會垮掉。
做掃描難,就難在了這兒。
耿直的夸克用戶是一面明鏡,不滿意會吐槽,滿意會真誇。經過了幾次改進,夸克粉絲羣裡逆風翻盤,變成誇誇羣。
尹毅彬現在還記得,有一個用戶專門跑來說:“我從來沒用過這麼好的掃描產品,掃出來真白,就跟新買的書一樣!”
不過彼時沾沾自喜的掃描王團隊,就像剛出長安的唐長老,還不知道有一羣妖怪正圍着餐巾等着他們呢。
那天,運營小姐姐找到尹毅彬,跟他提到了一個用戶投訴。
那個用戶留言說:“用夸克掃描出來的文件,我沒法用!”
“掃得這麼白,怎麼沒法用?”尹毅彬一邊嘀咕,一邊決定跟那個投訴用戶直接打個電話。
他恍然大悟,原來這個用戶在掃描一份鑑定報告,在報告的下面,專門鋪了簽發機構的防僞水印。可是在AI看來,水印這種髒東西不是要去掉的麼?一秒鐘擦得乾乾淨淨,對用戶說:快誇我!
用戶說:我謝謝你啊!
無獨有偶,另一個用戶反饋也前後腳進來:他想掃描一個發票,用於報銷。可是夸克掃描王掃出來的發票過於白嫩,而且經過“清晰度補足”的濾鏡,紅章就會變得暗淡,打眼看上去就像是街角買的假票。。。那哥們都不敢提交報銷了。。。
原來,“一白遮百醜”也不總是真理。
一個巨大的哲學問題擺在夸克掃描王團隊面前:當“真”和“美”坐在蹺蹺板的兩端,到底要怎麼選?
尹毅彬解釋。
於是,在隨後的升級裡,夸克掃描王加入了一道“自動識別邏輯”:判斷這是個單據,就以“真實呈現”爲主;判斷這是個文件,就以“黑白分明”爲主。
這個思考影響深遠。
從這件事以後,夸克團隊就像搞了個高音喇叭放在耳邊,時刻在喊:“你們確定真的瞭解用戶想幹嘛嗎?R U F**KING SURE?!”
“警鐘長鳴”之下,他們有了驚奇的發現——當用戶掃描的時候,有時並不想“掃描”。
(三)當你掃描的時候,你在“掃描”什麼?
“在我們的一生中,遇到愛,遇到性,都不稀罕,稀罕的是遇到了解。”這是廖一梅在話劇《柔軟》裡寫下的臺詞。
這句話恰好完美隱喻了互聯網產品的難處。
在真實世界裡,哪怕你和最要好的朋友對面長談,都無法完全理解Ta的意圖;更別提在賽博世界裡,提供服務的系統和用戶相隔萬里,只能通過用戶令人費解的行爲碎片來“猜”。
我問你,當一個用戶掃描了電腦屏幕上的一串快遞單號,Ta 想幹嘛?
我再問你,當一個用戶沒有調用攝像頭,而是去相冊裡調取了一張寫着名言警句的圖片進入掃描王,Ta 想幹嘛?
有沒有一種可能,此時他們並不是想“掃描”,而是想把照片裡的文字提取出來,複製到別的地方用?
有可能是,也可能不是。。。
2021年夏天,夸克這羣年輕人就帶着這種狐疑上線了“文字提取”功能。
這個操作效果炸裂。
從激增的後臺調用量看,用戶彷彿在說:這麼牛X的功能,搞麼子現在才上?
爲啥大家對文字提取這麼情有獨鍾?我還真琢磨了一下。
看看我們自己的大腦就知道了,人類的右腦負責形象思維,左腦負責邏輯思維。長期的進化讓大腦產生了這樣的左右分工,那必然是因爲這樣比“左右腦一團漿糊”更好。
好處是啥呢?省能量。
語言文字屬於邏輯思維——可以用“抽象的信息”反應“具象的世界”——而抽象的信息真的很省地方。
你看,說“蘋果”兩個字只需要半秒,把這兩個字寫出來也只需要兩秒,可畫出一個蘋果恐怕需要一分鐘。遇到手笨的,畫一個蘋果恨不得消耗兩個蘋果的卡路里。。。
所以,“文字提取”功能的本質是把一張“圖像”裡的“邏輯信息”(而非視覺信息)提取出來,複製、粘貼、修改、搜索隨你大小便——大大降低信息處理的成本。
在原有的視覺工具旁邊直接加了一個邏輯工具,衝鋒槍+迫擊炮,買一送一,肯定受歡迎嘛!
(我替你們體驗了一下文字提取,原諒我此時身處賓館,能找到的紙不多。。。)
嚐到“提取”功能的甜頭之後,夸克這羣“摸金校尉”如同找到了掃描領域的新一道暗門,向幽深的秘境又挺進一層。。。
尹毅彬回憶,那天產品團隊在整理用戶反饋時,又發現一個奇怪的案例。
這個用戶反饋了一張手寫的購物單,上面寫着:菠菜XX元,買了XX斤;白菜XX元,買了XX斤,諸如此類。
用戶的訴求是:我拍了這個購物單,你們能不能給我轉成 Excel 表格?
原來,他是一個飯店的採購員,每天進貨,月底盤點,得把30天的數據金額加總。過去手寫數字加總,得鼓搗半小時,還不一定算對。如果能有工具把手賬變成 Excel,那妥妥從石器時代直接進入工業革命啊!
尹毅彬一看,有道理!他去找技術老師傅,有點心虛地問:手寫字,能提取出來麼?
黃銳華呵了一下:可以試試。
其實,這個技術黃銳華團隊並沒那麼陌生。在兩年前夸克的“學習”模塊裡,就實現了一個小功能:把學生手寫的答案轉換爲印刷體。
但注意,這兩者的難度是不同的。
一個學生寫題,他的目的是讓判卷的老師看懂,潦草程度是有下限的。
比如這樣:
一個人寫採購單,就是爲了記賬給自己看,那潦草程度是沒有下限的呀!
比如這樣:
簡而言之,之前給搜題做的那套手寫識別技術根本拿不出手,必須加大數據劑量,重新訓練。
不過,這次黃銳華遇到了強勁對手。越深入訓練,技術團隊就越抓狂——彷彿自己身處一個深不見底的巨坑裡。。。
黃銳華解釋。
地獄級的情況還在後面——手寫字和印刷字同時出現在一張紙上。。。
舉幾個栗子:
比如,我在一個填空題上寫了“一”,但在人工智能看來,這個“一”是一橫,下面的橫槓也是一橫,這不就是“二”麼?
再比如,我在方格本里寫了“女人”,人工智能肯定會質問你,這TM不是“囡囚”是什麼?
亂世須用重典,難題得上狠活。爲了解決這個問題,老師傅一股腦派了三個 AI 出戰:
總之,兩個月後,黃銳華在會上蛋定地展示手寫文字提取 Demo 的時候,尹毅彬嚇得一蹦:老哥,你還真弄出來了呀!
有了“印刷體”+“手寫體”這兩個文字提取,夸克掃描王纔多少配得上“王”的稱號。
想想看,無論是在書上看到語句,還是在街上看到標語,還是在插圖裡看到內嵌的文字,你都可以在朋友的注視下,從容地掏出手機,一秒鐘把文字複製出來,“咻——”地發給他,優雅蛋定不髒手。
這感覺很酷。裝X利器不一定是一個好的生產力工具,但一個好的生產力工具,一定是個裝X利器。
手寫文字識別準確率到了99%,手寫識別率到了90%,掃描王團隊以爲事情已經做到八九不離十。然鵝,他們又錯了。。。用戶就像一盒巧克力糖,你永遠不知道下一個是神馬口味。
他們總能掃描“奇怪的東西”。。。
(四)去冒險吧!
你看這個:
一個公式,你猜夸克掃描王會掃出神馬效果?
有了剛纔的鋪墊,你可能也成了半個專家:首先,夸克至少可以把公式當成一個圖片來掃描(就像我現在把這個公式截圖插入文章一樣);但是,它有一個更優雅的選擇——把公式像文字那樣“提取”出來。
沒錯,這裡遇到了一個比“文字提取”棘手一百倍的問題:“格式提取”。
而且,“公式”最多隻是所有煩人格式裡的一種。咱們隨便看一張海報,上面有圖片和文字混合排版,有各種字體,還有彎成蝦一樣的變形設計——這一切都是格式!
格式是魔鬼,反正我還記得大學時代被格式支配的恐懼。那時候寫論文,“首行縮進”這麼一個小問題,經常是刪一格太左,加一格太右,純純能把人逼瘋。
夸克這羣人需要“降魔”。爲了把一個圖片上的格式完整“扒”下來,老師傅們專門去找其他文檔團隊取經,把一整套文字格式處理邏輯嵌入掃描王。
事情還沒完,如果你把文字和圖像混合在一起排版,噩夢直接翻十倍。
咱們還以掃描那張海報爲例,靈魂拷問一個接一個:
難題一:哪裡是圖案,哪裡是文字?
海報的排版是放飛自我的。各種顏色的裝飾、斑點還有文字、字母、數字都摻雜在一起。
很多時候就連視力1.5的人都得仔細分辨哪個是“逗號”哪個是“底色裡的裝飾黑點”。
難題二:到底是海報斜,還是圖案偏?
人眼有誤差,很難把海報拍得周正,總會有多多少少的偏角。這個時候系統理應把海報轉正。
可問題來了,假如海報上有一個藝術字,字體就是斜體的。那麼,怎麼判斷是“因爲海報 斜了這個字才斜了” 還是 “海報沒那麼斜這個字本來就是斜的” ?!
難題三:到底是圖案還是瑕疵?
有些海報很大,展開之後會有摺痕。那請問,如何判斷一條線是海報上的圖案設計,應該保留,還是無用的摺痕,需要抹除?
難題四:背景如何補足?
海報掃描出來是帶有格式的,這也就意味着你可以修改海報上的字。
可海報不再是 PS 文件,所有圖層都已經融成一體。如果你刪掉了一個字,它下面就會露出一片恐怖的空白啊!應該用什麼顏色、圖案來填充呢?
這裡面隨便一個問題都是業界難題,但黃銳華挽起袖子,勞資不上秋名山,你們真當我是賣豆腐的!
比如“摺痕”和“圖案”,從三米開外可能看起來一樣,但是如果放大端詳,一定能找出二者區別。算法需要做的改進就是“精細”。但做這麼精細的微操,就代表雲端 AI 要計算更多的數據,耗費更多的計算力。
比如“背景補足”,其實現在最先進的AI算法是可以根據周圍的信息把中間的空白補充得以假亂真的。問題還在於“數據量”和“計算力”,只有在雲端猛堆機器,才能把這個活兒幹漂亮。
AI 的殿堂歡迎技術流,但更歡迎人民幣玩家。
黃銳華告訴我,爲了挑戰極限,他們已經卷瘋了,2022年整個夸克雲端的AI計算力已經升級成最新一代的 GPU,上面跑的算法基本每個月都有升級更新。
此時此刻,雖然海報的掃描效果還沒達到他心中的完美境界,但相比世界範圍內的同類產品,他還是可以拍胸脯的。
我幫你試了一下⇩⇩⇩
黃銳華不客氣。
說回我們的故事。從2022年開始,夸克掃描王突然進入了一個有趣的螺旋:能掃描的東西越奇怪,就有越多人用;越多人用,這羣人就會去掃描更奇怪的東西。
正所謂,浪大了不知道催上來什麼海鮮。
最近,通過各種渠道,老師傅開始看到有人拍歌單,有人拍樂譜,有人拍少數民族的文字,還有人拍一堆源代碼。
黃銳華說。
於是,掃描王團隊開始思考一些瘋狂的事情。比如,能不能內嵌一個音樂播放引擎,讓掃描王看到五線譜就直接把音樂播放出來?比如,能不能加入一個模擬器,把看到的代碼直接運行出來?
你看,從提取文字,到提取格式,現在到了“提取一切”。掃描這個坑比馬裡亞納海溝還深。。。
當然,這些只是一小部分例子,各種有趣的功能每天都在討論中,受限於各種因素最終未必都做出來。但老師傅敢討論這些東西,前提是掃描的核心技術已經到了足夠“支撐花活兒”的地步。
“就拿代碼來說,它對格式極其敏感。同樣一個位置,放兩個空格和三個空格,意義就不相同了。如果掃描不對,肯定執行不對!”黃銳華解釋。
聊到這裡,我頗有一點感慨。
用戶在拍這些奇怪的東西時,肯定沒想這麼多。但實際上,遠在千里之外,他們所有靠譜不靠譜的嘗試都沒有被責怪,更沒有被忽視,而是被思考,被念念不忘,被必有迴響。
如果說存在“互聯網精神”的話,恐怕這就是互聯網精神的重要部分。
我在2020年曾經和夸克的小夥伴們聊過一次(參考 ),那個時候,我感覺夸克的用戶中學生比例極高——就是那些整日做題、搜題,純純的人生新手。
但如今看夸克掃描王的用戶,已經大有不同。
他們之中可能有公司的人事經理,需要經常整理人員信息,備份合同;可能有工程師,需要掃描圖紙增改設計;可能有“包租婆”,需要掃描一份舊的租房合同,修改一下信息重新打印。
這張圖裡有房屋租賃交割單、企業詢證函和材料計劃表。
這些用戶顯然已經走出了人生的新手村,正在各自的戰場跟怪獸搏鬥。
在我看來這是一個有愛的變化。
我試着想象這件事是怎麼發生的:也許是在學生時代就用夸克的人長大了,他們進入了五花八門的工作崗位,仍然習慣依靠夸克解決問題;也許是一些“老人”被年輕人安利“夸克yyds”,然後入坑。也有可能是兩種情況兼而有之。
但這一切之所以發生,恐怕是因爲在一段不短的日子裡,夸克沒讓他們失望。
大多數時候,“維護信任”比“建立信任”更難。因爲你要在漫長的歲月裡時時審視自己——不僅審視自己的善,更要審視自己可能的惡。
(五)兄弟,信我!
在夸克日常收到的反饋裡,有律師說他用夸克掃描裁判文書,也有公司財務說她會掃描經營數據。
看到這,你也許會有點隱隱的不舒服。
沒錯,大膽說出來——這些數據涉及隱私,用夸克掃描王時,數據經過雲端會不會有問題?
這件事兒引發的大討論,居然沒有首先發生在夸克的用戶羣裡,而是在夸克團隊內部。
爲了使後面的討論基於事實,這裡必須得強調,夸克團隊的任何人都不能查看用戶上傳的圖片,也不能以任何形式泄漏用戶上傳的數據,約束他們的不只有自我道德,更有法律條文。
但你吃了幾碗粉,不是你說了算。世界的運行,也不能靠賭咒發誓。
比如,有很多公司,在規章制度裡就寫明,禁止內部數據上傳互聯網,不管會不會引發問題,反正不允許上傳;還有很多特殊的工作環境,本身就帶有信號屏蔽,這種情況下,就算讓你用都沒辦法用。
意識到這些問題以後,夸克這羣人決定緊急上線一個“補丁”——離線掃描。
你還記得一開始我們說的掃描三步走嗎?1、本地裁剪;2、雲端處理;3、發回本地導出文件。
所謂離線掃描,就是把第2步本該在雲端完成的一切(去瑕疵、去手寫、文字提取、格式提取等等)統統都塞在手機裡完成。數據從頭到尾都不出手機,自然不會有隱私泄露的問題。
這種“不出手機”是可驗證的——你可以關掉網絡,拔掉手機卡,進入信號屏蔽室,whatever,只要手機有電,夸克掃描王就能工作。
可是,這個目標會引發一個巨大的技術問題:
算法團隊剛剛使出吃奶的勁兒,把雲端的計算力飆到最高,把算法捲到最新,才把掃描效果做到極致。現在你端着手機告訴他,忘掉你們那可愛性感一望無際的小云朵吧,這個小盒纔是算法的家啊。。。
然而,暴躁老師傅黃銳華沒有掀桌子。相反,他非常支持。
他支持到了從本就人手不富裕的團隊裡分出一個小分隊,專門做“離線算法”的程度。
把算法塞進手機,難度堪比把大象裝冰箱,嚴格來說比把大象裝冰箱更難,因爲雲端算法比手機裡的算法大100倍。而世界上沒有任何一個東西壓縮100倍之後還能保持原有的功能——這意味着大多數算法必須重寫。
老師傅沒日沒夜地飆車,終於,2020年8月“離線掃描”重磅上線,用1%的模型大小,實現了雲端90%的水平。
從一個角度看,離線掃描的水平非常驚豔,但從另一個角度看,它卻是一個“性價比非常差”的功能。
比如,它上線之後,被調用的數量並不多——因爲絕大多數情況下用戶掃描的都不是敏感信息,不會開啓離線模式。
比如,派一個專門的團隊來持續維護離線算法非常不經濟——相當於一輛車同時有兩部引擎運轉,開銷巨大。
而且,還有一個非常難受的問題:在大多數用戶的注意力沒有放在隱私風險的時候,主動推出離線掃描,反而讓他們覺得怪異,有引火上身的風險。就像我忽然對你說:你猜我的褲子拉鍊有沒有拉上?哈哈,拉上啦!
但尹毅彬說,他們不這樣看問題。
“一個功能好不好,不能純粹用數據來衡量。說得不客氣一些,數據是會騙人的,有時你必須更相信自己的腦袋。”他說。
“但成本上總會有壓力吧?”我問。
“當然有壓力。壓力歸壓力,正確的事歸正確的事。”他說,“況且,正確的事情早晚會帶來數據的回報啊!不用擔心,長期來看我們並不虧。”
講真,每個年輕人長大的過程中,生活都會或早或晚給他上一堂必修課,那就是:當越來越多人依賴你的時候,你身上就憑空出現了一種叫做責任的東西。而責任就是責任,它不會因爲你不想負責任而變成別人的責任。
這是一個既簡單又難的道理。簡單到人人都能理解,卻難到極少有人能夠做到。
話說回來,性價比很高的事情,總共就那麼三五件,智商正常的人都在做。真正把人和人、產品和產品區別開的,不就是誰做了更多性價比不那麼高,但正確的事情麼?
倒不能說夸克已經是楷模,我的意思是他們努力的方向還挺性感的。
(六)我們各自還有一生的奇蹟
王淮是一個對未來充滿想象的人。他具體在做的事情雖然只是一個夸克客戶端,但他卻相信,手機背後這幾顆小小的攝像頭裡有關於未來的隱喻。
他說。
我在網上找到了一些AR未來應用的片段 ⇩⇩⇩
我回味了一下他的描述,腦海裡突然出現了一個奇怪的場景:
我是一個上班第一天的戰五渣,緊張到臉盲,連隔壁同事叫什麼都忘了,這個時候,打開AR眼鏡上的掃描王,對方的名片,還有我們認識的時間地點,曾經交談過的內容,都出現在眼球幾釐米開外的小屏幕上,簡直是社恐救星。
就在我盯着屏幕認真研究對面這個人是誰的時候,驚奇地發現他也在斜眼看自己的屏幕,奮力找出我是誰。。。
這個場景等同於:一個遊戲新手,正瑟瑟發抖站在曠野上,突然從天上掉下來一把滿級神刀,拿起來剛想大殺四方,發現身邊所有的對手也都瞬間添置了一模一樣的刀。。。
如今每個人都能坐在鐵鳥的肚子裡飛到全世界任何一個地方,每個人能用帶芯片的板磚跟天邊的朋友通話,你並不會驚奇。因爲當每個人都有神刀的時候,每個人就都沒有了神刀。
科技讓我們平等地進步,平等到沒人大驚小怪。
如果真有什麼是神奇的,在我看來,是夸克團隊和他們的用戶,這兩羣年輕人一直在隔空“陪伴”。
當年輕人上路,口袋裡揣着一個精靈球,雖然牛鬼蛇神在前路夾道歡迎,但他們無比確信,在雲端有一羣和自己一樣逗比又好奇又不願輕易認輸的強迫症、老司機、好哥們,在沒日沒夜地絞盡腦汁幫自己改進精靈球,心裡也許會稍稍安慰。
相信老哥我,以我三十多年對這個操蛋的世界的理解,哪怕是這種稍稍的安慰,都是人生中不可多得的珍貴情感。
能帶着情誼和一羣朋友一起變大,變老,從戰五渣變成“老戰五渣”,反覆吐槽那些只有你們之間才懂的爛梗,恐怕無需遠求,人間至味是此清歡。
雖然你我終將老去,但總有人正年輕。
有一件事我們無比確信:在世界的角落裡,永遠有18歲的少年,他們在新手村口最後回望,然後扶一扶劍柄,決絕地走向荒野。
也許這時,BGM還會響起那首老歌:你要去哪裡,我去哪裡,我也不在意。以後我們各自還有一生的奇蹟。
幹翻寶可夢
先有精靈球
再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。
哦對了,如果喜歡文章,請別吝惜你的“在看”或“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。
Thx with in Beijing