記AI英雄榜先鋒獎得主周曦:深耕語音十餘年爲何轉戰圖像

出品|本站智能(公衆號 smartman163)

作者|丁廣勝

“我做了一個錯誤的判斷,一個正確的決定。”

周曦這樣形容自己在創業伊始,學習研究領域和創業實踐領域的不同。

按照摩爾定理,語音識別每 18 個月錯誤率能夠減半,他感覺實用還是很難,而圖像識別的視頻和圖像是個更大的天地,可以解決的問題要多得多。對於圖像來說,識別宇宙萬物都非常有意義,不僅僅是識別人的臉。

判斷的錯誤之處在於,他現在感受到了語音識別的迅猛進展,由於公司發展需要,雲從科技也在完善語音與NLP等感知技術

而篤定正確的原因在於,圖像應用場景更加廣泛,而人臉是圖像之中最重要的東西,每個行業都與人有關,它是天然的跨行業入口,“作爲一項對社會生活必將影響深遠的事業人工智能企業的重點就是要解決問題,人工智能企業目前的體量還沒有大到幾百上千億的規模,即便最領先的公司,收入規模也就是10億級,這對於GDP快100萬億的國內市場而言,還是非常小的數字。”

在語音識別領域研究探索十餘年,如今戰鬥在圖像識別一線,“轉型”成功的周曦如何一步步成長?又如何洞悉未來?

學習之路

從1999年開始,周曦進入中國科學技術大學學習,2006年碩士畢業

讀研究生期間,他成爲一名微軟亞洲研究院的實習生,談及這段經歷,周曦感慨萬千。

他當時照着《肖申克的救贖》裡的橋段開始給微軟亞洲研究院發郵件,在電影中,安迪寫信向州議會要錢建監獄圖書館,當時獄警跟他說肯定沒用,你寫多少都沒用,他們不會理你的,但最後真的撥款建了起來。周曦也在一直堅持,從最初每週一封到後來每週兩封,寫了近三個月,居然真的拿到了實習通知。

後來他才知道,申請實習的那個組,中途發生了人事變動,一直處於無專業組長的狀態,新來的負責人無意中看到信,他才終於等來實習機會。

“我們永遠不知道過程中會發生什麼,跟搞研究一樣,能做的只有努力。”在微軟亞洲研究院,他還遇到了一羣當時全中國最優秀的人,大家在一起可以產生思維和技術上的碰撞與融合就是最大的收穫。“那個時候的微軟是技術研究者的聖地。”

在這裡他還遇到了自己的人生中最重要的導師——周健來,“他是一個技術背景深厚,兢兢業業的科學家。”周曦談到,從推導數學公式到電腦上的實驗,需要經歷一系列複雜的過程。而實驗結果基本上都會很壞,因爲程序、推導可能寫錯,假設也可能出錯,在這麼長的鏈條上,很多時候我們根本不知道錯在哪裡。

“這是一個痛苦的過程,周健來卻讓我從中意識到了做研究的樂趣,而之前我們採用的辦法是走捷徑,風險都被前人承擔了。做研究就像打戰,雖然推導的過程前人已經做過,但你走一遍就相當於掌握了這項武器,就可以上戰場了。”

而周曦對於圖像識別研究的興趣也始於這段時間,有一天,他看到一條新聞,國外有人在泳池下裝了一個攝像頭,可以自動識別游泳者是不是溺水,他想,做圖像視頻可以有很多的方法幫助別人,非常有意思而且價值巨大。

碩士畢業之後,周曦離開微軟,在2006年的夏天來到了美國伊利諾伊大學(UIUC)。

周曦(左一)、Thomas S. Huang(左二)、中科院重慶研究院院長袁家虎(左三)

四年的博士與博士後生涯,周曦師從四院院士、“計算機視覺之父”黃煦濤Thomas S. Huang,“他是那種給我們營造環境的大師,給我們很大的平臺和 high-level 的指導,比較輕鬆自由的環境,可以去做自己想做的方向,我們那會兒自己三五成羣研究自己感興趣的東西。”

在那個時候,語音識別走在圖像識別前面,已經到了系統化的階段,語音有很多做得很好的算法和思想,周曦在圖像上實踐,2006-2010 年之間拿了很多世界冠軍。周曦開始琢磨,拿了這麼多冠軍,總要做什麼有意義的事兒吧,這時他就發現,圖像識別雖然能識別宇宙萬物,但一定要具體到一件事上才能幫助別人。

2011年秋天,周曦選擇回國。

創業之路

周曦以中國科學院“百人計劃”專家身份歸國加入了中科院重慶綠色智能技術研究院,成立智能多媒體中心,這個中心是由中國科學院聯合新加坡國立大學,伊利諾伊大學創辦,專門從事人工智能領域的研究。

在中科院的幾年間,他將多年來的積累所學上線實踐,在2007-2016年期間七次獲得智能識別類世界大賽冠軍,曾作爲中國科學院人臉識別唯一代表參與戰略先導A類專項“新疆安防布控”。

在周曦看來,智能語音的發展成熟度要比圖像高很多,但圖像識別領域不一樣,這裡正處在“戰國時期”,百花齊放百家爭鳴,這是一座大金礦,每家都說自己的東西是最好的,同時,圖像識別領域還沒有形成大環境,競技的舞臺還沒有搭好,這是一個機會,百家爭鳴的時代,更容易異軍突起。

2015年4月,周曦牽頭成立雲從科技,走上創業道路,初創團隊大多來自中國科學院各大研究所、著名大學及研究機構。

截止目前,在金融領域,雲從科技服務包括農行、建行、中行、招行總行等全國400家銀行,提供對比服務日均2.16億次;在安防領域,他們的產品已在29個省級行政區實戰,每天比對超過10億次,數據匯聚總量超過千億,協助全國公安抓獲超過1萬名犯罪嫌疑人;在民航領域,雲從科技已進入60餘家機場,日均服務旅客超6千萬。

近四年的創業路,周曦也吃了很多“教訓”,他告訴本站智能,學術界所關心的大部分是技術問題,而工業界需要關注的問題更爲廣泛和實際,一個好的技術與一個好的商業實踐之間,有着巨大的鴻溝,只靠技術和科研是遠遠不夠的,從核心技術走到產品;從產品走到行業解決方案;從行業解決方案走到銷售;從銷售走到整個服務體系,這一圈只有親自走完,才能得到客戶的認可。

他舉例到,在創業初期,團隊要去一家銀行做投標,參與人臉身份認證的業務。爲了拿下這個項目,科學家在一起憋了好多天,寫了十幾頁的方案,自己覺得已經非常詳盡了,也考慮到了各種情況,但實際情況卻讓他們大吃一驚——銀行方說從來沒有供應商給他們寫過十幾頁的方案,最少都是300頁起。

而在這之前,團隊根本不知道這個事情需要寫這麼多內容,行業認識的不足導致他們栽了跟頭。“要想讓對方接受自己的方案,就必須從對方的需求出發,只有你熟悉了細分行業,瞭解整個行業的信息技術架構,才能知道自己需要做多少準備,才能考慮整個產品的解決方案。”周曦總結道。

目前,周曦越來越少出現在公共場合,將主要精力用在了打磨產品和解決方案上,他認爲解決用戶的問題就要做出好的產品,在好的產品和解決方案基礎上形成平臺,最終組成一套聯動的網絡

他還提到喝酒拉客戶的問題,周曦說從公司成立起就從不陪客戶喝酒,“如果能夠真正幫助人家解決真正的問題,人家不在乎你跟他是不是喝酒,反過來如果你靠喝酒,我不認爲你最後能解決人家大問題。”

他認爲當企業比較小的時候,也許能靠搞關係去搞定幾個大客戶,但如果真的想做一番事業,就回到一個科學問題,要有一套科學體系,一層一層解構,並且進行驗證。

探索之路

“中國有一個習慣,在短期內過於高估技術的實力,而又在長期低估技術的潛力。”

在1997年,人類象棋冠軍卡斯帕羅夫輸給了一臺深藍人工智能,當時就有很多人說,這是一個新的時代、一個人類將被人工智能支配的時代。但20年後的今天,我們和人工智能關係的最大改變是iPhone,不是深藍,也不是Alpha Go,周曦談到。

從長期來看,他認爲人機交互技術是一個時代的入口,它能讓用戶更方便的與服務、內容連接,而今後的交互模式就是人工智能、互聯網(5G)、IoT,人工智能作爲核心能力,通過5G網絡驅動加載AI芯片,具備計算能力的終端設備,“最好的人機交互,就是沒有交互,一個想法就可以實現服務”。

對於雲從科技而言,在平臺化之外,則是AI定義場景與AI定義設備的謀劃佈局。什麼叫AI定義場景呢?周曦介紹稱就是說與行業專家一起,提取行業最廣泛和最關鍵的需求,做出最好最通用的產品和解決方案去滿足他們的需求,讓人工智能能夠大幅提升行業智能化水平,AI+細分場景能夠被認可。

一言以蔽之就是,從客戶的實際需求出發,研究推出全新的解決方案和服務。他們還總結出了五點方法論:

L1,核心技術;多個核心技術研究,打造核心技術閉環,解決學術成果領先性問題;

L2,技術驗證;解決使用環境中的問題,驗證成果在行業中是否能夠實戰;

L3,服務行業;將獲得驗證的核心技術形成產品和解決方案,真正幫助行業。

L4,構建平臺;構建行業大腦,提升整體行業水平,而非單個企業。

L5,建立生態;AI企業以核心技術、產品能力、行業平臺作爲基礎,帶動產業上下游,使人工智能成爲中樞,形成智能生態,實現“頭雁”效應。

周曦認爲只要真正的在一個個行業裡解決問題,一定會有市場,資本寒冬也不是問題,問題就在於沒有做出好產品,或者你對自己做出來的產品,有沒有決勝千里的信心,未來誰能實現從產品型企業到平臺型企業,進而建立產業生態,一定是企業良性發展的重要保障。

但這個過程充滿挑戰。