對話李國傑:突破麥肯錫和圖靈的框框,人工智能要解決大問題丨GAIR 2021

挑戰NP-hard級別難題,走向工程化基礎科研。

作者 | 莓酊

編輯 | 岑峰、青暮

承載東莞突破固有發展路徑而生的松山湖,是我國城市經濟高質量轉型的一個生動縮影。

在東莞啓動的“科技東莞”計劃中,李國傑是最早參與合作的開拓者。如果細數中國IT界的商業大咖,他的名字似乎鮮爲人知。但你一定聽聞過我國本土高技術品牌:“曙光”和“龍芯”。而李國傑正是它們背後的佈局者和締造人。鴻儒碩學的李國傑似乎與人們津津樂道的商業傳奇形象大相徑庭,他更像一位深耕學術的大先生,試圖在科研、技術和產業之間,搭起一座融會貫通的橋樑。

目前,李國傑兼任中科院雲計算中心的首席科學家,大部分時間住在東莞松山湖。

2021年,松山湖吹響了“改革、創新、再出發”的號角,而“創新”也恰恰是李國傑最看重的一點。

1

終日乾乾,與時偕行

2021 GAIR大會現場

李國傑之前撰文道,創新的關鍵不僅僅是建立世界一流大學,企業的眼界、實力和科技創新活力也很重要。

他也曾對國內AI研究的創新能力表示了擔憂。“雖然國家高度重視人工智能技術發展,近年來我國學者也發表了大量的 AI 論文和專利等,在智慧城市建設、抗擊新冠疫情、籌備北京冬奧會等應用中取得顯著成效,出現了一些人工智能獨角獸企業的AI落地成果。但我們的研究多數是技術驅動、論文導向,目標導向和問題導向的研究較少。”

早在2006年,李國傑就在《中國科學院院刊》中指出:“儘管我國企業、大學、科研機構的創新能力都很弱,但我認爲我國國家創新體系中最薄弱的環節是技術轉移。”這也正是他自己做曙光計算機和龍芯CPU產業化的深刻體會,在擔任中科院計算所所長期間,他也將“技術轉移”作爲提升科研機構創新能力的關鍵,並推動了計算所以“創新跨越、持續發展”爲導向的科學院知識創新工程的實施。

2011年李國傑卸任中科院計算所所長後,位於改革開放前沿的中科院雲計算中心(前身是廣東電子工業研究院)則成爲了他的另一個基地—— 2005年李國傑就在東莞松山湖創辦廣東電子工業研究院,這是東莞市首個與國家級科研機構合辦的省級科研平臺。

廣東電子工業研究院

“建立廣東電子工業研究院的目的有兩個,一是促進建立一批公共技術服務平臺,對亟需轉型的東莞加工製造業提供技術支持;二是把該研究院打造爲中國科學院技術轉化的平臺。”從李國傑談及落地東莞發展的原因中不難看出,他正是將廣東電子工業研究院作爲承載自己創新與技術轉移思考與解決方案的一塊“試驗田”。

李國傑說的“一批”指的是,就在廣東電子工業研究院落地東莞之後的第二年,“科技東莞”工程正式啓動,東莞開啓了聯合高校院所、檢測技術機構的合作共建之路。一大批公共科技創新平臺相繼落戶東莞和松山湖,科技創新的資源加速集聚。

爲褒獎李國傑多年來對東莞科技升級和創新的貢獻,2021年,東莞市政府授予李國傑“榮譽市民”稱號。

受疫情影響,去年李國傑在東莞居住的時間要更長,也使他得以靜下心來,有更多時間去思考科學研究、創新和科技成果轉化之間的關係。

而真正讓李國傑上述想法“出圈”的,是2021年八月,一篇名爲《李國傑院士:國內AI研究頂不了天、落不了地,該想想了》的文章。它如平地驚雷,引發激烈熱議。也將一向低調的李國傑推向風口浪尖,批評聲與支持聲紛至沓來。

媒體和社交平臺上關於國內AI領域乃至整個學術界缺少原創性工作的討論,似乎從未停止過。究其原因,普遍認爲是當下的學術評價體系不合理。

過分看重文章數目、IF、citation等表面化、指標化的東西,各大高校執行「僵化」標準評定人才。「論文導向」使得不少科研課題和研究內容來自“閉門造車”的願望,脫離實際需求,不利於產生從0到1的創新工作,浪費了大量的資金投入。「學術評價體系」和「學術潛規則」的雙重作用,或許正是造成李國傑文中所指出的AI研究“頂不了天、落不了地”的原因之一。

但也有人認爲,李國傑這番說法“聽君一席話,如聽一席話”,正確但沒有任何指導價值。還有人認爲“這樣的話我也會說”,在知乎關於該文討論問題下有這樣一條評論:“如果院士的水平,在2021年給出了頂不了天,立不了地的病情診斷;那麼他應該立刻給出‘如何頂天,如何立地,爲什麼頂不了?爲什麼立不住?’的治療方案。”

面對質疑,李國傑卻保持了低調,僅在某微信公號上發表了一則簡短的聲明。在信息爆炸的時代,這條聲明也如同投入湖中的石子,雖然激起了漣漪,湖水終究也會隨着時間的推移而慢慢歸於平靜。

“我首先是覺得很欣慰,因爲年輕人願意質疑、勇於質疑是好事。”在2021年底召開的GAIR 2021 大會上,李國傑告訴雷峰網。

李國傑作爲嘉賓參與了GAIR 2021“”紀念圓桌的現場討論。會後,李國傑與雷峰網進行了一次對話,評述了計算機科學和人工智能理論研究長期以來存在的“不以解決問題爲導向”的傾向,對“頂不了天、落不了地”做了進一步解讀:AI的“頂天”和“落地”指的是AI不僅要解決已有應用中的一些小問題,更要解決NP-hard級別的大問題,而我們目前在人工智能的研究方向規劃上常見的問題是,要麼不夠“頂天”,要麼難以“落地”。

這當中有歷史的原因,也正是他希望提醒研究者們應該注意的地方。

以下爲雷峰網整理的對話實錄,雷峰網做了不改變原意的編輯:

2

“頂不了天,落不了地”引發的爭議

雷峰網:我們先從您2021年8月的一篇“頂天立地”的文章說起。當時您的文章發表後引起了業內的廣泛討論。

李國傑:其實當時我已經發表了一個聲明,我並不是對中國AI研究現狀做定論。文章的原標題是《人工智能應用取得重大成果的啓示》,主要是闡述AlphaFold在生物領域的突破性進展帶給我們的啓示,相關報社認爲標題太平淡,未經溝通,便把題目改成《國內AI研究“頂不了天、落不了地”,該想想了》。

我在文章中提到的問題是指,目前國內許多大學和企業已經感受到“頂不了天又落不了地”的困擾。希望大家在選擇AI研究方向上“多動腦筋”,AlphFold 2取得成功的主要原因是DeepMind團隊目光敏銳地認定,用人工智能可以解決蛋白質結構預測問題。方向本身具有前瞻性、挑戰性,而且解決後意義重大。我國啓動的新一代人工智能重大科技項目,開展了數據智能、跨媒體感知、羣體智能、類腦智能、量子智能計算等研究,已取得不少研究成果,但沒有涵蓋這種類型的研究。因此,我們該想想了。這是提醒在選擇人工智能做什麼時候要多想想,不要“隨大流”。

AlphaFold 2 自由建模類蛋白質靶標的兩個示例

“頂天立地”的意思是:在技術上要“頂天”,要敢於闖進“禁區”,做別人認爲不可能成功的前瞻研究;;應用上要“立地”,要解決經濟、國防建設中的大問題,也包括用人工智能技術解決基礎研究中的挑戰性問題。

雷峰網:對比國內人工智能的研究,我相信您的這些看法,也不是一朝一夕就形成的。請問是什麼原因讓您關注人工智能併產生這些想法呢?

李國傑:文章刊登後,做AI創業的年輕人不服氣,我完全理解,畢竟在他們看來我只是一個搞高性能計算的‘老頭’,有什麼資格評價人工智能呢?我首先是覺得很欣慰,因爲年輕人願意質疑、勇於質疑是好事。

我在很多場合前說過,我算是第二波人工智能的“弄潮兒”之一。

1987年李國傑(左)、夏培肅(中)、李政道(右)在國際學術會上討論問題

1981年中國科學院碩士畢業後,夏培肅先生推薦我到美國普渡大學攻讀博士學位,研究與AI有關的組合搜索。當時國際AI學術圈中鮮有中國學者。1984年,我在AAAI大會上發表了論文,AAAI那時還是美國國內的人工智能協會(American Association for Artificial Intelligence,2007年AAAI改稱爲國際性的先進人工智能協會,Association for the Advance of Artificial Intelligence),名氣不像現在這麼大,在會上我沒有遇到從國內到美國德克薩斯州奧斯丁來開會的學者。

1985年,同我的導師華雲生教授,我們共同編著了一本自學參考書(Tutorial)《Computer for Artificial Intelligence Applications》,連續三年成爲IEEE最暢銷出版物,當時新進入智能計算機領域的學者大多看過這本文集。在書中我沒有使用「智能計算機」(intelligent computer)一詞,而是採用「適合人工智能應用的計算機」,當時很難做出真正意義上的「智能機」,只可以講是將計算機應用於人工智能。1987年我回國工作,先後出任中科院計算所研究員和國家智能計算機研究開發中心主任,也將重心放在高性能計算研究上。但我從未停止過對"人工智能"的關注。

李國傑與導師共同編寫的書籍

雷峰網:可以說您見證了我國人工智能學科的成長和發展,最初人工智能在我們國家是什麼樣的情況?

李國傑:我國人工智能的發展是走過一段彎路的。最早的人工智能學會不在中國科協體系裡,而是在社會科學這個體系中,掛靠在中國社會科學院下面。(關於中國人工智能學會成立的早期故事,在即將出版的《中國人工智能簡史(第一卷):致敬傳奇》中有更詳細描述)。

863計劃初期,我曾是智能機專家組(306主題)的副組長。按照專家組的意見,戴汝爲(中科院院士、著名控制論與人工智能專家)和我出面聯絡全國的人工智能學者,試圖創立全國大聯合的人工智能學會,跟全世界主流人工智能學會對標,歸屬到科協體系裡,但此事沒能做成。當時我們的人工智能研究與國際上主流的人工智能是不接軌的,同樣是做人工智能,大家關注的東西有着不同的發力點。

雷峰網:您這篇文章裡提到AlphaFold在生物領域做出了一些成就。您是如何想到用AlphaFold舉例子的呢?

李國傑:我對生物領域的瞭解,是始於我的學生卜東波,他是這方面的專家。在AlphaFold 2問世以前,國內外有不少科學家在做用計算機預測蛋白質三維摺疊結構的研究。卜東波團隊2020年在Nature Communications期刊發表論文,在蛋白質結構預測方面做出了世界領先的成果。他做出來的幾個代表性預測結果比AlphaFold要好,AlphaFold在CASP比賽中的GDT得分約爲50多分,卜東波能做到70分。後來AlphaFold 2 做到90分就超過他了。

爲什麼以AlphaFold爲例?這是基於我對人工智能的一個基本判斷:人工智能不僅要模仿人,更要解決大問題。從計算機科學的角度來講,人工智能應該關注NP-hard級別的難題。我們現有的人工智能研究,要麼不夠頂天,只能解決小問題,要麼難以落地,難以在實際場景中得到應用。

3

“人工智能是拿來解決大問題的”

“頂天”意味着什麼

雷峰網:您此前提到,學術界的人工智能研究過分侷限於約翰·麥肯錫的定義,也就是人工智能的目標是“像人”,並指出我們應該突破對智能的狹義理解。這與AI要解決NP-hard級別難題有什麼聯繫?

李國傑:“像人”的人工智能是一個已經被大家很重視的方向,但我認爲人工智能的另一個發力點是「解決大問題」。尤其是用機器學習的方法解決意義重大的科學難題,即在多項式時間內“有效解決”指數複雜性問題。

所謂指數複雜性是指求解一個問題所需的時間或空間(存儲用量)隨着問題規模增加而指數性地增加。這也就人們常說的組合爆炸。在計算複雜性理論中,將一大類目前還找不到多項式級複雜性算法的問題劃歸爲NP-hard問題。如果一個問題能找到多項式級複雜性的算法,例如排序算法等,直接按確定的程序計算就能精確求解,人們一般不認爲是人工智能應用。人工智能要研究的問題幾乎都是NP-hard問題,從其誕生開始就要對付組合爆炸。從這種意義上講,人工智能的“天”就是組合爆炸,所謂“頂天”就是找到巧妙的辦法克服組合爆炸。

經過60多年的人工智能研究,對付計算機視覺、聽覺、機器翻譯等領域的組合爆炸已取得令人滿意的進步,但在基礎研究和實際應用中還有大量的NP-hard問題等着我們去突破。隨着氨基酸單體的增加,蛋白質結構預測的計算複雜度呈指數級上升,如果用野蠻搜索,蛋白質結構預測的可能組合高達10的幾百次方,這是典型的NP-hard問題。如今的“卡脖子”的芯片設計問題也是NP-hard問題。中國科學院計算所正在探索用“芯片學習”取代“芯片設計”,這可能是破解芯片設計人才缺口的出路。

這些纔是真正的大問題,人工智能研究要頂天,就必須進入這些過去認爲不可能的“禁區”。

難以落地是“不爲也”,“非不能也”

雷峰網:上述您提到的兩個例子,蛋白質結構預測和EDA都是應用價值很高的問題。您認爲只要專注NP-hard級別的難題,就可以讓人工智能研究既可頂天又能落地嗎?

李國傑:還不夠,這關係到計算機科學界的一個“傳統”。有一本經典的關於NP問題的研究生教材《Computers and Intractability: A Guide to the Theory of NP》。書裡第一頁就是幅漫畫,畫中兩個人在對話,一個人說:“我找不到有效的算法,但所有這些最優秀的人也找不到”(見下圖)。這其實代表了計算機理論界對NP-hard問題的態度。

直到50年後的今天,這一“傳統”仍在持續影響着一代又一代計算機科學領域的學者。人們都在拼命證明“這個問題是不是NP-hard”。只要是NP-hard問題, 就沒有‘我們’的責任了,而不再想有沒有什麼辦法解決困難問題,這是很滑稽的局面。其他學科都在努力解決各種難題,唯獨計算機科學整天在討論什麼問題解決不了。

只糾結於理論邊界的證明,而不去想辦法解決問題,這是我們無法讓困難問題落地的根本原因。幾十年來,我們將NP-hard問題視作障礙,認爲這是我們無法解決的問題。但是隨着人工智能和計算機技術的進步,我們發現通過啓發式搜索、知識工程和機器學習,加上充分大的算力,很多NP-hard問題可以得到滿意的解。NP-hard意味着不可能的時代已經過去,NP-hard只是意味着可能沒有始終有效和可擴展的算法而已,但許多NP-hard問題對於應用而言實際上有可以解決。人工智能學者的任務就是發掘出貌似不可能中的可行方案。

我這裡講的用人工智能解決NP-hard問題,不是指理論意義上的“解決”。

“P=NP”問題可能幾十年內都解決不了,但人工智能學者可以在實踐中不斷逼近這個等式。計算機科學界過去傾向於做理論上的完美證明,或許是後來人誤解了圖靈的意圖。圖靈定義了不可判定問題,例如停機問題,指出這一類問題永遠不可能用圖靈機解決,這就劃定了圖靈機的能力邊界,反過來也就定義了什麼是可計算問題。這個成果本身很偉大,但後來很多人卻從錯誤的方向理解圖靈機,他們執着於前者,熱衷於探討什麼問題“理論上”不可計算或在可接受的時間空間內不可計算,而不是去積極探索如何“實際上”解決難解的問題。

這種認識上的誤區來源於沒有區分“問題”和“問題實例(Problem instance)”。計算機科學中要求解的“問題”是指包含各種實例的一個問題類,而人工智能應用要解決的“問題”往往是具體的問題實例。實際上,一個指數複雜性問題(類)中最難解的通常只是其中很少的實例,其他的實例都是可以求解的。

機器學習的黃金時代

雷峰網:近幾年深度學習很火,機器學習是不是解決NP-Hard問題的有效途徑呢?

李國傑:計算過程中有複雜性就如同物理運動中有摩擦力一樣,摩擦力不可能完全消除,複雜性也不可能完全消除。但摩擦力可以通過改變材料和運動方式減少,求解方法的實際複雜性也可以通過改變問題的描述方式或知識的表示方式而改變。目前廣泛流行的深度神經網絡對一個問題的描述與過去的符號推理完全不同,深度神經網絡通過機器學習獲得的連接權重分佈實際上是一種新的問題和知識表示方式,已經表現出前所未有的問題求解能力。

人工智能界流行一種說法:深度學習已經碰到天花板。但我認爲深度學習還有發展空間,更廣義的機器學習的巨大發展空間難以估量,今後十年可能是機器學習的黃金時代。機器學習特別是深度學習對於人類知識依賴性較低,可以應用到多種類型的NP-hard問題求解中。機器學習的可擴展性較強,通過規模化效應可能不斷得到新的發現。人工智能是一門追求獲得“令人驚訝”結果的學問,我相信未來十年會有許多“令人驚訝”的新成果不斷冒出來。

人有“人智”,機有“機智”,知識的範圍將擴大到“明知識”和“潛知識”以外的“暗知識”。機器學習、巨大算力與已有科學知識的結合,將推動科學研究走向基於人工智能技術的大平臺模式,科研的深度和效率將超過僅僅是數據驅動的“科研第四方式”。現在已隱約看到新的“科研第五範式”的雛形。

人工智能離不開計算思維,但又不等同於計算思維。圖靈定義的計算(算法的執行)是輸入到輸出的函數映射,其結果一定是重複一致的,這種“計算思維”一定程度上限制了人工智能研究的創造性。“圖靈機”不是指一臺“機器”,而是指一臺機器的一個特定的運行過程或使用方式,包括對初態和終態的劃分。機器學習的輸出屬性往往要根據經歷和處境而定,一個不斷學習的系統是不重複先前的內部狀態的。“計算”的概念不足以涵蓋所有智能和認知過程。簡單地劃分“易解”和“難解”問題的傳統計算複雜性理論的框框也需要突破。

圖靈機模型

4

人工智能研究需要戰略眼光和“咬住不放”的毅力

雷峰網:您曾說國內學者與一流科學家水平還有較大距離,像AlphaFold2項目的成功,您認爲是他們在選題時「目光敏銳」。但不是說隨隨便便就可以找到一個好科研課題,請問您覺得我國學者該如何培養科研中的「敏銳目光」?

李國傑:所謂“目光不夠敏銳”,指的就是佈局的科研項目要麼是增量式的技術改進,即頂不了天,要麼是幾十年都難以突破的理想型目標,即落不了地。DeepMind學者利用AI預測蛋白質摺疊結構,充分體現了超前的預見性,值得我們深思。

如何擁有「敏銳目光」是學術界的大難題,也是所謂「大師」和「二流學者」的區別。真理往往在少數人手裡,真正能看準科研方向的科學家很少,而且科研中誰最先獲得重大的新發現也有偶然性。但“隨大流”是當前科研中比較普遍的現象,一般而言, 追熱點,隨大流做不出大成績。

「敏銳目光」是一個人綜合素質的體現,不僅是科學素養,還包括人文情操。著名數學家丘成桐先生說過:“中國的理論科學家在原創性還是比不上世界最先進的水平,我想一個重要的原因是我們的科學家人文的修養還是不夠,對自然界的真和美感情不夠豐富。”

「敏銳目光」不是一個拒絕隨波逐流的瞬間節點,而是縱向延伸的時間線,節點前是對行業的深刻洞悉和見解,節點後是守得雲開見月明的決心。取得原創性的重大科研成果不僅需要才學過人、敢爲人先,而且需要“咬住不放”,持之以恆。

我們都知道圖靈獎得主Geoffrey Hinton,他獲得認可的背後是30年的默默堅持。當時美國主流學術界不看好深度學習,幾經輾轉,研究經費捉襟見肘的Hinton只能去加拿大。2006年Hinton終於一鳴驚人,在《科學》上發表文章。到2012年,Hinton與他的學生Alex Krizhevsky,奪得ImageNet大規模視覺識別挑戰賽冠軍,深度學習才得以被人注意,並從此大放異彩。

5

在基礎研究中要重視發揮工程技術的作用

雷峰網:您曾表示,AlphaFold並沒有提出新的科學原理,它更像一個集成工作。在文章中您也提出工程學技術不是工具,不僅僅是基礎研究成果的應用,而是在基礎研究中可以發揮巨大作用的重要組成部分,您是覺得我們現在對工程技術還不太夠重視嗎?

李國傑:不是。我們國家做工程的人不少,但在用工程化辦法解決基礎科學問題方面,是有些脫節的。我的意思是,組織數十人甚至數百人協同解決重大基礎研究問題的能力有待提高,在基礎研究中要重視發揮工程技術的作用。但在AI 浪潮之下,近來刷分刷榜的工程實現似乎看得太重了,而忽略了對規律本身的挖掘,這也是值得注意的。

AlphaFold團隊是一個典型的跨學科合作團隊,在《自然》發表此重大成果的論文作者有34位,其中19位並列第一作者,包括機器學習、語音和計算機視覺、自然語言處理、分子動力學、生命科學、高能物理、量子化學等領域的知名學者。蛋白質形成穩定摺疊結構的原因是分子內部的勢能會降到最低點,預測計算實際上是能量最小化的優化,這涉及許多領域的知識。

AlphaFold2並沒有在蛋白質結構的構成機理上有新的發現,而是在工程上能夠更快、足夠準確地做出比別人好得多的預測,得到生物學界的認可,目前是最好的方案。

獲得重大科研成果的方式跟過去不一樣了,以前一個人冥思苦想就能做出成績來,現在需要跨學科合作、強大的工程力支撐才能把事情做到,所以工程技術現在是基礎研究的一部分工作了。

6

拼搏,寧靜

雷峰網:如果讓您用兩個詞語來形容自己,您會選擇什麼詞呢?

李國傑:“拼搏”和“寧靜”吧。無論是我個人成長經歷,還是研製"曙光"和"龍芯"等項目,如果離開了"拼搏"精神,今天的種種成果都不復存在。但我當選院士以後,久別重逢的大學同學問我現在追求什麼?我的回答是:“我在追求寧靜”。“拼搏”和“寧靜”看起來相互矛盾的兩種境界在我心中是統一的。

從讀高中開始,我的生活道路坎坷不平,對於升官發財、飛黃騰達從未有過奢望,只想在寧靜的生活中追求潔身自好。林則徐的“壁立千仞,無欲則剛;海納百川,有容乃大”,和諸葛亮的 “淡泊以明志,寧靜而致遠” ,這兩對條幅一直是我的座佑銘。

實際上,我是一個很平凡的人。

我這一生並沒有攀上科技高峰,做出驚人的科研成果。我很清楚自己不是一個特別聰明的人,能力也不是特別強。好在我經歷得比較多,挫折比較多,所以不患得患失,認準目標就不會半途而廢。看問題不太受小事情的干擾,內心有一股勁,就是要把事情做成,不達目標不甘心。

我說的“寧靜”不是指如今年輕人常說的‘佛系’。現在網絡中流行的‘佛系’是指一種 “無慾無求,對什麼都不在乎”的態度。我認爲對好的事物還是要追求的,只是莫爲爭名奪利虛度了光陰。不忘初心,不負使命,腳下的路就會越走越寬。

參考資料:

瀟湘晨報《大國院士入莞十五載》