海外高校科研信息化進展如何?

科研信息化(即e-Science)由英國科技部主任John Taylor於1999年首次提出,經過20餘年的發展演進,目前主要指充分利用信息技術,促進科技資源交流、彙集與共享,變革科研組織與活動模式,推動科技轉型,從而實現科學技術新革命的途徑。

科研信息化的內涵非常豐富,包括科研信息化基礎設施建設、科研信息化支撐能力的提供和服務、科研數據和資源的建設和共享、基於信息化技術的科研活動協同、科研管理信息化等。總結而言,可能主要包含三項內容:一是科研管理信息化,二是科研環境信息化,三是科研活動信息化。

高校是科技創新的重要基地,也是科技成果的重要生產者,其海量科研數據的生成、存儲和管理需要藉助科研信息化管理,跨學科、跨區域的全球化科學研究將需要藉助科研信息化手段來協作完成,豐富、高質量的科研數據的獲取與分析需要高端的信息平臺纔能有效開展。因此,科研信息化工作的發展受到國內外高校的空前重視。本文將展示國外大學在科研信息化三個方面所開展的工作。

01

科研管理信息化

信息化技術的應用,使科研管理突破了傳統人工管理的制約,建立了更爲科學合理的管理模式。科研管理信息系統改變了以往以項目管理各自爲政的局面,實現了各管理層面的數據共享,減少了冗餘數據,加強了數據之間的關聯性,全面精準的數據爲領導層科學決策提供了重要的參考依據。在國外,科研管理信息化水平是政府衡量高校管理水平的重要依據。

牛津大學的科研數據管理

英國牛津大學開展科研數據管理較早,在實施過程中強調數據管理要面向並融入統一的大學基礎設施之中,將數據管理政策、工具、培訓等要素納入大學的整體基礎設施,體現研究數據生命週期的不同階段的要求,從而使科研數據管理能夠更好地爲科研服務。

在構建科研數據管理系統過程中,牛津大學啓動了一個跨機構的合作項目,該項目基於長期保存生命週期模型,結合本校研究人員需求,考慮學校各方情況及反饋,提出了牛津大學科研數據管理和長期保存服務框架,主要包括商業層、政策層、基礎設施和工具、支持層和服務層。

• 商業層是指有關數據管理的運行和費用;

• 政策層包含了有關數據管理的政策和程序;

• 基礎設施和工具包括數據管理所需的硬件和軟件;

• 支持層是指連接基礎設施工具與服務的各種接口;

• 服務層包括圍繞數據管理而開展的各項服務,如數據管理計劃、數據選擇和評價等。

這個服務框架最終集成於學校的整個基礎設施中,在不同的科研環境體現科研數據管理的內容和價值。

馬里蘭大學環境科學

中心的科研項目管理系統

十年前,美國馬里蘭大學環境科學中心(UMCES)通過Cayuse424系統,邁出了科研管理信息化的第一步,在該系統中實現了科研項目的提案准備、發送和提交等功能。

2016年,馬里蘭大學獲得了肯特州的Kuali Research(KR)信息系統的完整權限,學校的各個部門都可以使用這一強大的系統。環境科學中心的科研管理與促進辦公室積極引進KR系統,以提高中心的科研管理效率。

KR系統是一款基於雲的科研管理系統,不僅支持對科研項目的全生命週期進行管理,還能確保最高級別的合規性和完整性。具體而言,KR能夠:

• 通過智能發送和審批更高效地制定提案;

• 直接向Grants.gov和Research.gov等網站提交提案;

• 更有效地管理協商,以加快資助和提高透明度;

• 在科研項目生命週期內管理獲獎情況;

• 跟蹤整個機構的研究活動,以改進預測、監督和趨勢分析;

• 將與科研項目從頭到尾相關的所有文檔和詳細信息儲存在獨立的存儲庫;

• 爲即將到來的報告截止日期生成提醒,並直接發送給學術帶頭人(PI)和業務辦公室。

02

科研環境信息化

科研環境信息化是指通過新一代的信息技術構建信息化基礎設施和平臺應用,爲科學家們提供一個信息化的科學研究環境。主要包括科研信息化基礎設施建設以及科研數據和資源的建設與共享。

科研信息化主要指向數據密集型科研、計算密集型科研、開放式科學創新及新型科研創新研究單元的誕生。

其中,數據密集型、計算密集型科研主要是指科研過程中對數據資料及高性能計算設施的需求,如麻省理工學院投巨資建立Schwarzman計算機學院,目的之一是應用最新的信息技術尤其是人工智能技術來重塑自身的科學研究。

康奈爾大學的

數據階段型存儲庫

數據階段型存儲庫(Data Staging Repository,DataStaR)是康奈爾大學圖書館的一項主要針對本校學者的數據監護服務,其以機構庫爲基礎,力圖扮演學術界共享數據集時的一個暫時的、過渡性質的存儲節點。

其設想是建設成爲一個數據監護平臺及一套完整服務方案,擁有可產生多種格式的高質量元數據的工具,由圖書館員負責操作,通過協助學者完善數據和元數據來促進共享,最終積極幫助他們向各自領域的學科庫發佈數據成果,供長期使用和保存。

DataStaR系統主要由4部分構成:

• 基於Fedora的數據集存儲庫;

• 基於Vitro的語義元數據存儲庫;

• 用於對文件格式進行批量自動識別的開源工具:數字記錄目標識別程序(Digital Record Object Identification,DROID);

• 用於向外部永久存儲庫傳輸文件的內容轉移協議——面向存儲的簡單網絡服務協議(Simple Web Service Offering Repository Deposit,SWORD)。

新墨西哥大學

圖書館DataONE項目

2007年,美國國家自然科學基金委員會(NSF)啓動DataNet計劃,計劃在5年時間內投入1億美元用於支持以圖書館爲主體開展科學數據管理的研究工作,首批獲得資助的兩個項目分別是霍普金斯大學圖書館主持的Data Conscrvancy和新墨西哥大學圖書館主持的DataONE(Data Observation Network for Earth)。

DataONE分別於2009年和2014年啓動第一期和第二期建設工作,主要針對地球科學領域,旨在構建能提供準確清晰的地球觀測數據的分佈式數據監護網絡體系和可持續性的信息基礎架構。

該項目着重解決三個問題:對複雜環境問題研究提供支持;實現多學科數據兼容;用“一個全局”的視角去解決全球問題。

DataONE的設計主要基於三個原則:

• 支持對現有的和新建的存儲庫的分佈式管理;

• DataONE的軟件不論是現在還是將來都適用於科學家和數據提供者;

• DataONE活動應支持利用現有的社區軟件和開源軟件。

其基礎架構主要包含三個部分:

一是成員節點,是以保存爲導向的存儲庫,通過DataONE的服務規程或成員節點API,爲學術界、圖書館、政府機構和其他組織提供本地數據存儲、數據訪問、訪問控制、複製以及主用戶之間的交互等服務。

二是協調節點,該節點地域分佈廣泛,可通過節點與節點之間的合作提供服務,比如成員節點註冊、元數據索引、協調和檢測數據複製、爲全球用戶提供身份、檢測節點和網絡健康等。

三是研究工具包,研究工具包是一系列軟件工具的集合,用於在DataONE中發現和使用數據。

美國紐約大學超級計算中心

紐約大學通過使用IBM Blade Center技術,成功創建這一佔地僅3平方米的超級計算集羣系統。

這一超級計算機峰值速度超過4.5萬億次(Teraflops),由一個包括256臺IBM eServer Blade Center JS20刀片服務器的集羣組成,運行Red Hat Enterprise Linux AS 4(RHES AS 4)操作系統,每臺服務器配置2顆2.2GHz PowerPC 970處理器,整個系統的處理器總數達到512顆。該高性能系統採用Myrinet交換機技術連接每一臺刀片服務器,並使用了下一代互聯網協議IPv6。

紐約大學的這一高性能計算系統在不犧牲處理能力和性能的前提下,以一種空間節省的方式提供了對IT基礎架構進行擴展的方法。

這一新的緊湊型系統將支持紐約大學進行衆多高計算要求的研究工作,包括最先受益的Courant數學研究所下屬大氣海洋科學中心,以及比較功能基因組學研究中心(Center for Comparative Functional Genomics)和Courant數學研究所等。

Courant數學研究所下屬大氣海洋科學中心已經開始使用這一超級計算系統,通過計算建模來仿真大氣環流和洋流,幫助研究人員結合理論、數學分析和數字模型,用於瞭解地球氣候變化,研究地球大氣和海洋規律,以及雷暴和颶風天候、厄爾尼諾等大氣和海洋活動,以及灣流(Gulf Stream)和南極繞極流等洋流所帶來的影響。

03

科研活動信息化

科研活動的信息化,是指利用最新的信息技術,改變科學研究活動的方法和手段,主要包括基於信息化技術的科研活動協同以及科研過程中信息化能力的提供和服務。

在科研信息化所指向的科研變革中,開放式科學創新及新型創新研究單元主要是指基於網絡的協同研究組織。從上世紀90年代末開始各國就嘗試創建虛擬研究組織(Virtual Research Organization,VRO),這類組織普遍表現爲研究組織的虛擬化,能夠打破時空的限制,促進深度學術交流和科研資源共享。

麻省理工學院的CSBI

起始於2003年,至今仍在延續的麻省理工學院CSBI(Computational and Systems Biology Initiative)項目爲系統生物模型的建構做着開闢性工作。

該項目的理念是藉助網絡信息技術這項顛覆性技術,使工業界與學術界緊密合作,搭建系統生物學研究的虛擬社區。其研究模型(Research Model)被設定爲將研究所需要的人力資源、設施設備、實驗室都保留在原來的場地或者學術實體,應用網絡信息技術把這些資源有效連接,既體現學術管理中的分佈化特徵,又實現研究所需要的大規模和集中化。

美國六所大學

合建的nanoHUB

比CSBI更早的是普渡大學、加州大學伯克利分校、西北大學、伊利諾伊大學厄巴納-香檳分校、弗吉尼亞大學、德克薩斯大學阿爾帕索分校等六所大學,在美國國家科學基金會的支持下組建的美國國家納米技術計劃(National Nanotechnology Initiative)大學網絡。

該大學網絡成立於2002年,門戶網站爲nanoHUB(www.nanohub.org)。該網站同樣延續至今,不斷刊載納米技術研究的文獻,被部署的研究仿真工具越來越多,成爲聯繫納米科學與技術研究者的重要平臺。

新西蘭奧塔哥大學的CICERO

新西蘭奧塔哥大學跨學科臨牀教育科研協作組織(Collaboration for Interprofessional Clinical Education Researchat Otago,CICERO)在2009年形成雛形,社區內的成員來自新西蘭的很多城市、很多不同的學科,他們當中既有全職工作人員,也有兼職人員,成員構成較爲複雜。

通過網絡把分散在新西蘭各地的臨牀醫療的教育與研究工作成員連接起來,提供了進行反思和協作的平臺,成員根據角色與任務通過自組織的模式建立起連接,以保證每個人在做適合他自己的事情時能與羣體建立融洽的合作關係。

昆士蘭研究計算中心

昆士蘭研究計算中心(QRCC)成立於2011年,旨在幫助昆士蘭大學的研究人員跨越學科,充分利用如高性能計算、數據存儲、數據管理、可視化、工作流和視頻會議等e-Research技術,通過研究協作,整合先進的計算手段、數據分析和其他數字研究工具,促進該學校自然科學、工程、人文和社會科學的發展。

QRCC由多部門和團隊組成,研究涉及多項e-Research研究方法的關鍵技術,如雲計算、數據管理、高性能計算、工作流程工具和可視化,將這些技術、計算設施和其他學科的研究緊密結合,對加速本校的科學研究進程起到了至關重要的作用。

隨着雲計算、大數據等新興技術的發展,各高校的科研信息系統不再只是具有單一的項目管理功能,已發展成爲對科研課題全程監控的信息平臺,平臺可以保存、共享各種實驗數據、分析數據等課題寶貴的資源,同時實現了科研成果評估和共享,爲科研成果轉化帶來了較大的經濟利益。

此外,部分學校已經開始運用虛擬技術構建高端虛擬實驗室,減少科研成本。因此,科研信息化的各個方面正在逐步融合,形成完善的科研信息化閉環體系,爲科研人員提供良好的科研環境和條件,從而推動高校實現科研領域的新突破。

來源:中國教育網絡 (*本文根據綜合資料整理而成,整理:鄭藝龍)