上海生物信息技術(shù)研究中心主任李亦學(xué)的“科研數據共享之夢(mèng)”已做了13年。但在近日舉行的首屆金橋產(chǎn)業(yè)技術(shù)創(chuàng )新會(huì )議上,當記者向他問(wèn)及相關(guān)進(jìn)展時(shí),聽(tīng)到的卻是一聲嘆息。
13年前,“大數據”尚未被任何字典收錄,而今卻被公認是全球生命科學(xué)研究的核心工具。李亦學(xué)告訴記者,科研數據難以共享已成為國內生命科學(xué)研究的一大障礙;而在大數據時(shí)代,其負面效應還可能被繼續放大。
李亦學(xué)透露,國內一批院士和重量級專(zhuān)家正在起草一份報告,建議國家借鑒美國、歐洲、日本等的做法,建立國家級生命科學(xué)數據庫,從而打破共享瓶頸。作為該調研報告的參與人,李亦學(xué)表示,在技術(shù)上,共享“不存在任何障礙”,國家應盡早落子布局。
只給看論文,無(wú)法看數據
美國是生命科學(xué)大數據產(chǎn)出和應用的領(lǐng)先者,不僅數據量和分析技術(shù)領(lǐng)先,而且在數據共享方面也是如此。
李亦學(xué)告訴記者,美國**生物技術(shù)信息中心(NCBI)存儲了分子生物學(xué)、生物化學(xué)、遺傳學(xué)領(lǐng)域的海量數據,一大批計算機專(zhuān)家和生物學(xué)家維護著(zhù)這個(gè)龐大的數據庫和自動(dòng)分析系統。這個(gè)平臺對支撐起美國在生命科學(xué)領(lǐng)域的地位至關(guān)重要。NCBI的數據是科學(xué)家無(wú)償提供的。根據規定,美國科學(xué)家要想拿到**經(jīng)費,必須在申請課題時(shí)就承諾在課題完成后,將詳細的研究數據提供給NCBI;如果違背承諾,這名研究者將被列入黑名單,可能再也無(wú)法得到資助。這是NCBI獲得大量數據的根本保證。
李亦學(xué)說(shuō),國內的**科研項目一直沒(méi)有強制性的數據公開(kāi)和共享要求。生命科學(xué)的數據零散地掌握在各個(gè)科研單位和研究小組內部,對國家的科研投入來(lái)說(shuō),這是一種巨大的浪費。
據了解,在我國,這樣的現象時(shí)有發(fā)生:國家向某個(gè)重大研究課題投入巨資,支持其從基因組層面研究若干重要的遺傳疾病。最終,雖然該研究發(fā)表了一系列高水平論文,但卻從未將詳細數據公開(kāi)。
李亦學(xué)認為,這樣的研究本可以整體提升中國相關(guān)領(lǐng)域學(xué)術(shù)水平,但“只給看論文、無(wú)法看數據”的做法,極大限制了國家級課題的帶動(dòng)效應。
一輩子的難題,幾個(gè)月解決
在生命科學(xué)領(lǐng)域引入大數據工具,將給研究帶來(lái)極大便利。科學(xué)家用傳統方法可能要花一輩子才能解決的難題,大數據可能只要幾個(gè)月就能找到答案。
一個(gè)典型案例是“腓骨肌萎縮癥(CMT)”的研究。這是一種常見(jiàn)的遺傳性神經(jīng)系統疾病,患者最初會(huì )感到四肢無(wú)力,隨后逐步惡化,最終可能終身離不開(kāi)輪椅。
CMT早就被認為與基因突變有關(guān),但全球科學(xué)家尋找致病基因花了20多年,始終不得要領(lǐng)。不過(guò)就在兩三年前,美國一個(gè)小組對一位CMT病人連同他的10多位親屬進(jìn)行全基因組測序,隨后對所獲得的數百GB的數據進(jìn)行了“簡(jiǎn)單的比對分析”,很快就精確定位了那條致病基因和發(fā)生突變的位點(diǎn)。
李亦學(xué)表示,能夠獲得和整合數據,然后再進(jìn)行快速和精準的分析,已成為生命科學(xué)研究的關(guān)鍵。目前,中國已成為世界領(lǐng)先的不斷產(chǎn)生生物學(xué)與生物醫學(xué)大數據的國家。然而,中國生命科學(xué)的數據共享卻與發(fā)達國家差距巨大。他判斷說(shuō),國內課題組之間的數據共享一直是一個(gè)“小概率事件”。
李亦學(xué)13年前回國,曾經(jīng)的理想是建立具有國家權威的公益性的生命科學(xué)數據中心,推動(dòng)國內的生命科學(xué)研究數據共享。但迄今進(jìn)展不大,這讓他無(wú)比遺憾。
科研數據要當成戰略資源
最近,國內一批院士和重量級專(zhuān)家正聯(lián)名起草一份調研報告,希望能在國內也建立一個(gè)類(lèi)似NCBI的國家級生命科學(xué)數據庫。這份報告將在今年完成并提交。
最讓專(zhuān)家們揪心的,不僅是數據不共享將給國家創(chuàng )新體系帶來(lái)?yè)p失,更在于“如果有一天,NCBI不再與中國科學(xué)家共享數據,我們怎么辦?”
NCBI向全球免費提供數據。李亦學(xué)說(shuō),目前,所有的訪(fǎng)問(wèn)量中,來(lái)自中國科學(xué)家的占了相當大的份額。一旦NCBI向中國關(guān)上大門(mén),一些院士的判斷是:“中國生命科學(xué)研究可能倒退20年。”
在大數據時(shí)代,數據就如石油一般,是國家的戰略資源。李亦學(xué)認為,正因為如此,必須由國家出面,建立科研數據共享的機制和環(huán)境。而目前,哪怕**對所資助的課題提出數據共享的強制性要求,科學(xué)家也不知道該去哪兒共享。
在生命科學(xué)領(lǐng)域,國際學(xué)術(shù)界有一個(gè)不成文的規定:要想在頂級刊物發(fā)表論文,科學(xué)家必須共享其實(shí)驗數據,而且大都必須將數據遞交到NCBI的數據庫體系。李亦學(xué)說(shuō),因此,在NCBI的數據庫,由中國科學(xué)家提供的數據占了不小比例。這種“國內數據、國外整合”的做法不合理,但也表明在國內推動(dòng)數據共享存在可操作性。
意見(jiàn)反饋 關(guān)于我們 隱私保護 版權聲明 友情鏈接 聯(lián)系我們
Copyright 2002-2025 Iiyi.Com All Rights Reserved