在1997年,IBM的電腦“深藍”打敗了象棋**加里?卡斯帕羅夫(Gary Kasparov)。而由威斯康辛大學(xué)麥迪遜分校大學(xué)開(kāi)發(fā)的電腦系統完成了更為復雜的任務(wù):它可以從浩如煙海的科學(xué)文獻中檢索信息并進(jìn)行數據分類(lèi),并且準確程度不比進(jìn)行人工錄入的科學(xué)家差。這一研究成果于近日發(fā)表在《公共科學(xué)圖書(shū)館·綜合》(PLOS ONE)期刊上。
克里斯托弗·雷(Christopher Ré)是這個(gè)軟件項目的領(lǐng)導者,他表示:“我們證明,這個(gè)系統在我們所測試的所有信息處理任務(wù)中都不亞于真人,在一些方面它們甚至表現得更好,這個(gè)結果非常令人振奮。”
棋類(lèi)游戲看起來(lái)可能很復雜,但它們都是建立在嚴格固定的規則之上的:在特定情況下,只有特定的一些走法是合規的。而從學(xué)術(shù)出版物中提取信息的規則不是那么明確,這對參與其中的人類(lèi)和機器而言都是一種挑戰。
論文作者表示,開(kāi)發(fā)這樣一個(gè)信息提取系統是為了解決古生物學(xué)中的分類(lèi)學(xué)信息整理問(wèn)題。每一年,古生物學(xué)家們都會(huì )基于化石發(fā)現發(fā)表眾多學(xué)術(shù)論文,在其中提出新的分類(lèi)學(xué)觀(guān)點(diǎn),這些信息非常重要,但也非常零散。如果要得到全景式的信息圖表,就得把這些散落在原始論文中的信息一點(diǎn)點(diǎn)提取出來(lái),建立數據庫才行。
目前在這方面,與古生物學(xué)數據庫The Paleobiology Database合作的科學(xué)家們已經(jīng)進(jìn)行了很多工作,他們在這個(gè)數據庫中人工錄入了許多來(lái)自原始科研論文的信息。然而,由于論文總數十分龐大且不斷增長(cháng),至今仍有大量論文信息還沒(méi)有進(jìn)行錄入。為了解決這個(gè)問(wèn)題,研究者們開(kāi)始“訓練”計算機閱讀系統PaleoDeepDive,希望它能接替人進(jìn)行這項繁重的工作。
這套系統是在機器閱讀系統DeepDive的基礎上建立的,類(lèi)似的系統現在也被用在IBM和Google的項目當中。“唯一不同的是我們是圍繞著(zhù)科學(xué)文獻來(lái)進(jìn)行的,在這些文獻中的語(yǔ)言更加清晰和簡(jiǎn)潔一些。” 雷這樣說(shuō)到。
正如人工錄入方式那樣,PaleoDeepDive也會(huì )首先“閱讀”文檔,并總結出其中的結構性信息,如分類(lèi)名、時(shí)期以及基因圖譜位置等等。“我們的策略并不是試圖猜測所有文獻中具體章節的含義,而是‘總體上判斷這個(gè)文獻所描述的問(wèn)題’,”雷表示,“人們總是過(guò)度注意細節,而關(guān)注整體就是DeepDive的優(yōu)勢所在。”
研究者們選取了一些機器錄入的信息,并將它們與人工錄入的信息混在一起進(jìn)行了雙盲評價(jià)。結果發(fā)現,機器錄入信息的準確率可達92%,這個(gè)成績(jì)與人工錄入的水平持平,甚至還更高一些。“假如能獲取更多的反饋和數據,我們還可以在此基礎上做得更好,”論文第一作者沙南·彼得斯(Shanan E. Peters)說(shuō),“這將可以系統性地、大規模地改善數據的質(zhì)量。”
彼得斯表示:“最終,我們希望有能力創(chuàng )造一種電腦處理系統,它幾乎可以在瞬間完成很多地質(zhì)學(xué)家和古生物學(xué)家要花費一生時(shí)間來(lái)做的事情:閱讀大量文獻,整理大量事實(shí),并且將它們彼此關(guān)聯(lián)起來(lái),來(lái)解決一個(gè)復雜的問(wèn)題。”
最新!醫生的平均年薪由改革前2011年的5.65萬(wàn)增加到2023年的19....[詳細]
連續工作滿(mǎn)15年或累計工作滿(mǎn)25年且仍在崗的鄉鎮衛生院專(zhuān)業(yè)技術(shù)人員,在滿(mǎn)足...[詳細]
意見(jiàn)反饋 關(guān)于我們 隱私保護 版權聲明 友情鏈接 聯(lián)系我們
Copyright 2002-2025 Iiyi.Com All Rights Reserved