長(zhǎng)期以來,搜索學(xué)術(shù)文獻(xiàn)一直是研究人員面臨的挑戰(zhàn),當(dāng)他們想要查找概念時(shí),他們會(huì)輸入關(guān)鍵字在線搜索。加拿大圣瑪麗大學(xué)帕特里克·鮑爾圖書館技術(shù)服務(wù)圖書管理員Peter對(duì)人工智能工具如何使學(xué)術(shù)搜索更容易以及解決概念識(shí)別問題產(chǎn)生了興趣。于是提出了以下構(gòu)思。
在線搜索者希望或者想要在線搜索工具能夠根據(jù)幾個(gè)簡(jiǎn)單的關(guān)鍵字找到他們想了解的概念,許多人工智能搜索工具承諾可以做到這一點(diǎn)。游戲搜索引擎 Splore 說過這么一段話:“有了人工智能,搜索引擎可以理解您的意圖和搜索背后的含義,而不僅僅是您輸入的特定單詞。”
主流的資源語義學(xué)者提出了類似但更謹(jǐn)慎的主張:“我們的系統(tǒng)從論文中提取意義并識(shí)別關(guān)聯(lián),然后將這些見解公之于眾。”
然而,人工智能搜索工具的潛力似乎尚未完全發(fā)揮出來。對(duì)于搜索者來說,了解人工智能搜索的功能和局限性非常重要。
為了說明“我們希望AI能夠?yàn)槲覀兯龅摹边^程的復(fù)雜性,我拿 Luong Thanh BY 等人撰寫的一篇論文舉例,題目是“促進(jìn)工人使用呼吸防護(hù)設(shè)備的行為干預(yù)”。這些研究人員需要使用關(guān)鍵詞來概括“行為干預(yù)”、“工人”和“呼吸防護(hù)”等概念。
但這里是這篇論文的 Cochrane 評(píng)論記錄,顯示了有效解決這些概念所需的數(shù)十個(gè)精心開發(fā)且相互關(guān)聯(lián)的關(guān)鍵詞。
這似乎很好地說明了關(guān)鍵字到概念確定過程的復(fù)雜性,我們希望AI能為我們做到這一點(diǎn)。
毫無疑問,自然語言處理(NLP)、語義機(jī)器學(xué)習(xí)等人工智能方法與傳統(tǒng)關(guān)鍵詞方法相結(jié)合,可以有效地從搜索關(guān)鍵詞中推導(dǎo)出概念。這是一個(gè)或者一組復(fù)雜的自動(dòng)化流程,依賴于每篇文章足夠多的可用信息。這些AI方法將在不久的將來改變學(xué)術(shù)研究搜索的游戲規(guī)則。
但是,人工智能方法的成功取決于一致且足夠的元數(shù)據(jù)。主題描述性標(biāo)題、詳細(xì)摘要,或者訪問全文,對(duì)于可靠的AI概念確定至關(guān)重要。
同一類型的主題或期刊分類是提高人工智能搜索成功率的關(guān)鍵要素。例如,人工智能方法可能很容易確定主題為“蒸氣危害”或“粉塵消除”的文章涉及“呼吸防護(hù)”的概念?!肮I(yè)安全”期刊中有關(guān)“空氣質(zhì)量”的文章涉及“呼吸防護(hù)”的概念。
有限且不一致的可用元數(shù)據(jù)限制了人工智能搜索
有限且不一致的元數(shù)據(jù)限制了人工智能成功確定文章概念的能力。然而,如今人工智能搜索工具可用的元數(shù)據(jù)存在相當(dāng)大的限制。
語義學(xué)者數(shù)據(jù)庫提供來自 60 多個(gè)來源的200多萬篇文章的元數(shù)據(jù),其中包括 PubMed這樣的OA 資源和許多私人出版商。語義學(xué)者是許多知名人工智能搜索工具使用的元數(shù)據(jù)來源。 Research Rabbit、Elicit 的 AI Research Assistant 和其他機(jī)構(gòu)都依賴此來源。
《語義學(xué)者》是一個(gè)很了不起的資源。但它依賴于來自各種不同來源的元數(shù)據(jù),這些來源的細(xì)節(jié)和質(zhì)量差異很大。沒有一致的主題標(biāo)題或期刊分類。這依賴于標(biāo)題和描述性摘要來確定搜索概念。在我對(duì) 語義學(xué)者的有限搜索測(cè)試中,我發(fā)現(xiàn) 25% 到 40% 的文章記錄甚至沒有摘要。所以AI概念判定只能基于標(biāo)題詞。
由于 PubMed 或 ERIC 等開放資源的詳細(xì)且一致的元數(shù)據(jù)都是免費(fèi)提供的,因此當(dāng)前許多 AI 搜索工具的搜索結(jié)果偏向于這些 OA 來源中的結(jié)果。
營利性搜索索引 Scope us 和 Web of Science 也在加速開發(fā)人工智能方法,以增強(qiáng)它們的搜索能力。這些資源具有出色的管理、期刊主題分類和引文背景。但他們也依賴出版商提供的可變?cè)獢?shù)據(jù)。它們依賴于作者指定的關(guān)鍵字,而不是一致指定的主題標(biāo)題。
整個(gè)學(xué)術(shù)元數(shù)據(jù)格局需要改變
為了發(fā)揮出人工智能方法的潛力,需要對(duì)整體學(xué)術(shù)內(nèi)容格局進(jìn)行更大的改變。更好的人工智能搜索的努力與其他幾項(xiàng)努力同時(shí)進(jìn)行,包括 Crossref 和 OpenAlex,旨在為所有學(xué)術(shù)出版物創(chuàng)建更加開放和全面的元數(shù)據(jù)記錄。
目前,關(guān)于學(xué)術(shù)文章的元數(shù)據(jù)整體仍然是孤立的,并且不能互操作。沒有全面的學(xué)術(shù)元數(shù)據(jù)來源可用于構(gòu)建人工智能搜索資源。
營利性出版商以及索引數(shù)據(jù)庫繼續(xù)限制對(duì)其完整元數(shù)據(jù)的訪問,而元數(shù)據(jù)是一種越來越有價(jià)值的商業(yè)商品。因此,商業(yè)模式是更好的人工智能搜索的障礙之一。
值得慶幸的是,整個(gè)學(xué)術(shù)元數(shù)據(jù)格局正在迅速變化。有幾項(xiàng)進(jìn)展將使人工智能搜索能力變得更好。
不同學(xué)術(shù)元數(shù)據(jù)來源之間需要元數(shù)據(jù)源互換和交叉比較。 Crossref、OpenAlex 和 ORCID 等元數(shù)據(jù)資源正在努力與 OA 資源以及許多出版商交換信息。谷歌和微軟在很大程度上還在堅(jiān)持。
使用人工智能增強(qiáng)元數(shù)據(jù)的自動(dòng)化方法正在迅速發(fā)展。這些方法從文章引用和參考文獻(xiàn)中添加主題信息,以改進(jìn)可用的元數(shù)據(jù)。從關(guān)聯(lián)論文網(wǎng)絡(luò)中對(duì)信息進(jìn)行預(yù)搜索挖掘是一個(gè)活躍的研究領(lǐng)域。
人工智能使用營利性出版商元數(shù)據(jù)構(gòu)建增強(qiáng)的元數(shù)據(jù),同時(shí)限制對(duì)實(shí)際專有主題標(biāo)題和描述的訪問,是正在開發(fā)的另一種方法。
本文來自INFOTODAY,由新宇智慧編譯,有刪減。