久久久久久精品无码不卡顿AV,色婷婷精品久久二区二区蜜臂av,国产美女一级做受视频,啊灬啊灬啊灬快灬高潮了女

中文
搜索

人工智能與學術文章搜索中關鍵詞識別概念的問題

發(fā)布時間: 2024年05月23日瀏覽量:

長期以來,搜索學術文獻一直是研究人員面臨的挑戰(zhàn),當他們想要查找概念時,他們會輸入關鍵字在線搜索。加拿大圣瑪麗大學帕特里克·鮑爾圖書館技術服務圖書管理員Peter對人工智能工具如何使學術搜索更容易以及解決概念識別問題產(chǎn)生了興趣。于是提出了以下構思。


在線搜索者希望或者想要在線搜索工具能夠根據(jù)幾個簡單的關鍵字找到他們想了解的概念,許多人工智能搜索工具承諾可以做到這一點。游戲搜索引擎 Splore 說過這么一段話:“有了人工智能,搜索引擎可以理解您的意圖和搜索背后的含義,而不僅僅是您輸入的特定單詞?!?


主流的資源語義學者提出了類似但更謹慎的主張:“我們的系統(tǒng)從論文中提取意義并識別關聯(lián),然后將這些見解公之于眾?!?



然而,人工智能搜索工具的潛力似乎尚未完全發(fā)揮出來。對于搜索者來說,了解人工智能搜索的功能和局限性非常重要。


為了說明“我們希望AI能夠為我們所做的”過程的復雜性,我拿 Luong Thanh BY 等人撰寫的一篇論文舉例,題目是“促進工人使用呼吸防護設備的行為干預”。這些研究人員需要使用關鍵詞來概括“行為干預”、“工人”和“呼吸防護”等概念。


但這里是這篇論文的 Cochrane 評論記錄,顯示了有效解決這些概念所需的數(shù)十個精心開發(fā)且相互關聯(lián)的關鍵詞。


這似乎很好地說明了關鍵字到概念確定過程的復雜性,我們希望AI能為我們做到這一點。



毫無疑問,自然語言處理(NLP)、語義機器學習等人工智能方法與傳統(tǒng)關鍵詞方法相結合,可以有效地從搜索關鍵詞中推導出概念。這是一個或者一組復雜的自動化流程,依賴于每篇文章足夠多的可用信息。這些AI方法將在不久的將來改變學術研究搜索的游戲規(guī)則。


但是,人工智能方法的成功取決于一致且足夠的元數(shù)據(jù)。主題描述性標題、詳細摘要,或者訪問全文,對于可靠的AI概念確定至關重要。



同一類型的主題或期刊分類是提高人工智能搜索成功率的關鍵要素。例如,人工智能方法可能很容易確定主題為“蒸氣危害”或“粉塵消除”的文章涉及“呼吸防護”的概念。“工業(yè)安全”期刊中有關“空氣質量”的文章涉及“呼吸防護”的概念。


有限且不一致的可用元數(shù)據(jù)限制了人工智能搜索


有限且不一致的元數(shù)據(jù)限制了人工智能成功確定文章概念的能力。然而,如今人工智能搜索工具可用的元數(shù)據(jù)存在相當大的限制。


語義學者數(shù)據(jù)庫提供來自 60 多個來源的200多萬篇文章的元數(shù)據(jù),其中包括 PubMed這樣的OA 資源和許多私人出版商。語義學者是許多知名人工智能搜索工具使用的元數(shù)據(jù)來源。 Research Rabbit、Elicit 的 AI Research Assistant 和其他機構都依賴此來源。


《語義學者》是一個很了不起的資源。但它依賴于來自各種不同來源的元數(shù)據(jù),這些來源的細節(jié)和質量差異很大。沒有一致的主題標題或期刊分類。這依賴于標題和描述性摘要來確定搜索概念。在我對 語義學者的有限搜索測試中,我發(fā)現(xiàn) 25% 到 40% 的文章記錄甚至沒有摘要。所以AI概念判定只能基于標題詞。



由于 PubMed 或 ERIC 等開放資源的詳細且一致的元數(shù)據(jù)都是免費提供的,因此當前許多 AI 搜索工具的搜索結果偏向于這些 OA 來源中的結果。


營利性搜索索引 Scope us 和 Web of Science 也在加速開發(fā)人工智能方法,以增強它們的搜索能力。這些資源具有出色的管理、期刊主題分類和引文背景。但他們也依賴出版商提供的可變元數(shù)據(jù)。它們依賴于作者指定的關鍵字,而不是一致指定的主題標題。


整個學術元數(shù)據(jù)格局需要改變


為了發(fā)揮出人工智能方法的潛力,需要對整體學術內(nèi)容格局進行更大的改變。更好的人工智能搜索的努力與其他幾項努力同時進行,包括 Crossref 和 OpenAlex,旨在為所有學術出版物創(chuàng)建更加開放和全面的元數(shù)據(jù)記錄。


目前,關于學術文章的元數(shù)據(jù)整體仍然是孤立的,并且不能互操作。沒有全面的學術元數(shù)據(jù)來源可用于構建人工智能搜索資源。


營利性出版商以及索引數(shù)據(jù)庫繼續(xù)限制對其完整元數(shù)據(jù)的訪問,而元數(shù)據(jù)是一種越來越有價值的商業(yè)商品。因此,商業(yè)模式是更好的人工智能搜索的障礙之一。


值得慶幸的是,整個學術元數(shù)據(jù)格局正在迅速變化。有幾項進展將使人工智能搜索能力變得更好。


不同學術元數(shù)據(jù)來源之間需要元數(shù)據(jù)源互換和交叉比較。 Crossref、OpenAlex 和 ORCID 等元數(shù)據(jù)資源正在努力與 OA 資源以及許多出版商交換信息。谷歌和微軟在很大程度上還在堅持。


使用人工智能增強元數(shù)據(jù)的自動化方法正在迅速發(fā)展。這些方法從文章引用和參考文獻中添加主題信息,以改進可用的元數(shù)據(jù)。從關聯(lián)論文網(wǎng)絡中對信息進行預搜索挖掘是一個活躍的研究領域。


人工智能使用營利性出版商元數(shù)據(jù)構建增強的元數(shù)據(jù),同時限制對實際專有主題標題和描述的訪問,是正在開發(fā)的另一種方法。



這是對一個龐大且快速變化的領域的簡要總結。但是,隨著我們在學術檢索中擁抱人工智能等積極的進步,對于檢索專業(yè)人員和研究人員來說,更好地了解這些資源、它們巨大的潛能以及它們目前的不足之處非常重要。對于我們來說,了解我們必須處理的大量學術研究信息的整體狀態(tài),以及所需的變化和進步也很重要。

本文來自INFOTODAY,由新宇智慧編譯,有刪減。

相關新聞