类似 ChatGPT 的人工智能即将出现在主要科学搜索引擎中

1,902 0

编辑 | 白菜叶

人工智能驱动的会话式聊天机器人已经出现在互联网搜索引擎中，例如谷歌的 Bard 和微软的 Bing，看起来也将越来越多地改变科学文献搜索方式。8 月 1 日，荷兰出版巨头 Elsevier 为其 Scopus 数据库的部分用户发布了由 ChatGPT 支持的 AI 界面，而英国公司 Digital Science 则宣布对其 Dimensions 数据库进行 AI 大语言模型 (LLM) 助手的封闭试验。与此同时，美国 Clarivate 公司表示，它也在努力将 LLM 纳入其 Web of Science 数据库。

用于科学搜索的 LLM 并不新鲜：Elicit、Scite 和 Consensus 等初创公司已经拥有此类人工智能系统，有助于总结某个领域的发现或识别顶尖研究，依靠免费的科学数据库或（在 Scite 的例子中）通过与出版商合作获得付费研究文章。但拥有大型科学摘要和参考文献专有数据库的公司现在也加入了人工智能热潮。

负责该工具开发的 Elsevier 驻伦敦高管 Maxim Khan 表示，Elsevier 的聊天机器人名为 Scopus AI，作为试点推出，旨在作为一种轻便、有趣的工具，帮助研究人员快速获得他们不熟悉的研究主题的摘要。为了回答自然语言问题，机器人使用 LLM GPT-3.5 版本返回有关研究主题的流畅摘要段落，以及引用的参考文献和要探索的进一步问题。

类似 ChatGPT 的人工智能即将出现在主要科学搜索引擎中

对于搜索（尤其是科学搜索）的 LLM 的一个担忧是它们不可靠。LLM 无法理解他们所写的文字；它们的工作方式很简单，就是吐出风格上合理的词语。正如学者们很快发现的那样，他们的输出可能包含事实错误和偏见，并且可能会编造不存在的参考资料。

因此，Scopus AI 受到限制：它只能通过参考五到十份研究摘要来生成答案。人工智能本身不会找到这些摘要：相反，在用户输入查询后，传统搜索引擎会返回与问题相关的摘要，Khan 解释道。

虚假事实

关注人工智能搜索工具的新加坡管理大学（Singapore Management University）图书馆员 Aaron Tay 指出，许多其他人工智能搜索引擎系统也采用了类似的策略。这有时被称为检索增强生成，因为 LLM 仅限于总结另一个搜索引擎检索的相关信息。「LLM 仍然偶尔会产生幻觉或编造故事。」Tay 说道，他指的是对互联网搜索人工智能聊天机器人的研究，例如 Bing 和 Perplexity，它们使用类似的技术。

Elsevier 将其人工智能产品限制为仅搜索 2018 年以来发表的文章，以获取最近的论文，并指示其聊天机器人在回复中适当引用返回的摘要，从而避免不安全或恶意查询，并说明收到的摘要中是否没有相关信息。这不能避免错误，但可以最大限度地减少错误。Elsevier 还通过为机器人的「温度」选择较低的设置来降低其人工智能的不可预测性——这是一种衡量机器人在响应中选择偏离最合理词语的频率的指标。

用户是否可以简单地将机器人的段落复制并粘贴到自己的论文中，从而有效地抄袭该工具？Khan 说，这是有可能的。他说，到目前为止， Elsevier 已经通过指导来解决这个问题，要求研究人员负责任地使用这些摘要。Khan 指出，资助者和出版商也发布了类似的指导意见，要求透明披露 LLM 是否用于撰写论文或进行同行评审，或者在某些情况下声明根本不应该使用 LLM。

目前，该工具仅向大约 15,000 名用户（Scopus 订阅者的一部分）推出。Elsevier 表示预计将于 2024 年初全面推出。

全文分析

同样在 8 月 1 日，Digital Science 宣布为其大型 Dimensions 科学数据库推出人工智能助手，目前仅适用于选定的 Beta 测试人员。与 Scopus AI 不同，用户输入问题后，搜索引擎首先检索相关文章，然后 Open AI GPT 模型围绕已检索到的排名靠前的摘要生成摘要段落。

「非常相似，有趣的是。」该公司首席产品官 Christian Herzog 说。（Digital Science 隶属于 Holtzbrinck 出版集团，该集团是《Nature》杂志出版商 Springer Nature 的大股东。）

Dimensions 还利用 LLM 提供有关相关论文的更多详细信息，包括其研究结果的简短改写摘要。

Herzog 表示，该公司希望在今年年底之前更广泛地发布其工具，但目前正在与科学家、资助者和其他使用 Dimensions 的人合作，从而测试 LLM 可能在哪些方面有效——这还有待观察。「这是为了逐渐适应新技术并建立信任。」他说。

Tay 表示，他期待能够在论文全文（而不仅仅是摘要）上使用 LLM 的工具。他指出，Elicit 等网站已经允许用户使用 LLM 来回答有关论文全文的详细问题——当机器人可以访问它时，就像一些开放获取的文章一样。

与此同时，Clarivate 的「academia and government segment」负责人 Bar Veinstein 表示，该公司「正在致力于在 Web of Science 中添加LLM支持的搜索」，指的是有两家公司于 6 月份宣布与以色列特拉维夫 AI21 Labs 签署的战略合作伙伴关系。然而，Veinstein 没有给出基于 LLM 的 Web of Science 工具的发布时间表。

相关报道：https://www.nature.com/articles/d41586-023-02470-3