一项新研究显示,ChatGPT 在超过50%的案例中伪造或错误引用引用文献。
根据迪肯大学的新研究,当被要求撰写六篇涵盖多种心理健康主题的文献综述时,AI聊天机器人仅引用了176条准确且真实的引用中的77条。
这些结果将令全球学者感到震惊,许多人正转向不同的人工智能工具以加快漫长的研究和引用流程。近几周,Anthropic推出了最新的赌注——针对生命科学领域的Claude for Life Sciences。然而,这些证据表明,研究人员在将工作外包给人工智能之前,至少目前应三思而后行。
研究指出,ChatGPT 引用错误率超过一半迪肯大学的新研究表明,ChatGPT 有超过一半的时间会做出错误或不准确的引用。这项研究揭示了聊天机器人在学术领域的不足。
为了开展这项研究,研究人员聚焦于三种不同的精神疾病:重度抑郁障碍、暴食障碍和身体畸形障碍。
信息要么是误导性的,要么完全是捏造的ChatGPT在该研究中共生成了176次引用。其中近五分之一(19.9%)被发现完全是伪造的。在剩余的141条真实引用中,有相当一部分(45.4%)存在不准确之处,包括错误的出版日期、页码或数字对象标识符(DOI)不准确。
令人震惊的是,ChatGPT仅有77次被发现既真实又准确,约占43.8%。换句话说,56.2%的整体引用是捏造或包含错误。
这些错误并不总是显而易见。例如,当ChatGPT为伪造引用提供DOI时(超过94%的情况),64%的示例链接到了完全无关主题的研究论文。换句话说,读者只有点击到链接的论文时才会发现错误。而剩余36%的假DOI则完全无效。
人工智能尚未适合学术研究这项研究应当让全球学者深思。包括ChatGPT、Gemini以及全新的Claude生命科学在内的人工智能工具,被誉为节省时间和自动化的宝贵工具乏味研究过程的一部分。然而,迪肯大学的研究似乎对这一承诺浇上了冷水。
研究人员呼吁“谨慎的提示设计,严格的人工验证......以及加强期刊和机构的保障措施,以保护研究诚信。”事实上,他们的发现在学术研究领域乃至更广泛的领域都应当警示。
在短时间内,人工智能颠覆了世界。几乎每周都有另一家公司裁员,转而采用自动化,同时越来越多的证据表明企业正在利用人工智能彻底改变他们的工作方式。然而,企业应当意识到,未能充分考虑其采用策略可能导致AI债务的昂贵积累。
迪肯大学的科学家让聊天机器人撰写六篇关于所选心理健康主题的文献综述,这些主题在公众理解和研究量上各不相同。例如,抑郁症拥有大量研究成果,而身体变形障碍则较少被充分理解。