OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题-转角遇见书店

OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题

2025-07-17 17:53 作者：分类： Blog / 文章 / 资讯前沿

OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题

SciArena 使用研究人员的投票来评估大型语言模型对技术主题的回应。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

根据上周推出的基准测试平台，o3 是由 ChatGPT 的创建者开发的人工智能 (AI) 模型，被评为回答多个领域科学问题的最佳 AI 工具。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

随机选择

为了对这23个法学硕士项目进行排名，SciArena邀请研究人员提交一些科学问题。研究人员从两个随机选择的模型中获得了答案，这些模型引用了Semantic Scholar（一款同样由Ai2开发的人工智能研究工具）的参考文献，以支持他们的回答。之后，用户投票选出其中一个模型提供了最佳答案，两个模型之间没有太大区别，或者两个模型都表现不佳。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

该平台现已向公众开放，用户可免费提出研究问题。所有用户均可获得两个模型的答案，并可对其表现进行投票，但只有经过验证并同意相关条款的用户的投票才会被纳入排行榜。该公司表示，排行榜将定期更新。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

澳大利亚悉尼大学人工智能研究员乔纳森·库默菲尔德 (Jonathan Kummerfeld) 表示，能够就科学话题向法学硕士 (LLM) 提问，并对答案充满信心，将有助于研究人员掌握其领域的最新文献。“这将帮助研究人员找到他们可能错过的研究成果。” OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

Kummerfeld 表示，该平台还可以推动人工智能模型的创新，因为排行榜提供了一种透明的进度衡量方式。他补充说，该平台似乎经过精心设计，可以避免用户操纵分数等问题——其他基准测试平台也存在类似的问题。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)

库默菲尔德表示，一个潜在问题是该平台对用户参与的依赖。“这些用户付出时间换取使用该工具的权利，”他说道。“只要他们认为交易划算，它就能成功；但如果他们觉得自己没有获得价值，平台可能难以获得足够的参与。” 科汉表示，该平台通过免费提供并包含最新模型来激励用户。此外，Semantic Scholar 提供的参考文献表明，其回复对研究人员“有用”。 OpenAI 的 o3 在新的 AI 排行榜上位居榜首，解答科学问题(图1)