OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题

OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)SciArena 使用研究人员的投票来评估大型语言模型对技术主题的回应。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图4)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)根据上周推出的基准测试平台,o3 是由 ChatGPT 的创建者开发的人工智能 (AI) 模型,被评为回答多个领域科学问题的最佳 AI 工具。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)随机选择OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)为了对这23个法学硕士项目进行排名,SciArena邀请研究人员提交一些科学问题。研究人员从两个随机选择的模型中获得了答案,这些模型引用了Semantic Scholar(一款同样由Ai2开发的人工智能研究工具)的参考文献,以支持他们的回答。之后,用户投票选出其中一个模型提供了最佳答案,两个模型之间没有太大区别,或者两个模型都表现不佳。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)该平台现已向公众开放,用户可免费提出研究问题。所有用户均可获得两个模型的答案,并可对其表现进行投票,但只有经过验证并同意相关条款的用户的投票才会被纳入排行榜。该公司表示,排行榜将定期更新。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)澳大利亚悉尼大学人工智能研究员乔纳森·库默菲尔德 (Jonathan Kummerfeld) 表示,能够就科学话题向法学硕士 (LLM) 提问,并对答案充满信心,将有助于研究人员掌握其领域的最新文献。“这将帮助研究人员找到他们可能错过的研究成果。”OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)Kummerfeld 表示,该平台还可以推动人工智能模型的创新,因为排行榜提供了一种透明的进度衡量方式。他补充说,该平台似乎经过精心设计,可以避免用户操纵分数等问题——其他基准测试平台也存在类似的问题。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)库默菲尔德表示,一个潜在问题是该平台对用户参与的依赖。“这些用户付出时间换取使用该工具的权利,”他说道。“只要他们认为交易划算,它就能成功;但如果他们觉得自己没有获得价值,平台可能难以获得足够的参与。” 科汉表示,该平台通过免费提供并包含最新模型来激励用户。此外,Semantic Scholar 提供的参考文献表明,其回复对研究人员“有用”。OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)OpenAI 的 o3 在新的 AI 排行榜上位居榜首,解答科学问题(图1)