OpenAI新推理模型被曝产生更多幻觉,性能提升却伴随更多错误
0次浏览 发布时间:2025-04-19 07:46:00
IT之家 4 月 19 日消息,OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。
据外媒 TechCrunch 今日报道,幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一,即使是目前性能最优秀的模型也难以完全避免。过去,每一代新模型在降低幻觉频率方面通常都会取得小幅进步,但 o3 和 o4-mini 却打破了这一趋势。
根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini,甚至还高于传统“非推理”模型(IT之家注:如 GPT-4o)。
OpenAI 在针对这两款模型发布的技术报告中表示:“要弄清楚随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,还需要进一步研究。”报告指出,尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往,但由于模型输出的答案总量增加,导致其既能作出更多准确判断,同时也不可避免地出现更多错误甚至幻觉。
在 OpenAI 设计的内部基准测试 PersonQA 中,o3 回答问题时出现幻觉的比例达到 33%,几乎是前代推理模型 o1 和 o3-mini 的两倍,后者的幻觉率分别为 16% 和 14.8%。在同一测试中,o4-mini 的表现更差,幻觉率高达 48%。
第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果复制进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。
OpenAI 发言人 Niko Felix 表示:“解决幻觉问题是我们一直在推进的重点研究方向,我们也在不断努力提升模型的准确性与可靠性。”
相关文章
- 08-17 特朗普透露美准备为乌提供安全保障 具体内容暂不明
- 08-15 硚口区为重点项目审批按下“快进键”
- 08-14 上海出台商改住新政,允许商务楼宇拓展租赁住房功能,此前一度明令禁止的“商改住”变得合法合规
- 08-14 国家数据局:国内多数模型训练使用的中文数据占比已超60%
- 08-13 海量财经丨AI+国际化双轮驱动:腾讯二季度ToB营收双位数增长
- 08-10 美媒:特朗普将撤换国税局长 财长暂时代理
- 07-28 AI热爆了!日行3万步都跑不完WAIC,机器人展区水泄不通
- 07-27 探索智能与工程融合的AI应用新范式 蚂蚁密算开源高阶程序HOP框架
- 07-25 字节发布端到端同声传译模型
- 07-21 “走,到楼下溯溪捉鱼去!”