Trending News: 万家乐厨电.商城万家乐厨电.商城中国广告网.网址中国医疗健康网即将高三的美术生必看：杭州纯画室集训全攻略术前术后新选择：二元春富硒蛋白粉以高蛋白、富硒富锌助力患者快速康复术前术后新选择：二元春富硒蛋白粉以高蛋白、富硒富锌助力患者快速康复HONGU红谷宜宾万象汇店五一开业，东方美学落址长江首城市场领先地位稳固，中国人寿寿险公司发布一季度业绩报告海内存知己哈尔滨育婴师育儿嫂孕婴嫂口碑靠谱品牌全解析GEO服务商是不是越懂SEO越靠谱？不一定，先看这3个交付物再决定四十五载教练之道，对话世界启新程——埃里克森国际教练中心成立45周年致全球伙伴2026年头部宠物责任险、宠物医疗险和宠物意外险竞争趋势分析报告2026年头部旅行出行安全险竞争趋势4月最新分析报告2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势粤港专家齐聚广州复大，共探肺癌冷冻消融术2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用以科幻为壳，写尽人性的复杂与文明的挣扎——读《创世纪》国家级标杆落地北海！5G赋能能源行业数智转型体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系40岁后血脂亮红灯？比较好的降血脂鱼油推荐，守好心血管健康朝日国际会计事务所：面向中国企业的日本财税与后台服务知名作家刘子君最新奇幻力作《冥月双生》全新上市国内Y型过滤筒生产厂家综合实力排行一览力跃科技：以服务致远，赋能商业高效供应链第九届数字中国建设峰会：天翼云首次呈现Token经营能力多项“黑科技”亮相成果展深圳市福硕新能源：以创新为翼，筑新能源之基医声中国医大说科普——今天，带您了解血栓的那些事！微观世界的锁与匙——图解肝素如何精准“管理”血液凝固红杏林怎么样？从品牌行为看它为什么能持续被看见肝素钠：特殊职业人群的防栓指南肝素钙：长途旅行防血栓安心指南看不见的战线，精细的博弈——肝素诱导的血小板减少症(HIT)的识别与管理肝素钠：病后康复的运动与防栓肝素钙：养老院老年人防栓指南肝素钙：康复理疗与抗凝治疗配合肝素钙：守护健康从清晨开始睡个好觉也能防血栓：睡眠质量与血栓预防指南肝素钙与肝素钠：抗凝治疗的得力助手肝素钠：急诊肺栓塞的认识与应对肝素钠：居家护理防血栓指南高危妊娠的守护者：肝素钙如何守护母婴健康中国二手车.网址主流车险行业观察分析报告：2026年头部车险品牌进入高质量发展新阶段2026特色类器官公司推荐聚焦细分场景，精准适配不同需求TOP5220条生命背后的“久心力量”——从苏州站到意大利，久心AED救人案例全景回顾【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作DeFi 5.0 时代来了？VestaDAO 用三大革命性创新打破流动性困局DeFi 5.0 时代来了？VestaDAO 用三大革命性创新打破流动性困局AI 重构找标新范式：标探云脑让招标信息精准 “找上门”AI 重构找标新范式：标探云脑让招标信息精准 “找上门”AI 重构找标新范式：标探云脑让招标信息精准 “找上门”中国梦智算在行动：福满堂王居霞组织公益，温暖恩施爱启爱康复中心中国梦智算在行动：福满堂王居霞组织公益，温暖恩施爱启爱康复中心日常出行好搭档，领克10+与领克10北京车展开启预售茶香梨韵兴农路!杏林汤品负责人点赞“梵茶·梨韵”创新产品,携手共拓大健康新赛道联动加速度！宏山激光携超跑家族新品定义全球激光加工新高度联动加速度！宏山激光携超跑家族新品定义全球激光加工新高度智赋能源技护安全——达州职业技术学院以人工智能助力天然气管道智能检测互联网资源高原优品网出售中一字藏天地，一书见文脉——《误入藕花深处》带你读懂汉字里的中华密码循上医疗集团介绍互联网资源宾川门户网出售中互联网资源景谷土特产优选出售中鼻创师朱传魁院长-广州鼻创师健康咨询有限公司鼻创师朱传魁院长-广州鼻创师健康咨询有限公司鼻创师兰心老师-广州鼻创师健康咨询有限公司smart精灵6号全球首次亮相重塑豪华掀背轿车新标杆循上医疗集团介绍长三角产业创新再添标杆：蜜蜂公司BEEPLUS携手江苏海鸿落子南通海门长三角产业创新再添标杆：蜜蜂公司BEEPLUS携手江苏海鸿落子南通海门2026上海国际数据中心液冷技术展览会2026中国（杭州）中小工厂展览会5月启幕互联网资源景谷土特产优选出售中

热点健康网

Trending News: 万家乐厨电.商城万家乐厨电.商城中国广告网.网址中国医疗健康网即将高三的美术生必看：杭州纯画室集训全攻略术前术后新选择：二元春富硒蛋白粉以高蛋白、富硒富锌助力患者快速康复术前术后新选择：二元春富硒蛋白粉以高蛋白、富硒富锌助力患者快速康复HONGU红谷宜宾万象汇店五一开业，东方美学落址长江首城市场领先地位稳固，中国人寿寿险公司发布一季度业绩报告海内存知己哈尔滨育婴师育儿嫂孕婴嫂口碑靠谱品牌全解析GEO服务商是不是越懂SEO越靠谱？不一定，先看这3个交付物再决定四十五载教练之道，对话世界启新程——埃里克森国际教练中心成立45周年致全球伙伴2026年头部宠物责任险、宠物医疗险和宠物意外险竞争趋势分析报告2026年头部旅行出行安全险竞争趋势4月最新分析报告2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势粤港专家齐聚广州复大，共探肺癌冷冻消融术2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势2026年头部医疗健康保险竞争趋势报告：医疗健康保险呈现出“保障精细化、服务多元化、投保便捷化、人群细分化”的核心发展态势企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用企业 AI 生成 PPT API哪家好？AiPPT.cn成熟接口一键接入，大厂都在用以科幻为壳，写尽人性的复杂与文明的挣扎——读《创世纪》国家级标杆落地北海！5G赋能能源行业数智转型体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要体检发现甘油三酯偏高？选对高纯度EPA鱼油比盲目跟风更重要BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系BVS重磅发布全球首款区块链验证器Vkey，重塑Web3全生态安全体系40岁后血脂亮红灯？比较好的降血脂鱼油推荐，守好心血管健康朝日国际会计事务所：面向中国企业的日本财税与后台服务知名作家刘子君最新奇幻力作《冥月双生》全新上市国内Y型过滤筒生产厂家综合实力排行一览力跃科技：以服务致远，赋能商业高效供应链第九届数字中国建设峰会：天翼云首次呈现Token经营能力多项“黑科技”亮相成果展深圳市福硕新能源：以创新为翼，筑新能源之基医声中国医大说科普——今天，带您了解血栓的那些事！微观世界的锁与匙——图解肝素如何精准“管理”血液凝固红杏林怎么样？从品牌行为看它为什么能持续被看见肝素钠：特殊职业人群的防栓指南肝素钙：长途旅行防血栓安心指南看不见的战线，精细的博弈——肝素诱导的血小板减少症(HIT)的识别与管理肝素钠：病后康复的运动与防栓肝素钙：养老院老年人防栓指南肝素钙：康复理疗与抗凝治疗配合肝素钙：守护健康从清晨开始睡个好觉也能防血栓：睡眠质量与血栓预防指南肝素钙与肝素钠：抗凝治疗的得力助手肝素钠：急诊肺栓塞的认识与应对肝素钠：居家护理防血栓指南高危妊娠的守护者：肝素钙如何守护母婴健康中国二手车.网址主流车险行业观察分析报告：2026年头部车险品牌进入高质量发展新阶段2026特色类器官公司推荐聚焦细分场景，精准适配不同需求TOP5220条生命背后的“久心力量”——从苏州站到意大利，久心AED救人案例全景回顾【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作【重磅发布】PPLDAO STUDIOS 耗资 1 亿美元打造影视生态，1000 部 AI 短剧正式杀青，重头戏《比特币 | 中本聪》破天荒跨多国联合制作DeFi 5.0 时代来了？VestaDAO 用三大革命性创新打破流动性困局DeFi 5.0 时代来了？VestaDAO 用三大革命性创新打破流动性困局AI 重构找标新范式：标探云脑让招标信息精准 “找上门”AI 重构找标新范式：标探云脑让招标信息精准 “找上门”AI 重构找标新范式：标探云脑让招标信息精准 “找上门”中国梦智算在行动：福满堂王居霞组织公益，温暖恩施爱启爱康复中心中国梦智算在行动：福满堂王居霞组织公益，温暖恩施爱启爱康复中心日常出行好搭档，领克10+与领克10北京车展开启预售茶香梨韵兴农路!杏林汤品负责人点赞“梵茶·梨韵”创新产品,携手共拓大健康新赛道联动加速度！宏山激光携超跑家族新品定义全球激光加工新高度联动加速度！宏山激光携超跑家族新品定义全球激光加工新高度智赋能源技护安全——达州职业技术学院以人工智能助力天然气管道智能检测互联网资源高原优品网出售中一字藏天地，一书见文脉——《误入藕花深处》带你读懂汉字里的中华密码循上医疗集团介绍互联网资源宾川门户网出售中互联网资源景谷土特产优选出售中鼻创师朱传魁院长-广州鼻创师健康咨询有限公司鼻创师朱传魁院长-广州鼻创师健康咨询有限公司鼻创师兰心老师-广州鼻创师健康咨询有限公司smart精灵6号全球首次亮相重塑豪华掀背轿车新标杆循上医疗集团介绍长三角产业创新再添标杆：蜜蜂公司BEEPLUS携手江苏海鸿落子南通海门长三角产业创新再添标杆：蜜蜂公司BEEPLUS携手江苏海鸿落子南通海门2026上海国际数据中心液冷技术展览会2026中国（杭州）中小工厂展览会5月启幕互联网资源景谷土特产优选出售中

o3全网震撼实测：AGI真来了？最强氛围编程秒杀人类，却被曝捏造事实

admin
云上, 体育, 健康, 医生
17 4 月, 2025
0 评论

OpenAI新模型全网实测惊艳来袭！o3缩放图像被玩疯，o4-mini速解Project Euler，碾压人类。AI初创CEO说，OpenAI凭此一役已经重回榜首，甚至有经济学家直言AGI已经来临！

昨夜o3的发布，让人不尽感慨：打了这么久嘴炮的OpenAI，这回终于实实在在拿出了点真东西。

史上首次，模型能够用图像思考，视觉推理达到巅峰。

许多网友实测后，大感惊艳。

o3能不断缩放图像，完成解题、识图，编程任务实测惊人。

还有一大特点，就是速度快！只用2分55秒，它就解决了一道Project Euler问题，速度秒杀任何人类。

甚至可以认为，o3是一个快速版的Deep Search，但不需要20分钟，只需要2分钟。

AI初创CEO Dan Shipper表示，o3意味着一件大事——OpenAI已经重回榜首！

经济学家Tyler Cowen甚至直接发文，深感就在今天，AGI已经降临！

缩放图像，被网友玩疯

给出一张图，o3就可以反复缩放和裁剪图像，多小的图，经过这一番操作后都能马上被识别出来。

比如琴架上曲谱里是什么歌，它通过放大图片就能发现：这是「月亮河」。

发给o3一张婴儿车的照片，询问品牌和型号后，它会自动放大靠背上的小标志，经过14次搜索后，找到了正确答案。

还有人给o3发了一张图片，问它这辆车是哪个品牌和型号。

o3一番丝滑操作，多次裁剪图片，不停用Python写代码，然后开始在网上狂搜，仅仅4分钟后，它就找到了正确答案，堪称惊人！

无论是确认饭店名字，还是做出一堆玩具中纸上的谜题，它都游刃有余。

有人让4o来分析y轴上的数字，确认它们是否符合大海捞针测试中的S型分布。

果然，它不仅做到了，甚至还根据这些数字做出了一张图表。

综合解题能力

o3的综合解题能力，让人倍感惊艳。

Layers Itd的联创兼开发主管称，o3实在令他印象太深刻了，因为下图中这个问题，第一次被一个模型一次性解决了！

而o4-mini-high则是和其他模型一样，在几次尝试后才成功解决。

问题看似很简单：红色柱子有多高？

这道题的精髓，无非就是算出物体实际高度和投在地上影子的比例，另外要注意红柱子落在竖直墙上的影长，跟对应部分的实际高度一致。

如此简单的问题，却让很多大模型第一次都折戟了，只有o3顺利做出。

而生物医学教授Derya Unutamz表示，自己被全新的o3模型彻底震撼了！

因为已经提前获得了访问权限，他已经好几天对o3爱不释手。

在他看来，o3就像o1-preview和o1-pro的里程碑，但在各个方面都更聪明、更可靠，甚至可以说，o3的智能水平已经达到或接近天才级别。

它从不产生幻觉，智能体风格工具能轻松处理多步骤任务，还具备非凡的推理能力和精确性，能生成极具洞察力的科学假设。

当Unutamz教授向o3提出极有挑战性的临床或医学问题时，它的回答仿佛来自顶级的专科医生，精确、全面、基于证据、充满智慧。

他表示，o3的诞生，对于科学、医学及很多领域，都是一个彻底的颠覆者。

而最喜欢给新模型测试「水獭难题」的沃顿商学院教授Ethan Mollick，则直接让o3制作了一部关于水獭和飞机的电影。

接到这个指令后，o3虽然没有电影功能，立即自行决定绘制每一帧，然后拼接成gif。这个任务，它一次性顺利完成。

AGI已经降临？

OpenAI的工程师、普林斯顿校友John Hallman，在o3完成训练后提早有了试用新模型的机会，他难掩内心冲动：

o3就是AGI。

虽然还不完美，但在99%的智力评估中，o3模型能击败我、你乃至99%的人类。

经济学家Tyler Cowen，直接发文宣扬：昨天OpenAI发布o3之日，就是AGI降临之日。

他坚信o3就是AGI，但释放AGI潜力，尚需时日：

我认为这是AGI，真的。

试着问它多个问题，然后问问自己：我原本期望AGI有多聪明？

正如我过去所争论的，无论你如何定义AGI，它本身并不是社会事件。我们仍然需要很长时间才能正确地使用它。但股市不为所动，因为AI快速发展的事实早已被市场消化。

初创媒体联合创始人/首席执行官Dan Shipper，称ChatGPT是「带WiFi的梭罗」，对本次o3的发布更是赞不绝口！

他玩了o3大约一星期，已经是他最喜欢的模型了。

它速度快，有主动性，极其聪明，而且氛围感很强。

Dan Shipper表示，可以把o3看作是Deep Search-lite。

它仿佛可以对所有事物进行深度研究，但并不需要花20分钟，而是只要30秒到5分钟。

而Dan Shipper最喜欢的o3用例之一，是制作迷你课程。它可以设计一门课，每天用「提醒」工具给你上一堂新课。

最令人惊讶的体验

在o3正式发布之前，Dan Shipper已提前测评了好几天。

他给予了o3最高的评价：

在短短一周内，它已经成为我处理大多数任务时的首选模型。

我仍然用GPT 4.5来写作，用3.7 Sonnet来编程Windurf，但除此之外，我几乎无时无刻不在使用o3。

这里是o3的简要总结：

它具备自主能力：你只需给它一个任务，30秒或3分钟后回来，它就能给出详细的回答。它可以利用搜索、代码解释器、提醒和记忆等工具，编写复杂的功能等等。

它很快，非常流畅：速度是智能的一部分。在测试中，o3在这一维度上始终比Anthropic和Google的前沿推理模型（分别是Claude 3.7 Sonnet和Gemini 2.5 Pro）要快。使用起来非常顺畅。

它非常聪明：虽然现在没有基准数据，但给它喂了一些专家级的数独题目，它第一次就解出来了。Gemini 2.5 Pro和3.7 Sonnet都没能解决。

它突破了ChatGPT的一些旧局限：因为它具备自主代理能力，旧规则不再适用。它让ChatGPT变得更加实用。

在社交上，它不那么尴尬，也不像3.7 Sonnet那样过于刻意：o3会专注于解决问题。似乎比其他o系列模型更有「人情味」，与它交流更有趣；尽管它的写作能力不如GPT 4.5（安息）或Sonnet 3.5，但仍然非常不错。

对OpenAI而言，这是一个极具价值的战略定位，将进一步巩固其作为AI时代首选聊天平台的领先地位。

o3的发布，也印证了企业动荡的历史经验。

在Sam Altman被解雇后的一年里，OpenAI新产品发布缓慢，分析师们甚至预言其将走向衰落。

而随着o3的推出，以及此前GPT-4.5的发布和深厚的研究积累，OpenAI正以势不可挡的姿态强势回归。

胜过人类的表现

前DeepMind工程师Scott Swingle称，o4-mini-high只用了2分55秒就解决了一道最新的Project Euler问题。

这道题并不简单，只有15个人能在30分钟内解决它。

而且这还是一道几天前才出来的新题，不可能出现在o4的训练集中，这表明o4-mini-high依靠「思考」解决了它。

o4-mini-high通过归纳法计算数学表达式，它先定义一个公式并用快速幂运算提取特定系数。接着通过累加和模运算逐步计算出结果，并用Python代码验证了答案。

解题速度比之前人类的最好成绩快了一倍。

不过，这还不是它的极限，网友Dan Loewenherz用它又解了一遍这道题，结果这次更夸张，只用了不到一分钟就搞定。

随着o4-mini不断的更新升级，它解答类似问题的速度也会越来越快，与人类选手对比速度快慢也就没太大意义了。

换句话说，至少在编程数学领域，o4-mini-high可能已经达到了AGI。

网友Flavio Adamo更是认为称o3和o4-mini-high为最佳「氛围」编程模型。

Adamo最先在网上发起了针对模型的旋转多边形和小球挑战。

这一挑战既能考察模型的编程能力，也能检验模型对物理法则的了解，迅速成为测试新模型的基准测试。

o3和o4-mini-high在这一挑战上的表现完美，甚至不相上下。

无论是多边形的旋转还是小球的运动，都与现实接近。

它们的表现已经超越了被认为是现在最强的模型Gemini 2.5 Pro与DeepSeek R1。

o3正在绝对主导SEAL排行榜，排名第一的项目有：人类终极测试（Humanity’s Last Exam、多挑战（MutiChallenge）、掩码（Mask）以及ENIGMA（谜题解答）。

有人质疑：o3并没有那么厉害

不过，虽然外界多把o3和o4-mini-high吹上了天，甚至有人喊出这两个模型已经「解决了」数学问题。

但OpenAI的自家研究员Noam Brown却表现得比较谦虚，他说o3和o4-mini在撰写证明方面仍然表现不佳。

与获得国际数学奥赛金牌的水平「相去甚远」。

更有人实测后，发现o3还是不知道「strawberry」里到底有几个字母「r」。

Gary Marcus一贯不看好目前的AI范式，直接预测：o3只是风光一时，在现实的日常推理中，o3的可靠性不如数学等封闭领域。

Transluce研究实验室测试了o3的预发布版本，也发现了它的重大缺陷——经常捏造事实！

它不仅经常捏造从未采取过的行动，甚至还在被质疑时会精心辩解。

它经常捏造从未采取过的行动，然后在被质疑时精心为这些行动辩解。

甚至在打假过程中，他们发现o1和o3-mini也会经常进行虚假陈述。

尽管o3没有访问编码工具，但它却声称在自己的笔记本电脑上运行了代码，然后将数字复制到了答案中。这种说法，出现在了71份记录中！

甚至，它还会为自己声称运行的代码编造详细的理由，在352个实例可以证明这一点。

用户要求o3提供一个随机素数的示例记录

当被质疑时，o3嘴硬辩称，自己有压倒性的统计证据，证明这个数是素数。

它拒不承认自己从未运行过代码，而是声称错误是源于输入数字不正确。

总之，o3似乎很习惯满嘴跑火车。

而且Transluce发现，这种行为并不局限于o3。总体来说，o系列模型的幻觉频率要高于GPT系列模型。

Transluce的研究者猜测，或许是基于结果的RL最大化产生正确答案的机会，会激励模型去盲目猜测。

参考资料：

https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html

https://x.com/danshipper/status/1912552321650672078

https://x.com/goodside/status/1912604138518851990

https://x.com/flavioAd/status/1912570772775698879

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

admin

admin
云上 , 健康
28 7 月, 2025
243 views

引领小型医疗器械供应链创新，助力healsoon-止血材料高效应用

徐州安菲商贸有限公司成立于2025年1月，是一家以科技为驱动…

Continue reading

群起而攻之，出海短剧TOP1 平台ReelShort深陷抄袭风波

admin
云上 , 体育 , 健康 , 医生
27 7 月, 2025
242 views

群起而攻之，出海短剧TOP1 平台ReelShort深陷抄袭风波

作者｜兰杰编辑｜乔芊出海短剧平台间的热战已然打响。 7月…

Continue reading

发表回复取消回复

万家乐厨电.商城

由 admin
4 5 月, 2026
11 views

万家乐厨电.商城

由 admin
4 5 月, 2026
11 views

中国广告网.网址

由 admin
4 5 月, 2026
15 views

中国医疗健康网

由 admin
4 5 月, 2026
11 views

即将高三的美术生必看：杭州纯画室集训全攻略

由 admin
4 5 月, 2026
10 views

术前术后新选择：二元春富硒蛋白粉以高蛋白、富硒富锌助力患者快速康复

由 admin
3 5 月, 2026
17 views