首页 > 新车测评 > 新车测评 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

新车测评更多>>

不读博士,照样进OpenAI!o1核心成员现身说法了 华为FreeClip 2耳夹耳机确认支持Android设备豆包App唤醒 小米SU7、YU7下架熔岩橙配色 雷军:很帅但敢买的人太少了 深蓝S09汽车V5.1.0版本OTA,升级鸿蒙座舱HarmonySpace 5等 三星Galaxy S26系列手机配色与存储规格曝光 银河航天创始人徐鸣:手机直连卫星将引领6G通信革命 AMD CPU份额从1%冲到40% 苏姿丰回忆来时路:胜利来自3大转折点 周鸿祎:2026年全世界至少会出现100亿个智能体 百亿级公司在AI领域都算小公司 减少误触:宝马新专利曝光,给车载触摸屏加个“防抖条” 中国新型反无人机系统性能受关注:拦截距离可达3000米以上 华尔街担心产能过剩之际 台积电月度报告力证AI没降温 首台小米定制SU7 Ultra竞速红交付 车主喊话雷军:好东西自己会说话 马斯克预言更接近现实:特斯拉FSD v14.2已集成部分AI推理能力,有助于路线优化、自动泊车等功能决策 有米粉把REDMI K80至尊版改名王腾纪念版:本人笑哭 消息称OpenAI大力研发音频AI模型,加紧备战首款硬件设备 三大冠军!比亚迪2025年销售460万辆 海外年销量首次突破100万辆 AI浪潮推高存储芯片成本,分析师称未来一年消费电子或涨价两成 固态电池国标将至,终结“名词混战” 滴滴自动驾驶落地阿布扎比,中东成L4出海首站 LG与奔驰高管达成共识:加强下一代汽车零部件合作 上海两款外企大模型通过国家备案 高调喊出“奔驰永远是奔驰”,段建军的底气究竟从何而来 广汽总经理交棒,四大引擎驱动“新广汽”蝶变 上汽大众、上汽奥迪携新品亮相广州车展! Stellantis第三季度净营收增长13% 奔驰集团Q3利润大跌70% 保时捷第三季度亏损11亿美元 零跑汽车否认“一汽成最大股东”传闻,称消息不实 丰田CEO:暂未因安世半导体危机面临芯片短缺 DIY大神使用500个一次性电子烟:成功为自己房屋供电!