AI大模型分不清9.11和9.9谁更大?Kimi母公司月之暗面回应来了

银柿财经 陈利峰 2024-07-18 13:57:48

月之暗面表示,我们更加要做的是不断增强底层基础模型的智能水平,让大模型能够在各种复杂和极端情况下依然表现出色。

9.11和9.9哪个数字更大?这个问题近期“困扰”了无数AI大模型。银柿财经测试发现,在被问及上述问题时,百度文心一言、阿里通义千问得出的结论是9.9比9.11大,而ChatGPT和Kimi则得出了相反的结论。

具体来看,ChatGPT与Kimi都将数字分为整数和小数两个部分,两个数字整数都为9,因此相等。但在小数部分的比较中,Kimi回答由于0.11大于0.9,因此9.11大于9.9;ChatGPT则提出由于11大于9,所以9.11比9.9大。

Kimi的回答
ChatGPT的回答

相比之下,文心一言与通义千万则将数字的小数部分拆成多位,逐位比较,在比较第一位时,由于1小于9,直接得出9.9大于9.11的结论。

文心一言的回答

据悉,类似的算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上指出,“ChatGPT-4o在回答中认为13.11比13.8更大。一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”

对于上述问题,Kimi母公司月之暗面回应银柿财经称,“其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”

月之暗面也进一步表示,但要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。

360创始人周鸿祎在其个人账号发布视频评论此事。他解释称,“大模型的全称叫大语言模型,首先解决的是对人类自然语言理解的问题。所以大模型并没有把9.9和9.11当成数字来看,而是把它们分成了两个token。没有经过专门特别的提示和训练,大模型不懂数学,而是按照一个文字的逻辑来进行对比。

对于解决这类数学问题,周鸿祎给出了三个解决方案,其一是对大模型进行专门的数学训练,二是通过搜索,与已有的答案进行匹配,三是调用外部函数或者程序来计算。

(编辑:邵曰义)
实时要闻
更多
14:38
华金证券撤回IPO申请 公司回应:并未改变登陆资本市场战略规划
14:04
华为已将问界商标转让至赛力斯 赛力斯已获得数百枚问界系列商标
14:02
国航确定首架C919首航时间
14:01
上半年科创板研发投入累计超780亿元
07:37
2381家上市公司现金流改善 “现金牛”扎堆机械设备等三大行业
2024-09-01 14:15
重庆:购买住房时已出租的住房可不纳入家庭住房套数计算
2024-09-01 13:33
浙江气温又要冲击40℃
2024-09-01 12:40
国产大飞机C919 旅客已达50万人次
2024-09-01 12:39
宁德时代董事长曾毓群:电池技术路线的关键是材料
2024-09-01 12:37
华为常务董事余承东:新能源汽车的下半场是智能化
2024-09-01 12:15
河南:积极发展人工智能、生物制造、氢能储能等产业
2024-08-31 11:15
广州:全市新房开始推行“买房即交房、交证”
2024-08-31 11:13
胖东来营业时间调整:周五至周六不变,周日至周四提前半小时闭店
2024-08-30 21:44
大陆将于近期恢复福建居民赴金门旅游
2024-08-30 21:27
苏宁易购二季度盈利1.12亿元,同比增长106.10%
2024-08-30 07:38
OpenAI:ChatGPT的周活跃用户数超过2亿
2024-08-29 21:59
中国民生银行拟解聘普华永道为2024年度审计师
2024-08-29 17:13
淘宝体验分上线首月,全平台4.8分及以上商家占比超30%
2024-08-29 16:51
机构:1-7月国内800V高压车型销量约39万辆,同比增长217%
2024-08-29 15:44
网易起诉暴雪一审获胜,法院冻结暴雪1.39亿元财产
14:38
华金证券撤回IPO申请 公司回应:并未改变登陆资本市场战略规划
14:04
华为已将问界商标转让至赛力斯 赛力斯已获得数百枚问界系列商标
14:02
国航确定首架C919首航时间
14:01
上半年科创板研发投入累计超780亿元
07:37
2381家上市公司现金流改善 “现金牛”扎堆机械设备等三大行业
2024-09-01 14:15
重庆:购买住房时已出租的住房可不纳入家庭住房套数计算
2024-09-01 13:33
浙江气温又要冲击40℃
2024-09-01 12:40
国产大飞机C919 旅客已达50万人次
2024-09-01 12:39
宁德时代董事长曾毓群:电池技术路线的关键是材料
2024-09-01 12:37
华为常务董事余承东:新能源汽车的下半场是智能化
2024-09-01 12:15
河南:积极发展人工智能、生物制造、氢能储能等产业
2024-08-31 11:15
广州:全市新房开始推行“买房即交房、交证”
2024-08-31 11:13
胖东来营业时间调整:周五至周六不变,周日至周四提前半小时闭店
2024-08-30 21:44
大陆将于近期恢复福建居民赴金门旅游
2024-08-30 21:27
苏宁易购二季度盈利1.12亿元,同比增长106.10%
2024-08-30 07:38
OpenAI:ChatGPT的周活跃用户数超过2亿
2024-08-29 21:59
中国民生银行拟解聘普华永道为2024年度审计师
2024-08-29 17:13
淘宝体验分上线首月,全平台4.8分及以上商家占比超30%
2024-08-29 16:51
机构:1-7月国内800V高压车型销量约39万辆,同比增长217%
2024-08-29 15:44
网易起诉暴雪一审获胜,法院冻结暴雪1.39亿元财产
热门文章
日排行 周排行
券商上半年业绩承压:营收百亿阵营少4员,有券商投行业务毛利率为负
银柿财经 09-01
1
近10年首次!半数上市券商将派发中期红包
银柿财经 09-01
2
百亿私募二季度持仓:高毅资产“押对”电子板块,林园重仓金龙羽
银柿财经 08-30
3
A股四大保险公司合计中期分红近270亿元
银柿财经 09-01
4
北交所再划定IPO审核红线,盈利预测渐成“标配”
银柿财经 09-01
5
突破3万,向上不止!零跑8月交付达30305台
银柿财经 09-01
6
财政部拟第三次续发行2024年超长期特别国债(四期) 面值总额600亿
银柿财经 08-30
7
信托机构谨慎配置城投债私募产品
银柿财经 09-01
8
仁和药业:关于自有资金理财的情况,建议查阅近三年公司年度报告
银柿财经 09-01
9
电广传媒:达晨财智管理基金总规模近600亿元
银柿财经 09-01
10