12个国产大模型大战高考数学,意外炸出个大bug
2024-07-28 【 字体:大 中 小 】
金磊 发自 凹非寺
继国产大模型挑战高考作文之后,是时候再战一下高考数学了。
数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。
那么现在,是时候考验国产大模型们的数学能力了。
有请“选手们”登场——
Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。
国产大模型 vs 高考数学选择题
根据数学题目类型的不同,我们先来小试牛刀一下选择题。
测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:
查看题目,给出第1题到第8题的答案。
接下来,我们就来一同看下国产大模型们的表现。
Kimi
通义千问
豆包
智谱清言
百小应
讯飞星火
商量
腾讯元宝
海螺AI
万知
不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。
(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)
那么我们最后来看下“踢馆选手”——GPT-4o。
国产大模型 vs 数学大题
鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:
设n为正整数,数列 ( a1, a_2, \cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。
(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;
(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, \cdots, a{13} ) 是 (2, 13) - 可分数列;
(3) 设 ( a1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, \cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n \geq rac{1}{8} )。
接下来,我们再来看下国产大模型们的表现。
Kimi
通义千问
文心一言
豆包
智谱清言
百小应
讯飞星火
商量
腾讯元宝
天工
海螺AI
万知
最后,还是有请“踢馆选手”——GPT-4o。
那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?
猜你喜欢
大分化!有的涨7成,有的降9成
5-10天后科技股半年报行情
海峡创新(300300)1月10日主力资金净买入17803万元
百信银行“基于分布式数据库的实时计算资产视图”获评“十佳卓越实践”奖
越吃子宫越干净的水果,探索自然的神奇力量
2024年2月6日全国主要批发市场蟠桃价格行情
儿童吃贝七真的可以长高吗?贝七适合多少岁的孩子吃?
财联社1月18日电,澳大利亚12月失业率为39%,预期为39%,前值为39%。
西部陆海新通道首次发运中老跨境预制菜班列
他活了107岁,给国家捐了6000多座楼
换装15T发动机 新款奥迪A3申报图曝光
《乌合之众》最耐人寻味的10句经典语录,句句耐人寻味
9月5日上市 领克Z10预售2158万起
2024跨交会闭幕,从人气火爆透视行业新趋势
方正科技(600601SH):16T连接器和光模块产品分别已完成打样并具备批量生产能力
部分地区高端餐饮门店萎缩50%,名酒“场景转型”能否应对?
菱电电控新注册《武汉菱电ECU BootLoader软件V10》项目的软件著作权
8月14日凯撒文化涨停分析:手游,游戏,云游戏概念热股
通灵股份(301168SZ)股东金控集团累计减持公司6001万股
长城山海炮穿越版皮卡官图发布 将于2024成都车展预售