打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉

2024-02-05每日热点

  GPT-4变懒的问题,又有新进展。

  就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!

  

  关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:

  完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。

  对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。

  

  但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加了,但是很多都是车轱辘话,干正事依旧摆烂。

  他让ChatGPT把一些文本翻译成17种语言,结果叽里呱啦说了一堆就是不翻译。

  

  为了消除个体差异,有网友用数据集测试了新的ChatGPT,结果……

  新版反而更懒了?

  这位网友用GitHub上开源的一套“lazy benchmark”测试了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,发现新版甚至还不如以前,变得更懒了。

  

  这个测试数据集包含了与代码相关的任务,用正确完成的比例间接反应“懒惰”程度,完成率越高说明“惰性”越小。

  结果,对于其中的代码比较(Unified diffs)任务,旧版能完成的比例尚且超过了一半,为57%,新版的完成率却仅有44%,降低了近四分之一。

  

  直观感受上,也有人发现ChatGPT的“懒惰”变本加厉了——

  以前就算偷懒至少还会糊弄一下,给出个大概的框架让用户自行补充,现在直接就是摆烂说自己干不了。

  

  而针对网友们的这番发现,也有人给出了锐评:

  几周之前奥特曼就说过GPT-4表现变好了,但是有人感觉到差别吗?

  

  这次,关于GPT-4变懒的原因,以及到底采用了什么优化策略,奥特曼也未做进一步说明。

  “土办法”可降低惰性

  不过,之前的一项研究表明,GPT-4的惰性可能与时间相关,这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。

  

  按照这一理论,新年伊始,模型的表现的确会有所提升,但似乎解释不了表现不升反降的现象。

  不过,网友们也总结了一些“土办法”,能在一定程度上降低ChatGPT的惰性。

  比如告诉它“我没有手指”,就能得到相对完整的代码,而不是一段段碎片。

  

  又或者,告诉ChatGPT自己会“给小费”,也能激发它的工作动力。

  甚至有人专门针对“小费”的金额进行了研究,发现10美元的性价比是最高的。

  

  那么,你觉得ChatGPT是变好了还是更懒了?

  

— 完 —

标签: 今日热榜

“打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉” 的相关文章

博主曝本田思域Type R滞销:无人机拍到工厂内停满库存车

博主曝本田思域Type R滞销:无人机拍到工厂内停满库存车

  快科技1月18日消息,有汽车博主爆料的一组图片显示,无人机拍到国内一停车场内密密麻麻停满了本田思域Type R。   有网友爆料的聊天记录显示,这些车辆都是滞销的,位...

消息称先锋国际半导体收购友达新加坡工厂,建设先进12英寸汽车芯片晶圆厂

消息称先锋国际半导体收购友达新加坡工厂,建设先进12英寸汽车芯片晶圆厂

  IT之家 10 月 31 日消息,根据《经济日报》从产业内人士处获悉,先锋国际半导体 / 世界先进(VIS)目前正和友达新加坡工厂展开洽谈,收购后者所持有的土地和设备,用于建设首座 1...

华为辟谣车BU将出售或上市,余承东称会与更多车企合作

华为辟谣车BU将出售或上市,余承东称会与更多车企合作

  记者自华为方面获悉,华为与长安汽车于11月25日在深圳签署了《投资合作备忘录》,余承东称会与更多车企合作。经协商,华为拟成立一家新公司,聚焦智能网联汽车的智能驾驶系统及增量部件的研发、...

争分夺秒!骑电瓶的大爷头盔没摘就跳水救人 仅3分钟顺利拉女子上岸

争分夺秒!骑电瓶的大爷头盔没摘就跳水救人 仅3分钟顺利拉女子上岸

  江苏苏州一骑电瓶的大爷头盔没摘就跳水救人的事件,展现了一个普通市民的勇敢和无私奉献精神,是一个令人钦佩的行为。下面我将从不同的角度对该事件进行评价。...

一文了解2023第四季度全球手机出货量:苹果霸榜 华为大爆发

一文了解2023第四季度全球手机出货量:苹果霸榜 华为大爆发

  市场调查机构Counterpoint Research近日发布2023年第四季度市场监测报告,2023年第4季度全球智能手机出货量达到3.232亿部,同比增长7%,环比增长8%。...

月之暗面回应Kimi系统异常问题:或因流量持续增高

月之暗面回应Kimi系统异常问题:或因流量持续增高

  凤凰网科技讯 3月21日,月之暗面发布了针对网站异常的情况说明,从3月20日上午九点半开始,官方观测到Kimi的系统流量持续异常增高,并且流量增加的趋势远超此前对资源的预期规划。这导致...