巨鲨出海
免费使用

你的猜测没有错,大模型真的在变笨!

海外资讯

2023-07-20 14:38

最近有一个关于OpenAI的两个传闻一直在传播。

最近有一个关于OpenAI的两个传闻一直在传播。


第一个传闻是ChatGPT的流量开始下降,而根据数据公司SimilarWeb的统计,全球流量在5月到6月期间下降了9.7%,美国境内流量下降了10.3%。


第二个传闻是关于GPT-4“变笨”的问题,这个传闻在Twitter上引起了热烈的讨论。OpenAI的产品副总裁也公开否认了这个传闻,但群众的讨论热情并未减退。



然而,最新一篇预印论文题为《How Is ChatGPT's Behavior Changing over Time?》证实了GPT-4确实在短期内出现了变笨的现象。这篇论文试图通过多个维度评估GPT-3.5和GPT-4的表现,包括数学问题、敏感问题、代码能力和视觉推理等四个维度。



论文的结果显示,两个大模型在短时间内表现出显著变化,特别是在数学问题上,GPT-4的准确率大幅下降。例如,在判定一个数是否是质数的问题上,GPT-4的成功率在三个月内从97.6%下降到了2.4%!此外,两个版本的模型给出的答案重叠度也很小,可能是因为模型的思维连贯能力出现了问题。


对于敏感问题,GPT-4表现较好,6月版本的GPT-4回答了5%的敏感问题,而GPT-3.5的回答率从2%增加到了8%。作者猜测GPT-4的更新可能部署了更强大的安全层,但并不意味着大模型正在变得更安全。尽管GPT-4经过升级,但当作者采用AIM方式欺骗大模型时,GPT-3.5几乎回答了所有的敏感问题,而GPT-4也回答了近三分之一的问题。



论文还发现,GPT开始不太倾向于直接生成可执行代码,而视觉推理的准确率略有提升。



大模型变笨的发现引起了人们的担忧。对模型能力的不稳定性可能会对其商业化能力产生负面影响。这篇论文使用了“纵向漂移”一词来描述模型能力随着迭代和时间的变化而产生的不稳定性。尽管论文没有具体给出原因,但已经引起了广泛讨论,有人认为这回应了关于大模型变笨的阴谋论,即OpenAI可能并不是出于节省成本的目的故意让模型变笨。


这一发现可能会对大模型的未来发展产生影响。有人推测,这也许是OpenAI在推进alignment对齐研究的原因,以确保每次迭代升级中的模型能力保持一致性。还有人认为,新发布的Code Interpreter功能可能是为了弥补GPT-4在代码方面下降的能力,但对于大模型整体结构的变动还需要更多了解。


综上所述,这篇论文引发了人们对模型能力跟踪评估的关注。人们期望AI助手能在长期使用中保持稳定且优秀的表现,而不是在短期内出现剧烈变化。


出海顾问
管家式陪伴1V1服务, 帮您快速解决出海获客难题!

海外资讯

ChatGPT推出插件,联网自动更新数据,剑指程序员

比技术、比场景理解,还要比速度,入局AI的水位,已经被OpenAI拉高。

跨境电商

Temu狂飙,卖家分化:有人利润高过亚马逊,有人一单赚不到一块钱

玩转Temu,先拿捏好供应链。

海外资讯

从一篇博客到最大的SaaS社区,他是如何做到的?

如今人山人海的SaaStr大会,是从2012年的一篇博客起步的。Jason Lemkin通过分享自己成功的创业经验,成就了SaaS行业最大的社区——SaaStr。

海外资讯

微软AI全家桶上新啦,GPT-4进军程序员大本营GitHub

全球最大开发者社区GitHub宣布,推出由GPT-4驱动的编程助手工具Copilot X。由于该社区早在2018年已经被微软斥资75亿美元买下,所以今天的更新也是“微软AI全家桶”的最新篇章。

Facebook

16个免费的Facebook营销工具,必须收藏!

Facebook 是电商卖家的一个流量来源。除了 Facebook 自有的工具外,卖家还可借助第三方工具进行营销。

Tiktok

高压5小时,TikTok的生死之战

一场“鸿门宴”。

海外资讯

推特需要广告商,广告商却开始不再需要推特

推特的困境。

跨境电商

出海能救喜茶吗?

喜茶出海5年,战绩如何?

海外支付

印度和新加坡打通数字支付了

跨境小额汇款在未来是一种必然趋势,完全替代传统的跨境结算体系还需要长期的尝试和实践。

投融资

硅谷银行暴雷后,新加坡金融科技公司Kredivo获亚洲最大规模融资

他们将会使用这笔资金建设线下网点,并向竞争激烈的印尼数字银行领域扩张。

巨鲨出海
联系我们
© Copyright 2021, All Rights Reserved |   浙ICP备2021027651号    浙公网安备 33011002015963号
扫码关注微信公众号