童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

大模型无法替代码农!普林斯顿芝大惊人发现:GPT4解决Git

12月4日 喵小咪投稿
  【新智元导读】ChatGPT之类的AI编码工具来势汹汹,StackOverflow又裁员了!不过,普林斯顿和芝大竟发现,面对真实世界GitHub问题,GPT4的解决率竟是0。
  StackOverflow,已经被ChatGPT创飞了!
  因为码农大量涌向ChatGPT、GithubCopilot,StackOverflow今天不得已宣布裁员100多人,几乎占员工人数的13。
  所以,ChatGPT这类AI编码工具,真的要颠覆整个行业了?
  不过最近,普林斯顿和芝大的一项研究发现,LLM想要替代码农,其实没那么容易。
  论文地址:https:arxiv。orgabs2310。06770
  在2294个GitHub真实问题面前,GPT4解决随机GitHub问题的通过率,竟然是0!
  而即使是最佳模型Claude2,也只能解决其中的1。96而已。
  码农会因为ChatGPT而失业吗?答案是目前绝对不会。
  要么适应,要么灭亡
  作为全世界每个开发者最爱的代码辅助网站,StackOverflow在此前的形势还一片大好,在去年掀起了一场招聘狂潮,整个公司的员工人数都翻了一番,达到了540人。
  然而,自从去年11月OpenAI发布了ChatGPT后,一切都变了。
  AI聊天机器人提供的帮助,比5年前的论坛帖子更加具体。通过LLM,开发者可以即时更正确切的代码、优化建议,以及每行代码正在执行操作的说明。
  虽说LLM提供的答案也并不是100可靠,但代码具有独特的能力,只需在IDE集成开发环境中进行测试,即可立即验证代码了,这一切都使写代码成为了ChatGPT的理想用例。
  因此,StackOverflow的流量大大减少,ChatGPT、GPT4驱动的GithubCopilot等AI编程工具,都成为了码农的新去处。
  今天,CEOPrashanthChandrasekar宣布,StackOverflow裁员一百多人,占员工总数的28。
  CEO对于裁员的解释是,宏观经济压力下,StackOverflow在努力走上盈利之路,不断推出产品创新。
  过河拆桥?
  ChatGPT给StackOverflow造成冲击这件事,最大讽刺之处在于,大语言模型的强大能力,很大程度上就是来自像StackOverflow这样的抓取网站。
  大语言模型吸空了这些数据,却不回馈任何东西,如果所有数据源都被迫赶出了这一业务,那时会发生什么?
  现在,不少科技公司面前已经存在着迫在眉睫的问题:如果程序员减少,人造数据就会减少。
  如果没有最新的数据,怎么训练新的AI模型呢?
  想用我们的数据?拿钱来
  StackOverflow当然不能坐以待毙,它选择了两种方式自救
  一是开发自己的AI编码工具OverflowAI,二是直接和OpenAI这样的科技公司寻求合作,因为这些公司会使用StackOverflow的数据构建AI模型。
  据悉,OpenAI正在为ChatGPT开发网络爬虫控制,这样StackOverflow这样的网站的数据就不会被爬取。
  CEO表示,StackOverflow已经表明了立场:谁想用我们的数据来训练LLM,谁就来付费。
  CEO认为,像StackOverflow这样的网站对于大语言模型的发展至关重要,为了进步,它们需要在新知识上进行训练。
  StackOverflow首席执行官PrashanthChandrasekar
  LLM想取代码农,还早着呢
  所以,大语言模型真能取代码农吗?
  普林斯顿和芝大团队发现,没那么容易!
  在最新论文中,研究人员提出了一种全新框架SWEbench,以评估大模型在解决2294个GitHub真实问题中的能力。
  结果发现,像GPT4、Claude2这样领先的大模型,解决实际问题的能力,都不过5。
  再具体点,GPT4可以解决随机GitHub问题的通过率竟是0,而最佳模型Claude2,也只能解决其中的1。96。
  更值得一提的是,在使用BM25检索每个问题的相关代码文件时,Claude2编写的补丁中只有23是有效的(可以用于repo),只有1真正解决了问题。
  此外,不同的模型,在解决12个流行的Python库问题的性能,也有所差异。
  GPT4大模型取得这样的结果,真是让人大跌眼镜,毕竟许多人都早已将其视为编程利器。
  但要看清,AI真正的实力,不要被刷榜评分而陷入担忧。
  有网友表示,这是对码农是否因编程而失业问题的最好的解答。
  终于有人为代码模型制作了一个真正的eval数据集,HumEval只是LLM的leetcode面试。我们都知道,这对人类工程师来说是个错误的衡量标准。不到4听起来是对的,因为大模型离完全自主还很远。
  那么,SWEbench评估大模型能力的结果,事实真是如此吗?
  SWEbench:专为编码模型设计
  在这项研究中,作者发现,当前许多评测大模型编码能力的基准已经趋于饱和,无法评测出大模型真正的实力。
  比如,HumanEval中,挑战问题太过简单,LLM只需要几行代码就能解决独立的问题。
  然而,现实中软件工程并非如此简单。
  修复一个bug可能需要浏览庞大的资源库,理解不同文件中函数之间的关系,又或者在错综复杂的代码中发现一个小错误。
  受此启发,普林斯顿、芝大研究人员介绍了SWEbench。
  SWEbench通过连接GitHub问题和解决相关测试的合并请求解决方案,从真实Python代码库中获取任务实例。
  如图所示,模型的任务(通常是错误报告或功能请求)是解决提交到GitHub仓库的问题。
  每项任务都需要生成一个补丁,并描述要应用到现有代码库中的更改。
  然后使用仓库的测试框架SWEbench,评估修改后的代码库。
  为了找到高质量的大规模任务实例,研究者通过了三个阶段的筛选:
  第一阶段:仓库选择和数据搜索。
  首先从GitHub上12个流行的开源Python代码库中收集拉取请求(PR),总共产生了约90,000个PR。
  研究人员将重点放在流行的仓库上,因为这些仓库往往维护得更好,有明确的贡献者指南,并且有更好的测试覆盖率。每个PR都有一个相关的代码库,即PR合并前的仓库状态。
  第二阶段:基于属性的筛选。
  创建候选任务的方法是,选择符合以下条件的合并PR:(1)解决了GitHub问题;(2)修改了仓库的测试文件,这表明用户很可能贡献了测试来检查问题是否已解决。
  第三阶段:基于执行的过滤。
  对于每个候选任务,都会应用PR的测试内容,并记录应用PR其他内容前后的相关测试结果。
  研究者会过滤掉没有至少一项测试的任务实例,这些测试的状态从失败变为通过(以下简称失败到通过测试)。此外,还会过滤掉导致安装或运行错误的实例。
  通过这些阶段的筛选,原始的90,000个PR被筛选为2,294个任务实例,这些任务实例构成了SWEbench。
  如下图3所示,显示了这些任务实例在不同资源库中的最终分类,表是SWEbench任务实例的主要特征。
  研究者强调,这些代码库都很大,包含数千个文件,而且参考拉取请求通常会同时对多个文件进行修改。
  与现有的LM编程基准相比,SWEbench具有多项优势。
  其中包括,利用用户提交的问题和解决方案的真实设置、来自12个资源库的独特代码问题为特色的多样化输入、基于执行的强大评估框架,以及利用新实例不断更新基准的能力,且只需极少的人工干预。
  LLM任务:编辑代码库,解决问题
  研究者会给大模型关于问题的文本描述,以及完整的代码库。
  大模型的任务,就是对代码库进行编辑,来解决问题。
  在实践中,研究者将修改表示为补丁文件,它会指定要修改代码库中的哪些行以解决问题。
  如何评价LLM给出的方案好不好?
  研究者会使用unix的补丁程序,将生成的补丁应用于代码库,然后执行与任务实例相关的单元和系统测试。
  如果补丁应用成功,并且通过所有这些测试,就可以认为LLM建议的方案成功地解决了问题。
  基准的度量指标,是已解析任务实例的百分比。
  构建SWEbench的独特数据集
  传统的NLP基准,通常只涉及短的输入和输出序列,并考虑一些专门为基准创建的“人为”问题。
  相比之下,为了构建SWEbench,研究者为数据集注入了独特的属性。
  比如,采用的是真实的软件工程任务。
  由于SWEbench中的每个任务实例都包含一个庞大而复杂的代码库和相关问题的描述,解决SWEbench,就需要经验丰富的软件工程师拥有的复杂技能和知识,但在传统的代码生成基准中,这些通常不被评估。
  而且,收集过程可以轻松地应用于GitHub上的任何Python存储库,几乎不需要人工干预。
  因此,研究者就可以通过不断提供新的任务实例来扩展SWEbench,并就训练日期后创建的问题对语言模型进行评估,这就确保了训练语料库中,并没有包含解决方案。
  此外,研究者还保证了基准中不同的长输入、稳健评估、跨上下文代码编辑、解决方案的广泛范围等。
  微调SWELlama
  接下来,就是到了评估开放模型与专有模型在SWEbench框架的效果了。
  可是研究者发现,现成的CodeLlama微调模型,无法遵循详细的指令生成整个资源库范围内的代码编辑,通常会输出占位符响应或不相关的代码。
  为了评估这些模型的能力,研究人员对70亿参数的CodeLlamaPython模型和130亿参数的CodeLlamaPython模型进行了监督微调(SFT)。
  由此产生的模型是专门的仓库编辑器,可在消费级硬件上运行,并解决GitHub问题。
  大模型都败北
  接下来,研究者对GPT3。5、GPT4、Cluade2以及微调的模型进行了评估。
  结果发现,所有模型都失败了除了发现最简单的问题外,它们都无法解决所有问题。
  比如,Claude2和GPT4分别只能解决4。8和1。7的任务。
  在使用BM25检索器后,Claude2的性能进一步下降到1。96。
  不同资源库的难度不同。
  如果按资源库对性能进行细分,就会发现所有模型在不同资源库中都表现出相似的趋势。
  尽管如此,每个模型所解决的问题并不一定广泛重叠。比如,在oracle设置中,Claude2和SWELlama13b的性能相当,每个模型分别解决了110个和91个实例。
  难度与上下文长度相关。
  模型可以在长代码序列上进行预训练,但通常要求一次生成单个函数,并提供有限的上下文来确定问题的框架。
  如图所示,可以看到随着上下文总长度的增加,Claude2的性能大幅下降,这种情况在其他模型中也可以观察到。
  即使增加BM25的最大上下文大小,会提高相对于甲骨文文件的召回率,但性能仍然会下降,因为模型根本无法在茫茫词库中定位有问题的代码。
  难度与问题解决日期无关。
  在表7中,展示了在oracle检索设置下,针对2023年之前或之后创建的PR,按日期划分的模型结果。
  对于大多数模型来说,除GPT4外,在这一日期之前或之后的性能差别不大。
  另外,研究还发现微调模型对上下文分布变化很敏感,生成补丁比生成整个文件更容易。而且大模型倾向于生成更短、更简单的编辑。
  LLM无法替代程序员,但可以加快工作流
  有网友对通才模型的未来有所憧憬和希望。
  没错,这也是我的经验之谈。通才模型还不够好,没有足够宽的上下文长度,除了相对较短的代码片段外,无法自行编码。
  但我认为这只是时间问题。我可以预见,在不久的将来,接受过特定训练的通才LLM将成为非常专业的模型。
  虽然大模型无法替代程序员,但可以加速他们的工作流。过去需要10人的团队,现在可能只需要4个人。这样就能腾出资源,用于公司筹备的其他目标。
  与其为了省钱而解雇员工,不如让开发人员惊人的速度完成伟大的事业!
  参考资料:
  https:www。reddit。comrMachineLearningcomments1795iizcanaireplacedevelopersprincetonand
  https:twitter。comcarlosejimenezstatus1711714120175681552
  https:www。swebench。com
  https:futurism。comthebytestackoverflowlayoffsai
  https:arstechnica。comgadgets202310afterchatgptdisruptionstackoverflowlaysoff28percentofstaff?comments1commentspage1
  (举报)
投诉 评论

GPT4V被曝离谱bug:突然执行神秘代码,空白图片读出打折GPT4V出现惊天bug?!原本只是让它分析一张图片,结果它直接犯了致命安全问题,把聊天记录都给抖落出来了。只见它完全没回答图片内容,而是直接开始执行“神秘”代码,……米哈游、复旦发布,具备感知、大脑、行动的大语言模型“智能体”ChatGPT等大语言模型展示了前所未有的创造能力,但距AGI(通用人工智能)还有很大的距离,缺少自主决策、记忆存储、规划等拟人化能力。为了探索大语言模型向AGI演变,进……MCN没有“铁饭碗”初秋的一个下午,一家MCN的办公室内,一片热火朝天之下却暗藏了些怪异。偌大的办公室内,联排坐着的大多却是视频剪辑实习生。一眼看去,他们目光中的青涩尚未褪去,显然是刚毕业或……被复制的“疯狂小杨哥”,正在悄悄赚大钱差点就骗到我了。看了半天的“小杨哥”直播,居然是假的。这对兄弟名叫“暴躁小鹏哥”,他们只是1:1复制了疯狂小杨哥的直播间。同样的直播背景,同样长相相似的俩兄弟……手机厂商抢滩AI换机潮OpenAI可能要造手机了,而且可能是专为ChatGPT设计的AI手机。最近,据TheInformation报道,OpenAICEOSamAltman一直在与iPhone……3年内80企业都将“AI化”,我们离AI规模化应用还有多远?三年内,80的企业都将用上AI!最近,分析公司Gartner发布报告称,预计在2026年,超过80的企业将使用生成式AI应用程序接口(API)或部署支持生成式AI的应用程……13个字母价值4万美元?21岁大学生用AI破译千年古卷!近来,一位21岁的计算机科学学生,因为一个历史性成就获得了4万美元奖金。提问:什么历史性成就?答:成功破译了2000年前被掩埋、已碳化且无法打开的赫库兰尼姆古卷中的一个单……大模型无法替代码农!普林斯顿芝大惊人发现:GPT4解决Git【新智元导读】ChatGPT之类的AI编码工具来势汹汹,StackOverflow又裁员了!不过,普林斯顿和芝大竟发现,面对真实世界GitHub问题,GPT4的解决率竟是0。……方头明“模仿”油腻男出圈,演技派红人发展前景如何?上半年,方头明凭借一系列模仿油腻男的视频走红网络,短则十几秒、长则一分钟的视频中,她身着深蓝色棉服出现在各个生活场景中,惟妙惟肖的表演令网友直呼“这姐演技吊打娱乐圈所有人。”……即创ai直播工具怎么申请即创账号在哪里申请抖音即创一站式智能创意生产与管理平台已经推出公测版本,目前用户可在网页端登陆该平台,使用各种AI功能,完成视频、图文等内容的创作,以下我们来看下即创的申请方法。1、首先即……AI视频爆发!一天10万条,冲进抖音快手小红书在暖色灯光中,一个复古行李箱缓缓打开,露出灰白色的运动鞋,光影在鞋面上划过,镜头拉近,麂皮质地的纹理清晰可见。画面一转,鞋子旋转起来,灯光由暗转亮,明暗交接在鞋跟处形成一个慢镜……双11预售倒计时!阿里妈妈三大冲刺指南,助商家直播、内容、店今晚8点,双11预售正式开启,商家进入大促冲刺期。和往年相比,今年双11的经营节奏发生了全新变化。过去,商家习惯在前期进行蓄水,后期再集中爆发,但随着消费的日趋多元化,节……
阿里巴巴申请双11商标被驳回法院:缺乏显著性站长之家(ChinaZ。com)6月7日消息:今日,北京法院审判信息网公布了阿里巴巴集团控股有限公司与国家知识产权局二审行政判决书,判决结果显示,阿里巴巴申请的“双11”商标被……618翻译机品类销量和销售额最新排名,科大讯飞不出意料坐稳冠京东实时榜显示,截止6月6日,在翻译机品类销量和销售额榜单中,位居前三的分别为科大讯飞扫描词典笔、科大讯飞双屏翻译机和阿尔法蛋词典笔Q3,其中冠亚军均为科大讯飞产品,而季军阿尔……娄艺潇开启抖音直播带货首秀,全能带货解锁主播新身份5月30日下午6点,娄艺潇坐镇抖音电商“超级星推官”直播间,开启直播带货首秀。超级星推官是抖音电商首个主打明星主播的营销IP,该IP定位明星抖音电商直播首秀阵地,邀请明星担任q……“老汪来了”开启618家居热潮居然之家数字化转型再添新动能她是穿越时空的外星后裔“司藤”;她是《极限挑战》里自带柔光滤镜的“甜甜”;她是在“老汪来了年中盛典”直播间里,为消费者送上众多优惠福利的居然之家品牌形象代言人,景甜。一年……京东618火热进行时“换新”家电,“焕新”你的生活!6月1日,“京东618,18周年庆”喜迎开门红,盛典开启仅10分钟,京东家电全渠道、各品类便呈井喷之势,量额齐增,多点开花。作为开年首个大规模消费盛宴,京东家电践行着……网推天下刘志永:李子柒个人品牌螺蛳粉为何稳居第一?近年来,借着“宅经济”的东风,螺蛳粉这一风味独特的地域美食,从柳州走向了全国,销量持续走高。2019年,李子柒品牌入局螺蛳粉行业,此时距国内第一家袋装螺蛳粉产品推出已经过去四年……得物App迎来潮流品牌TWOEX2入驻与黄明昊一起玩转潮流作为全球知名的潮流网购社区,得物App自从2015年成立以来,就一直坚持帮助年轻用户“得到美好事物”这一发展理念,并不断进行平台潮流商品的更新,为年轻消费者打造了不少潮流文化的……搜狗输入法“美好表达计划”:李银河、史航等26位文化名家集结近日,搜狗输入法启动“美好表达计划”,并邀请国内优质内容的作家、文化名人参与。该计划主要包含“名人金句入驻”和“线上文化活动”等两部分内容。一方面,将文化名家们的优质金句……网商银行:淘宝天猫商家提前收款功能整个6月免费站长之家(ChinaZ。com)6月7日消息:网商银行今日宣布,为支持天猫618,淘宝天猫提前收款功能整个6月免费,开通过该功能的商家都可享受。网商银行场景金融负责人张成……狂买鹅厂“友军”,首个爆款隐现,字节游戏要火了?“字节做什么,只挑市场,从不挑对手。”一位字节跳动的员工曾这样告诉Tech星球,游戏是与字节系15亿月活流量最契合的业务。尽管进入游戏市场,将面临全球最大的游戏公司腾讯的……私域电商白皮书来了:这会是改写市场的底层算法吗?在微信的私域流量生态中,小程序是最强的落地转化场景之一。2019年时,小程序电商的GMV为8000亿人民币,这个市场过去两年增速分别是160、100。这组增长数据意味着,……腾讯的抖音官号被封杀了?抖音官方回应:谣言【TechWeb】6月5日消息,昨日下午,有消息称,腾讯的抖音官号早就被封杀了,对此,抖音方面发布声明回应称,该传闻为谣言。抖音方面称,事实是,腾讯公司委托律师事务所举报……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界