范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

会写代码的AI开源了C语言写得比Codex还要好,掌握12种编程语言

  比 Codex 还会写 C 语言的 AI 代码生成模型,现在开源了!
  这段时间,用 AI 写代码可以说是大火,其中最著名的要属 OpenAI 的 Codex 和 DeepMind 的 AlphaCode。
  △基于 Codex 的 Copilot
  然而,这两个 AI 模型,全都没有开源:其中 AlphaCode 只给出了一些测试样例,而 Codex 只开放了 API。
  为此,来自 CMU 的几个研究人员,用 GPT-2 搞出了一个名叫 PolyCoder 的 AI 代码生成模型,而且还是开源的。
  据研究人员表示,虽然 PolyCoder 最大只有 27 亿参数(相比 Codex 有 120 亿参数),但它用 C 语言写出来的代码,比 Codex 的效果还要好。
  这里面究竟有什么秘诀?用 12 种编程语言代码集训练
  首先来看训练用的数据集,这也是 PolyCoder 的最大特点之一。此前,包括 Codex、CodeParrot 等 AI 代码生成模型,主要都是基于 Python 语言的代码来训练。
  例如 Codex 的评估数据集之一 HumanEval,评估的也是生成 Python 代码的效果。
  相比之下,PolyCoder 采用了多种编程语言代码集来训练,一共有 12 种:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
  其中,C 语言的代码量是最多的,达到了 221GB;而 Python 代码的数据量比 Codex 和 CodeParrot 用得都要少。
  这里 PolyCoder 用的是 GitHub 上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有 50 Stars。
  据研究人员表示,每种编程语言库的 Stars 总数加起来不超过 25k,以避免模型生成的代码效果太过于倾斜最流行的编程语言(通常编程语言越流行,库的 Stars 就越多)。
  通过提取库中的文件、经过简单处理(包括消除重复代码)后,一共筛选出大约 254GB 的数据用于训练。
  然后是预训练的方法。
  语言模型的预训练方法通常有三种。第一种是自左向右的语言模型,根据上文预测下文,比较适用于代码生成等;第二种是掩蔽语言模型,基于上下文预测屏蔽片段,比较适合代码分类等;第三种是编解码器模型,比较适用于代码注释等任务。
  这里 PolyCoder 主要采用的是第一种预训练方法。
  相比于同样采用 GPT-2 训练的 CodeParrot 和 Codex,PolyCoder 在超参数设置上也稍微有一些差异:
  PolyCoder 一共提供了三种不同的模型,分别有 27 亿参数、4 亿参数和 1.6 亿参数,研究人员可以根据自身需求和不同的训练能力来选取合适的模型。
  那么,最终训练出来的 AI 模型,代码生成效果如何?C 语言写得尤其好,但 Python 不行
  研究人员将 PolyCoder 与已有的 AI 代码生成模型进行了对比。由于 AlphaCode 不好比较(接口没开放),所以研究人员主要分析了下面这些模型,包括 GPT-Neo、CodeParrot 和 Codex 等。
  其中蓝色的是开源的,橙色的是没开源的:
  从参数量来看,PolyCoder 并不是最顶尖的,最大的 27 亿参数模型也只有 Codex 的四分之一不到。
  研究人员先是用语言模型评估常用的困惑度对一系列模型进行了比较。
  困惑度(Perplexity),用于衡量语言模型(LM)的好坏。困惑度越低,语言模型面对代码感到困惑的程度就越低,模型生成效果越好。
  从图中来看,PolyCoder 在 C 语言中意外取得了最好的效果(困惑度最低)。
  用大量 C 语言训练 PolyCoder 的结果说明,即使模型整体原理不变(基于 GPT-2),单纯改变训练用的代码集,也能训练出擅长不同语言风格的 AI 代码生成模型。
  可惜的是,从其他语言来看,生成的效果就完全没办法和 Codex 相比了:
  例如,在主要用于评估 Python 代码的 HumanEval 上,PolyCoder 的能力远不如 Codex 好:
  据论文分析,这可能是 Python 代码数据量、模型参数量不足等原因导致的。
  此外,作者们也提到,做出 PolyCoder 的目的主要还是为了开源一个 AI 代码生成模型,让更多人参与研究和使用。
  目前代码已经开源,无论是直接拿来用,还是试着在它的基础上开发新模型都可以。
  感兴趣的小伙伴可以上手一试了~作者介绍
  一作许方正(Frank Xu),目前在 CMU 读博,研究方向是 NLP、信息抽取等,发表过多篇顶会论文,包括 ICLR、ACL 和 EMNLP 等。本硕毕业于上海交通大学,师从朱其立教授。
  Uri Alon,在 CMU 进行博士后工作,研究方向是编程语言处理(PLP)、NLP 和深度学习。
  Graham Neubig,CMU 助理教授,研究方向是 NLP、机器翻译和基于机器学习的自然语言理解。
  Vincent J. Hellendoorn,CMU 计算机助理教授,主要研究方向是软件工程和机器学习,致力于利用智能方法帮助软件开发人员减少代码调试、程序优化等繁琐工作的时间。
  不知道作者们是否已经在用这个 AI 撸代码了(手动狗头)
  项目地址:
  https://github.com/VHellendoorn/Code-LMs
  论文地址:
  https://arxiv.org/abs/2202.13169

微软华东师大推出中文写作智能辅导系统小花狮,用AI教学生写作文IT之家7月8日消息在2021世界人工智能大会AI赋能教育数字化转型论坛上,微软亚洲研究院与华东师范大学共同签署了促进智能教育研究的合作备忘录。双方将依托人工智能技术推进教育与人工消息称腾讯音乐唯品会和欢聚集团拟赴港二次上市1月12日晚间消息,据日本经济新闻报道,多位知情人士称,腾讯音乐(NYSETME)唯品会(NYSEVIPS)和欢聚集团(NasdaqYY)三家中国科技公司目前正寻求在香港二次上市。腾讯马化腾启动碳中和规划,响应中国碳中和目标1月12日下午消息,腾讯董事会主席兼CEO马化腾表示腾讯将积极响应中国碳中和目标,并已着手推进碳中和规划。腾讯进一步透露将推进碳核查,并结合国际经验与中国实际状况,制定碳中和的策略腾讯QQ兴趣部落宣布全面停止运营并下线感谢IT之家网友Roardeer的线索投递!IT之家1月11日消息今日,兴趣部落发布部落停运公告,宣布兴趣部落将于2021年2月26日关闭服务器,正式停止运营。公告指出,由于业务发索尼正式公开CES2021在线发布平台SonySquare,线上发布会1月12日早晨举办IT之家1月7日消息索尼今日正式公布了2021年CES消费电子展官方发布信息平台SonySquare。索尼将于北京时间2021年1月12日15日,以数字化形式展示其作为建立在坚实技苏宁优化飞天茅台抢购规则明天起每日可抢,1499元IT之家3月19日消息苏宁易购现已宣布,将于3月20日启动每天1900飞天茅台酒的抢购。本次抢购时间为3月2023日。此前,除春节期间的每日抢活动外,苏宁一直采用57日为一个预约抢2020年的第11次,刘强东卸任旗下物流公司总经理3月10日上午消息,天眼查数据显示,近日,杭州进龙物流有限公司发生工商变更,刘强东卸任公司总经理一职,张雱卸任公司法定代表人和执行董事,以上职位,均由李晨接任。与此同时,李娅云卸任2020年的第十次,刘强东卸任京东旅行社高管IT之家3月9日消息天眼查数据显示,3月6日,京东旗下全资子公司北京京东旅行社有限公司发生工商变更,刘强东卸任公司经理,张雱卸任公司执行董事法定代表人,以上职位均由辛利军接任另外,京东客服好奇查询高管等1807条购物数据遭开除,向法院起诉遭驳回IT之家3月4日消息据科技边角料报道,中国裁判文书网2月28日披露,原京东客服卢某非工作原因查询包括公司高管在内的1807条客户订单信息,被京东公司以违反公司保密规定为由解除劳动关京东物流月入过2万一线员工数增长2倍,去年800名快递小哥买房IT之家3月3日消息3月2日,京东集团发布2019年第四季度和全年业绩报告2019年第四季度净收入为1707亿元人民币,全年净收入达到5769亿元人民币,其中物流及其他服务收入达2刘强东卸任京东旗下全资子公司总经理一职,今年第9次卸任近日,京东旗下全资子公司江苏京东信息技术有限公司发生工商变更,刘强东卸任该公司总经理一职,同时,张雱卸任该公司执行董事法定代表人,以上职位,均由曹珂接任。此外,李娅云卸任该公司监事
五月天等歌手乐队演唱会上线,微信视频号直播迎来改版新增音悦会专栏IT之家2月18日消息,微信官方今日宣布新的一年,视频号直播上线音悦会专栏,热爱音乐的你们,快来解锁视频号直播新玩法吧!音悦会新专栏上线微信视频号直播迎来改版,新增音悦会专栏!将为宁波灵芯微电子产业园一期复工规划12英寸集成电路晶圆9万片月感谢IT之家网友Rongronggg9的线索投递!2月8日,位于宁波北仑的灵芯微电子产业园一期项目复工。图片来源北仑发布据北仑发布消息,灵芯微电子产业园由区工投公司下属子公司灵芯产北京新政聚焦高精尖集成电路设计产品首轮流片最高2000万元奖励感谢IT之家网友J土豆的线索投递!近日,北京市经济和信息化局北京市财政局发布了2022年北京市高精尖产业发展资金实施指南。2022年度,北京高精尖资金重点支持方向包括支持高精尖产业获客户首批6。58亿元采购订单!万业企业出售多台12英寸集成电路设备,含离子注入机IT之家2月8日消息,2月7日晚间,万业企业发布出售集成电路设备的公告,公司旗下北京凯世通拟出售多台12英寸集成电路设备,包含低能大束流离子注入机和低能大束流超低温离子注入机,总交天津集成电路产业链2021年增加值同比增长56,今年12月预计同比增长17以上2月6日,据天津广播新闻中心消息,2021年天津市集成电路产业链增加值同比增长56,增速位居12条重点产业链之首。今年开年,尽管受疫情影响,但集成电路产业链依然保持强劲势头,预计1推广违规学科培训业务,北京王后雄教育科技有限公司被处理IT之家1月21日消息,据首都教育发布,1月18日,市教委印发北京市教育委员会关于检查线上学科类培训机构发现问题的通报(京教函202226号)。通报指出,近日,市教委联合市委网信办上海交大发布人类行为理解引擎深度学习符号推理,AI逐帧理解大片中每个动作看图看片,对现在的AI来说早已不是什么难事。不过让AI分析视频中的人类动作时,传统基于目标检测的方法会碰到一个挑战静态物体的模式与行为动作的模式有很大不同,现有系统效果很不理想。现报告2021年AI岗年薪下降8。9,收入不及2018年在全球最热门发展最快速的AI领域,去年平均薪资反倒下降了?据IEEESpectrum报道,2021年全美技术人员的平均年薪上涨了6。9,从五位数(97859美元,约62万人民币)突谷歌云计算2021年4季度营收同比增长44。谷歌母公司Alphabet的财报显示,谷歌云计算业务在去年4季度的营收为55。41亿美元,较上一年同期的38。31亿美元增加17。1亿美元,同比增长44。营收同比大增,谷歌云计算业腾讯央视频AI手语翻译官聆语由公司技术团队打造感谢IT之家网友肖战割割的线索投递!IT之家2月6日消息,今日,腾讯发文表示,在央视频的比赛播放中,央视频AI手语翻译官聆语为武大靖夺金时刻带来了手语解说。此外,腾讯3D手语数字人数据显示阅读苹果的用户协议实际需要半小时,微软居首超一小时IT之家12月18日消息,据9to5Mac报道,很少有人会在创建AppleID前真正阅读苹果的条款和条件。Statista数据显示,如果这样做的话可能需要半个小时。IT之家了解到,