童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

OpenAI、Google和Meta的当红华人研究员们在想些

4月16日 听雨眠投稿
  座无虚席,过道里也站满了人。
  甚至你会以为这是一场明星见面会。
  但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。
  它被安排在“副舞台”,时间在人们最昏昏欲睡的中午,另一间大会议室的台上坐着不少硅谷明星公司的CEO和创始人们,而这个圆桌“只是”一些研究员们,但人们依然不停涌入这个小房间。
  他们的目标,是三个华人研究员。过往在硅谷,这样的场景总是发生在“硅谷公司最高位置的华人高管”出现时,但这一次,人们追逐的是三个年轻人。
  XinyunChen,ChuntingZhou和JasonWei。
  三家硅谷最重要的明星AI公司里的华人年轻研究员们。
  这三个名字对于紧密跟随大模型浪潮的人们,绝对不会陌生。
  XinyunChen(陈昕昀)是谷歌大脑和DeepMind推理团队的高级研究科学家。她的研究兴趣是神经程序合成和对抗性机器学习。她曾经在加州大学伯克利分校获得计算机科学博士学位,在上海交通大学ACM班获得计算机科学学士学位。
  她参与的包括让LLM自己创造工具,教LLM自己进行代码debug的论文等,都是在AI代码生成领域十分重要和关键的论文。她也被一些媒体有些夸张的形容为“谷歌Deepmind华人天团”的成员之一。
  ChuntingZhou是MetaAI的研究科学家。2022年5月,她在卡内基梅隆大学语言技术研究所获得博士学位,目前的主要研究兴趣在于自然语言处理和机器学习的交叉领域,以及对齐的新的方法。她主导的,尝试用更少的更精致的样本训练大模型的论文,被YannLecun大加赞赏,发文推荐,论文给业界在RLHF等主流方法之外提供了更新的思路。
  而最后一位更是备受国内外AI社区推崇的明星研究员,OpenAI的JasonWei。大名鼎鼎的COT(ChainofThoughts,思维链)开发者。他2020年本科毕业后,就成为谷歌大脑的高级研究员,在任职期间提出了思维链的概念,这也是LLM走向涌现的关键之一。2023年2月他加入OpenAI,进入ChatGPT团队。
  人们冲着这些公司而来,但更冲着他们的研究而来。
  在这场论坛里很多时候他们就像是学生,你仿佛在看一场大学里的讨论会,聪明的头脑,快速反应的逻辑,略显紧张,但也妙语连珠。
  “为什么一定要认为幻觉是个坏事情呢?”
  “但特朗普就天天幻觉。”
  现场一片笑声。
  这是一场很难得的对话,以下是对话实录,硅星人也参与并提出了问题。
  问:我们来讨论一个LLM里非常重要的问题,就是幻觉(hallucination)。幻觉的概念早在曾经模型参数还很少,大小还很小的时候就提出来了,但现在随着模型越来越大,幻觉的问题又有了哪些改变?
  Chunting:我可以先谈谈。我三年前做过一个项目,关于幻觉。当时和现在我们面对的幻觉问题很不一样,当时我们做很小的模型,并且讨论幻觉也是在具体的领域,比如翻译或者文档总结等功能。但现在显然这个问题的范畴更大了。
  为什么大模型依然产生幻觉,我觉得有很多个原因。首先在训练数据方面,因为人类有幻觉,所以数据也出现问题。第二个原因是因为模型训练的方式,它没法回答实时的问题,那就会回答错。以及在推理等能力上的缺陷都会导致这个问题。
  Xinyun:其实我会用另一个问题来开始这个回答。为什么人类认为幻觉是个坏事。
  我有一个故事,我同事问过模型一个问题,这也是从一些评估题库里来的,当公主亲了青蛙,会发生什么。模型的回答是,什么都不会发生。
  在很多模型评估的答案里,回答“会变成王子”才是那个正确答案,而什么都不会发生的这个答案都会标记为错误。但对我来说,我其实认为这是个更好的答案,很多有意思的人类也会这样回答。
  为什么人们认为这是幻觉,是因为大家没有思考AI在什么场合不应该有幻觉,什么场合是应该有的。
  比如创意的一些工作可能需要,想象力很重要。现在我们在不停的把模型做大,但这里的一个问题是,不管多大,它都不能准确的记住所有事情。人类其实也会有同样问题。我认为一个可以做的工作是,给模型辅助一些加强的工具,比如搜索,计算,编程的一些工具等。人类在这些工具帮助下可以很快解决幻觉的问题,而模型目前看起来还不太好。这也是一个我自己很想研究的问题。
  Jason:要我说,特朗普就是天天在产生幻觉。(笑)你说好还是不好。
  不过我觉得这里另一个问题是,人们对语言模型的预期在改变。2016年,一个RNN生成一个URL,你的预期是它一定是个错误的,不值得信任。但今天呢,我估计你会期待模型在很多事情上都是正确的,所以你也会认为幻觉是更危险的。所以这其实是个很重要的背景。
  (JasonWei列出的有潜力的研究方向)
  问:下一个问题先问Xinyun,现在行业一个很重要的话题是模型自我提高和比如说自我debug。你可以分享一下你的研究么。
  Xinyun:模型自我debug的启发其实来自人类如何编程。我们知道人类编程,如果一次就结束,肯定也会出问题,一定需要debug。对于很厉害的程序员,debug也是很重要的技能。我们的目标是,没有任何外部指示的情况下,没有人类告诉它哪里错了的情况下,模型自己去看自己生成的代码,看操作出来的结果,然后判断哪里出了问题。有问题就去debug。
  而为什么代码生成这件事会从自我debug中得到帮助,我认为有两个原因。第一,代码生成基本都是基于开源代码训练,它可以生成符合你大概要的方向的代码,但代码可能非常长,并且有不少错误,无法运行。但我们也没有必要从零开始编程而不用现有的代码库,因为无论你从零开始多少次问题同样无法避免,所以在已有的代码资源上去做代码生成是必须的,而debug就变得重要。第二,debug过程持续得到一些外部的反馈,对于模型的理解能力提高很有帮助。
  问:一个后续问题是,把模型交给它自己,让它自我提升,但是否就不会出现问题了?
  Chunting:我们曾做过一个奇怪的实验,结果agent在执行完了代码后删除了python的开发环境,如果这个agent进入真实世界,它可能会带来不好的影响。这是我们开发agent的时候需要考虑的东西。我也发现基础模型越小,能力越小,也很难做自我的提高和反思。也许我们能在对齐的过程中让模型看到更多的“错误”,来教会它自我提高。
  问:Jason呢,对于评估模型你们如何做和如何看。
  Jason:我个人的看法是,评估模型越来越有挑战,尤其在新的范式下。这背后有很多原因,一个是语言模型现在被用在无数的任务里,你甚至不知道它的能力范围到底多大。第二个原因是,看看AI的历史,我们主要在解决传统经典的问题,目标都是很短期,文本很短。但现在解决文本更长,即便人类都需要很长时间去判断。也许第三个挑战是,对于很多事情,所谓正确的行为并没有被很清晰的定义。
  我认为一些事情我们可以去做来提高评估能力。第一个最明显的是从更广的范围来评估,遇到一些有害的行为时候能否更具体的拆解成更小的任务来评估。另外就是对于具体的任务能不能给出更多的评估方式,也许人类给一些,然后也可以用AI也给一些。
  问:用AI评估AI的路线,你怎么看。
  Jason:它听起来很棒。我认为我最近在关注的一个趋势是,用来评估模型的模型能否表现更好。比如宪法AI训练的思路,即便现在不是表现的很完美,但有很大可能等到下一代的GPT后,这些模型的表现会比人类更好。
  硅星人:你们都是很年轻的研究员。我想知道你们作为在企业里的研究员,如何看待现在企业和学术界在GPU以及算力上的严重不匹配。
  Jason:如果你在一些有约束的环境里工作,确实可能会产生负面影响,但是我认为很多工作还是有空间可以做的,比如算法的部分,那些对GPU可能不是非常需要的研究课题,永远是不缺少的。
  Chunting:我也觉得有很多空间,有值得去探索的地方。比如对于对齐的方法的研究,其实就可以在有限的资源里进行研究。而且也许在湾区,对于学术界的人来说机会也更多。
  Xinyun:总的来说,对于LLM研究来说,有两个大的方向,一个是提高结果表现,另一个是理解模型。我们看到很多好的框架,基准等,以及一些很好的算法都是来自学术界。
  比如说,当我从博士毕业时候,我的导师给了一个建议AI研究者要拉长到未来很多年的时间维度来思考研究,也就是不只是考虑对现在的一些东西的改进,而是未来可能带来彻底改变的技术理念。
  (举报)
投诉 评论

热爱、坚持、赢!掠夺者打造“电竞篮球”新型社交场!夏天已过,制燥不止。电竞品牌掠夺者携手知名篮球IP欧耶战队举办的城市挑战赛席卷北京、成都、郑州三地,迎来盛大收官。在掠夺者打造的“电竞篮球”的新型社交场中,不仅看到了英特尔酷睿……海信厨卫全球新品成功发布,赋能健康智慧厨房9月26日,海信厨卫举行了“吾爱如期净待新生”527套系新品发布会,全球优先发布母婴级零菌洗碗机C527i、烟机HS527i、灶具B527i套系厨电产品。通过拓宽应用场景,重构……迅雷会员金秋特惠购新人特惠活动超级会员包季仅21元中秋国庆八天长假,不想出门看人海,回家与家人团圆,一日三餐,也是一种舒适惬意幸福的度假方式。9月26日,迅雷会员上线了金秋特惠购活动,让大家与家人在一起的日子,也有高质量的时光……《赛博朋克2077:往日之影》一举登顶,这次赢麻了!耕升RT作一款基于未来科幻的开放世界3A大作,《赛博朋克2077》以独特的赛博风格建筑和逼真的画面让无数玩家为之心动。其备受瞩目的资料片往日之影也将于今日正式解锁,……安卓用户小心!恶意软件Xenomorph复活:专门窃取用户银快科技9月26日消息,近日,恶名远扬的安卓恶意银行软件Xenomorph再度袭来。与之前不同的是,这次它可以窃取超100种银行和加密软件的信息。据相关报道,Xenomor……“iPhone14青春版”!苹果iPhoneSE4曝光快科技9月26日消息,据爆料,苹果预计会在2024年底或2025年推出iPhoneSE4。它采用6。1英寸刘海屏,屏幕刷新率是60Hz,这是SE系列第一款刘海屏机型。相比……NVIDIA明年上马3nm!私人定制但不是游戏卡快科技9月26日消息,NVIDIA将在明年推出采用台积电3nm级工艺的下一代高性能计算GPUBlackwellGB100,以及下一代加速卡B100。NVIDIA现有的GH……LG17英寸折叠屏笔记本发布:屏幕采用抗皱褶材料3万次折叠测快科技9月26日消息,LG正式发布了全新的笔记本LGGram17Fold,搭载了一块17英寸可折叠OLED屏幕。据了解,在这块屏幕采用了一种专业材料,可以尽量减少屏幕折叠……中国联通:正积极布局天地一体卫星通信手机直连尚未实现快科技9月26日消息,据最新报道,今天中国联通研究院副院长魏进武在中关村泛联移动通信技术创新应用研究院主办的6G协同创新研讨会”上表示,中国联通正在积极创新布局天地一体产业链。……iPadmini7来了:苹果最佳“游戏机”快科技9月26日消息,产业链人士爆料,苹果会在今年年底推出iPadmini7。对比iPadmini6,iPadmini7升级幅度不大,预计会延续上一代的设计语言,屏幕尺寸……AI算力70年增长6。8亿倍,3个历史阶段见证AI技术指数级【新智元导读】一张图揭示了AI算力70多年发展了6。7亿倍,未来AI各方面能力将全面超越人类,而真正令人期待的是,AI行业才刚刚进入爆发前的萌芽期。电子计算机于上世纪40……OpenAI、Google和Meta的当红华人研究员们在想些座无虚席,过道里也站满了人。甚至你会以为这是一场明星见面会。但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。它被安排在“副舞台”,时间在人们最昏昏欲睡……
记住,只有产品才能成为抢滩用户阵地的排头兵记住,互联市场中的“用户阵地”就是一群清晰的面孔,而只有产品才能成为真正抢滩用户阵地的排头兵。不看用户,或者单纯“圈粉”,都是“自我为主”心态下的覆灭之路。曾经和一位房地……在线英语教育付费混战,社群学习模式异军突起知识付费已经掀起了新一场互联网经济狂欢,不过在这样的趋势下,业内竞争陡然加剧,目前整个行业开始呈现出多股势力割据天下的态势。去年5月14日,知乎推出知乎次日,在……巨头们不是为了做零售而作无人超市,关键还是在于数据的攫取首先,从整个互联网行业发展的大趋势来看,线上流量已经愈发昂贵,因此线上产品与线下的场景结合成为关键,从而创造线上线下和人连接一切;其次,移动支付的发展,线下支付场景的拓宽,为其……快手、陌陌盛行,这些品牌背后的商业逻辑在哪里?今天,我们就来聊一聊,当厂妹机、快手、陌陌这些我们并不太熟悉的品牌成功的背后到底是个什么样的赚钱逻辑?曾几何时,我们大多数人还停留在高大上的时代,但是时代却在进行着巨大的……看脸的社交时代:美颜APP围绕“变美’的核心诉求继续前行从某种意义上说,有着极强需求的美颜市场,给了美颜APP得以逆袭的机会,而不高的技术壁垒让这种逆袭成为可能。有网民将我国的P图与韩国的整容、日本的化妆、泰国的变性连在一起,……产品经理日报第1005期微信支付在欧洲正式上线,意在挑战支付哈喽,你我相约七点半,你来了么产品经理日报继续为您带来今日最新的资讯:据CNBC报道,腾讯将于周一在欧洲上线微信支付业务;支付宝推出会赚钱的“蚂蚁红包卡”月费只需9块钱;外教在……生鲜电商须警惕的5大生死劫!资本都是逐利的,一旦所投项目的遇到在盈利方面毫无起色的情况下,资本必将出走。这也是商业规律!千亿市场都养不活的生鲜电商!生鲜,毫无疑问是电商市场的蓝海,从低渗透率、……你是在付费学习,还是在消除学习焦虑?用输出倒逼输入,才是最有效的学习。前阵子和朋友聊天,得到一个共识:知识经济市场,即将面临一个拐点。下半年,会有一波洗牌,大量的课程和平台将会慢慢衰落。我很赞同。因为……产品经理日报第1008期ofo全面使用“物联网智能锁”,结单哈喽,你我相约七点半,你来了么产品经理日报继续为您带来今日最新的资讯:北京电信宣布NB物联网商用,ofo共享单车结单小于五秒;微信读书正式发布2。0版本,上线音频内容;淘宝将下……社区经济的核心价值:交易效率在一个城市一天想卖掉10万箱水果,前提是要有利润,怎么卖?做过生意的都知道批发走量但利润薄,零售利润高但销量没保证,最好的方式是“零售的利润批发的量”。从订单密度角度看,最好的……无人零售业,真的能够解决当下零售业的发展难题吗?即使互联网巨头们都在进行无人零售的布局,但是科技的失落感在无人零售当中依然是一块不可忽视的短板。未来随着相关科技应用的逐步成熟,或许将会慢慢改变当前我们对于无人零售的一些看法,……产品经理日报第1007期扩大收入:Facebook将在全球测哈喽,你我相约七点半,你来了么产品经理日报继续为您带来今日最新的资讯:Facebook宣布,将在未来几周把Messenger主屏广告的测试版推广到全球;小程序升级页面体验相关能……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界