斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨

1月13日夜如影投稿

　　在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。
　　一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。
　　由于硬件和算法的最新进步，大模型的上下文窗口的长度也越来越“卷”。
　　其中的卷王当属Anthropic公司，其五月份就将Claude的上下文窗口从9ktoken扩展到了100k。
　　最近更新的Claude2更是让其100K的上下文能力“常驻”模型。
　　有大模型“风向标”之称ChatGPT也在三月份将GPT4模型最大上下文窗口达扩至32K；六月份将GPT3。5Turbo增加了16k的上下文长度（此前是4k）。
　　而斯坦福大学联合加州伯克利大学以及Samaya的研究员，在一篇题为“中途迷失：语言模型的长上下文利用之道”中提出：在多文档问题回答和键值检索，这两种都需要从输入的上下文中识别相关信息的任务中，大语言模型会随着输入上下文的长度增加，性能会显著下降。
　　具体而言，作者指出当相关信息出现在输入上下文的开头或结尾时，性能通常最好，但当模型需要在长篇上下文的中间获取相关信息时，性能明显降低。
　　换句话说：当带有答案的文字，被放在文章的中间时候，大语言模型可能无法准确识别、理解该答案。
　　因此，大模型目前越来越卷的上下文窗口长度，可能并不能增加模型的理解能力。
　　值得一提的是，知名科技媒体网站VentureBeat也报道了这篇论文，并咨询了一些专家，表示，向量数据库可能是破局的关键。
　　这一说法也得到了上述论文的关键作者“NelsonLiu”的认可，他表示：如果将整个PDF放到语言模型上下文窗口中，然后询问有关该文档的问题，那么使用向量数据库搜索通常会更有效。
　　同时NelsonLiu也提到这篇论文并不是在说将整篇文档塞进大模型的上下文窗口，就一定表现不好。其实，结果取决于文档所包含的具体内容，大模型在区分“关系密切的内容”时，表现不佳。当各部分内容不相关（相互独立）的时候，大模型非常擅长“准确定位”。
　　编者注：向量数据库的核心思想是将文本转换成向量，然后将向量存储在数据库中，当用户输入问题时，将问题转换成向量，然后在数据库中搜索最相似的向量和上下文，最后将文本返回给用户。
　　论文细节
　　论文对开源和非开源的模型都进行了测验，前者包括MPT30BInstruct，LongChat13B（16K）；后者包括OpenAI的GPT3。5Turbo和Anthropic的Claude。
　　首先进行了多文档问题回答的实验。该任务的目标是让模型对文档进行推理，找到并使用相关信息来回答给定的问题。
　　在实验中，对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。
　　如上图所示，当改变相关信息在文档中的位置时，模型性能呈现独特的U形趋势，即当相关信息出现在输入上下文的开头或结尾时，性能通常最好；当模型需要在长篇上下文的中间获取相关信息时，性能明显最低。
　　甚至，在相关信息被放在输入上下文的中间位置时，GPT3。5Turbo在多文档问题回答任务上的表现不如别提供文档。
　　此外，一些号称专门处理长文本的大模型，在这方面表现也不好。
　　那么，语言模型有多大程度上能从输入上下文中检索信息呢？论文作者指定了一个合成的键值检索任务来探索该问题。
　　在这个任务中，模型需要处理一组JSON格式的键值对，并必须返回与特定键相关联的值。类似于多文档问题回答任务，键值检索任务在操作过程中，也对输入上下文的大小以及输入上下文中的相关信息位置进行了有控制的调整。
　　结果显示：仍然是U形性能曲线。
　　多文档问答
　　多文档问答任务在很大程度上类似于商业搜索和问答应用（例如，BingChat）所采用的检索增强生成模式。
　　在这些实验中，模型的输入是一个需要回答的问题，以及k篇文档（例如，来自维基百科的段落），其中一篇文档包含了问题的答案，而剩下的k1篇“干扰”文档则没有。
　　如上图所示，要执行多文档问答任务，模型需要在输入的上下文中获取包含答案的文档，并用它来回答问题。
　　具体测验中，作者利用NaturalQuestions基准测试的数据，创建了这一任务的实例。其中，使用的查询来自于NaturalQuestionsOpen，并从维基百科抽取段落（即不超过100个Token的文本块）作为输入上下文中的文档。
　　对于所有这些查询，需要找到一份包含答案的文档，并找到k1份没有答案的文档作为干扰项。前者作者采用NaturalQuestions注释中含有答案的维基百科段落；后者采用了Contriever检索系统找出那些最与问题相关，但并未包含任何NaturalQuestions标注答案的k1个维基百科片段。
　　最后，将准确度作为主要的评价标准，以此来判断预测输出中是否出现了正确的答案。
　　前期准备工作完毕，作者对当前几个“最能打”的大模型进行了测验。从上图可以看出，这些模型都展示出了U形性能。
　　如上图所示，随着输入上下文的增长，模型的表现有明显的下滑。无论哪一个任务，随着上下文扩展，模型的功能都会表现出退化。
　　键值检索任务
　　键值检索任务能够测验大模型从输入上下文直接获取信息的能力。键值检索任务中，输入是含k对键值的JSON对象及一特定键，目标是返回该键关联的值。
　　因此，每个JSON对象都包含一个关联的键值对（需要检索的值），和k1个不相关的“干扰”键值对。上图展示了键值检索任务输入内容和其对应的预期输出。
　　该任务中，可通过增加或减少随机键来改变JSON键值对的数量，这样就改变了输入的长度；同时也会调整输入中相关的正確信息的位置。
　　含有75、140和300个键值对的测试
　　上图展示了键值检索的表现。结果显示虽然键值找回任务仅需找到输入上下文中的精确匹配，但并非所有模型都表现优秀。claude模型在各种长度上都接近完美，但其他模型在检索大量键值对时遇到了困难。
　　在键值检索和多文档问答任务中，表现出类似的U型曲线。唯一的例外是在键值检索任务中表现出色的模型（claude）。值得一提的是，LongChat13B在140键值环境下的表现非常独特，它会生成代码来提取键值，而非直接输出值。
　　为什么会出现这种问题？
　　为深入洞察其原因，作者初步研究了模型构架，答案在上下文中位置，和指令调优起到的作用。
　　在模型架构层面，论文比较了only解码器和编码解码两类模型，结论是：相比于only解码器的语言模型，编码器解码器结构的语言模型在上下文窗口方面较为稳健。但当模型处理超过其在训练时使用的最大序列长度时，编码器解码器模型也会出现U形曲线。
　　另外，更改答案在上下文中的位置，可以完美地提高关键值检索任务的性能，但对多文档问答任务的性能趋势影响不大。
　　最后，作者发现基础语言模型在没有指令调优的情况下也表现出U形曲线，这表明指令调优过程本身可能不是造成这一性能模式的原因。
　　换句话说，语言模型在利用中间信息上的困难，其根本原因可能不在于指令调优，这需要我们更深入地研究模型本身的结构及训练过程。
　　论文结论
　　提供更多上下文信息并非总是有益的。尽管在某些情况下，向语言模型提供更多的上下文信息可以提高其性能，但是在一定点之后，增加更多的上下文信息可能无法带来显著的性能改进。
　　模型优先使用开头和末尾信息。语言模型更容易处理输入信息的开头和末尾部分，所以把关键信息放在这些位置或缩短文档长度可能有助于提升性能。
　　模型难以利用更长的上下文。仅仅通过增加上下文长度可能无法有效提升语言模型的性能。要真正改善模型处理长上下文的能力，可能需要从模型本身进行改进，例如改进模型的架构或者训练策略。
　　参考文献
　　https：venturebeat。comaistanfordstudychallengesassumptionsaboutlanguagemodelslargercontextdoesntmeanbetterunderstanding
　　https：arxiv。orgabs2307。03172
　　https：guangzhengli。comblogzhvectordatabase
　　（举报）

投诉评论

大众给小鹏交了50亿学费一夜之间，大众汽车将小鹏变成了“大鹏”。美东时间7月26日美股收盘，小鹏汽车股价暴涨26。69，总市值一夜增加约35亿美元，来到168。48亿美元的近一年新高。小鹏……AI占星师横空出世！赛博玄学靠谱吗？我们问了问人类占星师在算数和算法之间，选择了算卦，是当代年轻人最真实的写照。前有陶白白的走红，后有AI占星的兴起，遇事不决就占星的年轻人们热衷于提问关于个人星盘运势的各种问题。以上回答……马斯克任意妄为之下，TikTok也盯上了推特的用户让普通用户也能无障碍体验AI魅力的ChatGPT，毫无疑问已经是近段时间以来最为火热的互联网产品，可要论近年来真真切切改变了整个互联网世界的产品，则非TikTok莫属了。在过去……实习的年轻人，被职场“整顿”夜幕低垂，夜晚十点的上海灯火阑珊，行人步履匆匆。前来出差的小未此刻刚结束应酬，拖着疲惫的身躯赶回酒店，继续处理手头的工作，直到凌晨才得以入睡。研二在读的小未，开启了她的第七段实……作为商业顾问，我如何利用AI工具提升100工作效率各位一定很好奇，我们怎么又好久没发文章了？其实在过去一个月，我们潜心研究了各种AI技术在个人企业场景的应用，并亲身加以实践，尝试用AI重塑自己的工作流。目的也非常……大众50亿雪中送炭，小鹏实质收益几何？大众对小鹏增资50亿元，引来了市场的关注和掌声。但小鹏目前最缺的不是现金流，而是持续的造血能力。作为一家主机厂商，未来小鹏与大众合作推出的车型将成为自己的竞品；作为一家解……9。9的妙鸭相机，成了AI大模型落地的排头兵6月30日邀请制内测、7月17日正式上线、7月20日就有近5000人排队使用，一度挤爆服务器；紧接着又传出“霸王条款”“拒不退款”，涉及数据安全、隐私泄漏和消费者权益妙鸭……独立开发变现周刊（第97期）：一个AI域名生成网站，月收入1目录1、WebAV：使用纯Web技术构建的音视频工具2、notepal：同步微信读书笔记工具3、text2cinemagraph：使用文本描述创建动态图像……斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。由于硬件和算法的最新进步，大模型的……芭门兴起！百亿人次围观，联名商品售罄，一场全世界的粉色狂欢粉色风暴，席卷了这个夏天。荧光粉显黑又怎样，被调侃“火龙果成精”又如何，都挡不住越来越多的女孩们（以及一些男孩）穿着鲜艳大胆的粉色自信出街。他们说这叫“芭门复兴”。……抖音“八零徐姥姥”周涨粉近百万，银发流量，顺势而为前阵子看到一个短视频，老人颤颤巍巍地用手剥着一粒粒瓜子，2岁的重孙一粒粒地吃着，一老一小，岁月静好，哪怕是别人的故事，也让看的人觉得温暖和感动。近年来，老人越来越多地出现……华为Mate60系列手机发布会直播地址9月25日华为发布会在华为秋季全场景新品发布会将于9月25日14：30召开，本次发布会将会带来Mate60系列手机以及其他新品，以下我们来看下发布会的直播地址。据华为终端官方微博此前发布的消息……

<<<<<<－>>>>>>

1传50了！首现医生被感染！这条传播链再延长据黑龙江卫健委消息，4月17日024时，省内新增确诊病例7例（哈尔滨），新增无症状感染者1例（哈尔滨），新增治愈出院病例1例（哈尔滨）。截至4月17日24时，现有确诊病例32例……“电商第一网红”张大奕疑陷感情风波，这家公司市值一夜蒸发1。4月17日，被网友们称为“中国电商第一网红”的张大奕重新登上热搜，获得了久违的关注度。随着资本加速进入直播带货，李佳琦、薇娅等“后来居上”，张大奕的带货影响力已不复当年。……宝宝身上的这种疙瘩不是荨麻疹，而是“湿毒”！别搞错了！（图片来源：爱儿康家长提供）育儿有方法你问我来答问题一医生好！我家小孩大腿出现许多小疙瘩，我看着像是寻麻疹，请问我应买什么药？注意什么饮食？在情况时带宝宝去医……走进谷雨，走向风调雨顺作者：永恒朗诵：星韵来源：永恒心灵驿站（ID：yongheng201708）编辑：慈怀读书会（ID：cihuaidushuhui）春光正好，雨露滋养。……董事长和富家女到高档餐厅相亲，没想到点菜的服务员是董事长前妻笑话：“我受够了！我买了这么多衣服你就不能帮我拿点吗？！我去做指甲的时候你就不能进来坐我旁边陪陪我吗？！还有！再也别评价我涂什么喝血一样的唇膏了！！！”说罢女友丢下我扬长……一口20个柠檬！对抗暗沉、斑点，试试这个“维C大王”夏天马上就要来了！女孩子的衣服越穿越少，毫不夸张地说，一年一度的比美大赛就要开始了。。。。。。这时候女人们特别忙，服装、妆容，还有更重要就是……利巴韦林，用药之前一定要三思！导语利巴韦林，这个呼吸科的常用药物，值得引起我们注意。利巴韦林，俗称“病毒唑”，被广泛用于包括普通感冒在内的呼吸道感染，是门急诊的常备药物。现在，就……【财经早餐】2020。04。19星期日每日金曲：RosieThomas，SufjanStevensSayHello财秘关注1、联合国粮农组织：当前新冠肺炎疫情并未造成全球范围内食品供应出现短缺，国际社会……日本一主妇，晒100多房子治愈无数人：没有客厅和电视，却是家本文授权转载自公众号：BestList（ID：mybestlist）作者：小IN一提到家庭主妇，很多人都会想到一堆做不完的家务活，和足不出户的无聊乏味。而日本……京都雨夜，一个人的一乘寺从比叡山看完红叶下山的时候，天已经开始阴沉了。刚挤上叡山电铁，就下起了大雨。我想了想，如果现在回到出町柳，京阪电车肯定也挤满了人，那我岂不是要站着回大阪了？可是1个多小时……宝宝被烫伤怎么办？妈妈必须知道的10个烫伤急救方法宝宝烫伤后，家长经常手忙脚乱。专家指出，婴幼儿烫伤比大人的承受能力差，所以当创面渗出过多时很容易引发休克，及时补液非常重要。由于小儿皮肤娇嫩，承受能力较差，受伤的严重性也要比大……农村俗语：“闰四月，吃树叶”啥意思？2020年闰四月要注意什农村俗语：“闰四月，吃树叶”啥意思？2020年闰四月要注意什么？。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。……

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界