OpenAI新模型用的嵌入技术被网友扒出来了

2月18日程染筱投稿

　　前几天，OpenAI来了一波重磅更新，一口气宣布了5个新模型，其中就包括两个新的文本嵌入模型。
　　我们知道，嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联，也更容易执行聚类或检索等任务。
　　使用更大的嵌入（比如将它们存储在向量存储器中以供检索）通常要比更小的嵌入消耗更高的成本、以及更多的算力、内存和存储。而OpenAI此次推出的两个文本嵌入模型分别是更小且高效的textembedding3small模型和更大且更强大的textembedding3large模型。
　　这两个新嵌入模型都使用一种技术进行训练，允许开发人员权衡使用嵌入的性能和成本。具体来说，开发者通过在dimensionsAPI参数中传递嵌入而不丢失其概念表征属性，从而缩短嵌入（即从序列末尾删除一些数字）。例如在MTEB基准上，textembedding3large可以缩短为256的大小，同时性能仍然优于未缩短的textembeddingada002嵌入（大小为1536）。
　　这一技术应用非常灵活：比如当使用仅支持最高1024维嵌入的向量数据存储时，开发者现在仍然可以使用最好的嵌入模型textembedding3large并指定dimensionsAPI参数的值为1024，使得嵌入维数从3072开始缩短，牺牲一些准确度以换取更小的向量大小。
　　OpenAI所使用的缩短嵌入方法，随后引起了研究者们的广泛注意。
　　人们发现，这种方法和2022年5月的一篇论文所提出的MatryoshkaRepresentationLearning方法是相同的。
　　OpenAI的新嵌入模型更新背后隐藏的是adityakusupati等人提出的一种很酷的嵌入表征技术。
　　而MRL的一作AdityaKusupati也现身说法：OpenAI在v3嵌入API中默认使用MRL用于检索和RAG！其他模型和服务应该很快就会迎头赶上。
　　那么MRL到底是什么？效果如何？都在下面这篇2022年的论文里。
　　MRL论文介绍
　　论文标题：MatryoshkaRepresentationLearning
　　论文链接：https：arxiv。orgpdf2205。13147。pdf
　　研究者提出的问题是：能否设计一种灵活的表征方法，以适应计算资源不同的多个下游任务？
　　MRL通过以嵌套方式对O（log（d））低维向量进行显式优化在同一个高维向量中学习不同容量的表征，因此被称为Matryoshka俄罗斯套娃。MRL可适用于任何现有的表征pipeline，并可轻松扩展到计算机视觉和自然语言处理中的许多标准任务。
　　图1展示了MRL的核心理念以及所学习Matryoshka表征的自适应部署设置：
　　Matryoshka表征的第一个mdimensions（m〔d〕）是一个信息丰富的低维向量，不需要额外的训练成本，其精确度不亚于独立训练的m维表征法。Matryoshka表征的信息量随着维度的增加而增加，形成了一种从粗到细的表征法，而且无需大量的训练或额外的部署开销。MRL为表征向量提供了所需的灵活性和多保真度，可确保在准确性与计算量之间实现近乎最佳的权衡。凭借这些优势，MRL可根据精度和计算约束条件进行自适应部署。
　　在这项工作中，研究者将重点放在了现实世界ML系统的两个关键构件上：大规模分类和检索。
　　在分类方面，研究者使用了自适应级联，并使用由MRL训练的模型产生的可变大小表征，从而大大降低了达到特定准确率所需的嵌入式平均维数。例如，在ImageNet1K上，MRL自适应分类的结果是，在精度与基线相同的情况下，表征大小最多可缩小14倍。
　　同样地，研究者在自适应检索系统中也使用了MRL。在给定一个查询的情况下，使用查询嵌入的前几个dimensions来筛选检索候选对象，然后连续使用更多的dimensions对检索集进行重新排序。与使用标准嵌入向量的单次检索系统相比，这种方法的简单实现可实现128倍的理论速度（以FLOPS计）和14倍的墙上时钟时间速度；需要注意的是，MRL的检索精度与单次检索的精度相当（第4。3。1节）。
　　最后，由于MRL明确地学习了从粗到细的表征向量，因此直观地说，它应该在不同dimensions之间共享更多的语义信息（图5）。这反映在长尾持续学习设置中，准确率最多可提高2，同时与原始嵌入一样稳健。此外，由于MRL具有粗粒度到细粒度的特性，它还可以用作分析实例分类难易程度和信息瓶颈的方法。
　　更多研究细节，可参考论文原文。
　　（举报）

投诉评论

1199元起vivoG25G悄然上架：天玑6020芯快科技1月19日消息，vivo官方网站上悄然上架了一款新机vivoG2，首发价1199元。vivoG2配备了一块6。56英寸的水滴屏，提供1612x720像素的HD分辨率……上传速率可达273Mbps！小米与高通等联合测试5G新上行技快科技1月23日消息，据媒体报道，小米与高通、沃达丰在欧洲共同测试了最新的5G上行技术，峰值上传速度达到了273Mbps。在联合声明中三家公司表示，此举涉及将沃达丰的独立……前10中苹果iPhone独占9款！2023年中国5G手机市占快科技1月24日消息，今天，每日互动发布了《2023年度5G手机报告》，数据显示，在2023年度5G手机市占率方面，苹果iPhone占据了榜单前10中的9款。报告显示，截……正式开启5。5G！华为在上海完成国内首个FT3CC百站规模部快科技1月26日消息，据华为中国官方公众号介绍，近日上海电信携手华为率先完成国内首个FT3CC百站规模部署。通过采用3。5GHz2。1GHz三载波聚合技术，实测下行速率近……全球首条！华为、中国移动开通5。5G示范路全路段时延低于20快科技1月29日消息，近日，华为携手上海移动、中国移动上研院等合作伙伴率先完成全球首条5GA车联网车、路、网、云、图全要素验证示范路线开通。据了解，该路位于在上海浦东金桥……中国移动、华为火速响应“信号升格”：5G、4G统统提升12快科技1月30日消息，日前，工业和信息化部等十一部门联合印发《关于开展信号升格”专项行动的通知》，提出将实现移动网络（4G和5G）信号显著增强，移动用户端到端业务感知明显提升。……2024年，游戏搞钱的路子变了1月26日凌晨，游戏行业等来了2024年第一批游戏版号，包括腾讯游戏《热血美职篮》、莉莉丝《万龙觉醒》、鹰角网络《泡姆泡姆》、朝夕光年《龙息：神寂》在内的115款游戏通过审批，……GPT4准确率最高飙升64！斯坦福OpenAI重磅研究：全新【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出元提示新方法，能够让大模型成为全能指挥家，汇聚不同专家模型精华，让GPT4的输出更精准。当你……TaylorSwift不雅照被疯传！AI背后的隐患和危机引人如今本就是一个信息爆炸的年代，再伴随2023年AI技术的井喷式发展，AI正在以迅雷不及掩耳之势渗透到我们生活的方方面面。不过，AI技术是一把双刃剑，我们在享受AI技术带来的便捷……OpenAI新模型用的嵌入技术被网友扒出来了前几天，OpenAI来了一波重磅更新，一口气宣布了5个新模型，其中就包括两个新的文本嵌入模型。我们知道，嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模……3年前花17亿美金收购Azar，MatchGroup如今失望2021年2月，MatchGroup宣布以17。3亿美金的价格收购了视频聊天应用Azar和直播产品Hakuna的母公司HyperConnect，这笔交易最终在当年6月顺利完成。……文本生成高清、连贯视频，谷歌推出时空扩散模型谷歌研究人员推出了创新性文本生成视频模型Lumiere。与传统模型不同的是，Lumiere采用了一种时空扩散（Spacetime）UNet架构，可以在单次推理中生成整个视……

<<<<<<－>>>>>>

试用与思考：Mac版微信客户端浅析滴滴出行过去和畅想未来把余额宝升格为商业银行智能手表最终会指向何方？BAT红包大战背后究竟争的是什么？腾讯求盟京东：布局电商再战阿里搜搜易迅之后谁会被腾讯嫁出去做好用户运营，需从这6个方面入手！普惠金融上升到国家战略，创业者与农民的福音？【人人早报】第140期：微信新动作，要革QQ的命去年A轮融资的846家创业公司，现在快倒闭完了百度Q4财报图解：净利4。599亿美元写邮件时你不应该忽略的原则和细节个人怎么查自己的微信聊天记录（微信怎样查看所有聊天记录）谷雨后，这海鲜正肥美，味道鲜美钙丰富，常做给娃吃，助生长真棒荷花异地银行卡怎么注销微软Xbox负责人否认将收购日本游戏商，称消息不实个月回顾一下敏捷开发的得失触摸春天海底有多大多深多富有 Sony发布XperiaZ4智能手机扎实开展党史学习教育赋能乡村振兴高级会计师的具体职责

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界