预训练周刊第34期BigScience寻求建立强大的开放语言模型

　　转载 智源社区
　　本期贡献者 申德周 翟珂 吴新刚 关于周刊
　　本期周刊，我们选择了11篇预训练相关的论文，涉及图像处理、图像理解、语言模型调优、常识问答、大模型隐私泄漏、文本分类、多模态、代码理解、蛋白选择、蛋白间作用和蛋白结构预测的探索。此外，在研究动态方面，我们选择了1篇预训练资讯，将介绍开源语言模型方面的一些最新内容。
　　论文推荐
　　标题：清华 Vision Transformer with Deformable Attention（具有可变形注意力的视觉变换器）
　　作者： Zhuofan Xia, Xuran Pan, Gao Huang等
　　简介： 本文提出了图像领域的可变形注意力转换器。变换器最近在各种视觉任务上表现出卓越的表现。大的感受野，或者全局感受野，与CNN相比，赋予变换器模型更高的表示能力。然而，简单地扩大感受野也引发几个担忧。一方面，使用密集注意力，例如，在 ViT 中，会导致过多的内存和计算成本，并且特征可能会受到感兴趣区域之外的不相关部分的影响。在另一方面，PVT或Swin中采用的稀疏注意力变换器与数据无关，可能会限制建立长期关系模型。为了缓解这些问题，作者提出一种新颖的可变形自注意模块，其中自意力中键值对的位置是以数据相关的方式选择。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。以这个为基础，作者提出了可变形注意力转换器，一个通用的具有可变形注意力的主干模型分类和密集预测任务。大量实验表明，作者的模型实现了持续改进综合基准的结果。
　　代码地址：https://github.com/LeapLabTHU/DAT
　　论文地址：「链接」
　　标题：Meta、德克萨斯大学 Detecting Twenty-thousand Classes using Image-level Supervision（使用图像级监督检测两万个类别）
　　作者： Xingyi Zhou, Ishan Misra等
　　简介： 本文提出一种新的图像分类算法。由于检测数据集规模小，当前目标检测器的词汇量有限。另一方面，图像分类器对更大的词汇表进行推理，因为它们的数据集更大且更容易收集。作者提出了Detic的概念：它只是在图像分类数据上训练检测器的分类器，因此将检测器的词汇量扩大到数万。与之前的工作不同，Detic不会根据模型预测为框分配图像标签，使其更容易实现并与一系列兼容检测架构和主干。作者的结果显示即使对于没有框注释的类，Detic也能产生出色的检测器。它在这两个方面都优于以前的工作开放词汇和长尾检测基准。Detic为所有类别提供2.4mAP和8.3mAP的增益用于开放词汇LVIS基准上的新课程。在标准LVIS基准测试中，Detic 达到41.7mAP对于所有类和稀有类41.7mAP。第一次，作者用21000类ImageNet数据集训练了一个检测器，并表明它可以泛化无需微调。
　　代码地址：https://github.com/facebookresearch/Detic
　　论文地址：「链接」
　　标题：复旦、中南 Black-Box Tuning for Language-Model-as-a-Service（语言模型即服务的黑盒调优）
　　作者： Tianxiang Sun, Yunfan Shao, Xipeng Qiu等
　　简介： 本文介绍了大模型调优的方法。超大型预训练语言模型(PTM)，例如 GPT-3，通常会作为一项服务发布，允许用户设计特定于任务的提示以通过一些黑盒API方式查询PTM。在这样的场景下，作者称之为语言模型即服务，但PTM 的梯度通常是无法使用。作者可以仅通过访问模型推理 API 来提示优化任务吗？根据最近的观察，大型PTM具有非常低的固有维度，这项工作提出了Black-Box通过无导数算法进行调整以优化PTM。特别是，作者通过迭代调用PTM推理API，在输入文本之前添加连续提示调用CMA-ES优化。作者的实验结果表明，在小标记样本上使用RoBERTa进行黑盒调优不仅显著优于prompt手动调优和GPT-3的上下文学习，也超越了基于梯度的同行，即快速调优和全模型调优。
　　代码地址：https://github.com/txsun1997/Black-Box-Tuning
　　论文地址：「链接」
　　标题：加州大学 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形转换和一致性优化的小样本常识问答)
　　作者： Zi-Yi Dou,Nanyun Peng
　　简介： 本文研究预训练的语言模型中的知识提取、聚焦在常识问答（CQA）方向。在本文中，作者将重点放在更好地利用预训练语言模型中存储的知识。虽然研究人员发现，通过让预训练语言模型填充精心设计的关系提取和文本分类提示的空白，可以提取嵌入在预训练的语言模型中的知识，但目前尚不清楚是否可以在CQA中采用这种范式(其输入和输出的形式更加灵活)。作者研究了四种可以将自然问题翻译成完形填空式句子的翻译方法，以更好地从语言模型中获取常识性知识。实验证明了作者的方法在三个CQA数据集上的有效性，以及作者的方法是对知识库改进模型的补充、可以获得小样本最先进的性能。分析还揭示了不同完形填空翻译方法的不同特点，并提供了将它们结合起来可以带来巨大改进的观点建议。
　　论文地址：「链接」
　　标题：Facebook、斯坦福大学 | Submix: Practical Private Prediction for Large-Scale Language Models（面向大规模语言模型的实用隐私预测）
　　作者： Antonio Ginart,Laurens van der Maaten,等
　　简介： 本文提出的SUBMIX是第一个即使在公开发布由基于大型Transformer模型做出的数以万计的下一代令牌预测时仍能保持隐私安全的协议。最近的数据提取攻击，暴露了语言模型可以逐字记住部分训练样本，这是一个可能危及训练模型数据隐私的漏洞。在本研究工作中作者提出了 SubMix：一种用于私有下一个令牌预测的实用协议，旨在防止在公共语料库上进行预训练后在私有语料库上进行微调的语言模型侵犯隐私。作者的实验表明：SubMix 通过放松组差异私有预测来限制私有语料库中任何个人用户独有的信息泄漏。重要的是：SubMix提出了一种严格的、依赖于数据的隐私会计机制，这使它能够在保持语言模型的实用性的同时阻止现有的数据提取攻击。
　　论文地址：「链接」
　　标题：圣保罗大学、巴黎理工学院、波尔图大学 | ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling（面向主题建模的小样本文本分类）
　　作者： Alexandre Alcoforado, Thomas Palmeira Ferraz,等
　　简介： 本文研究基于bert预训练模型面向主题建模的小样本文本分类方法。传统的文本分类方法通常需要大量标记数据，但这很难实现、尤其是在受限制的领域中、以及不太广泛的语言中。标记数据的缺乏导致了＂假设自然语言处理中的数据可用性低＂的低资源方法的兴起。其中，小样本学习的方法脱颖而出，小样本学习是指在没有任何先前标记数据的情况下学习的分类器，当前获得最佳结果的小样本学习方法均使用了 Transformers 等语言模型，但这其中存在两个问题：执行时间长、无法将长文本作为输入处理。本文提出了：利用无监督聚类步骤在分类任务之前获得压缩数据表示的新模型ZeroBERTo。实验表明 ZeroBERTo 在长输入和更短执行时间方面具有更好的性能、在 FolhaUOL 数据集中的 F1 分数上比 XLM-R 高出约 12%。
　　论文地址：「链接」
　　标题：新加坡南洋理工大学、西南交通大学 | Self-Training Vision Language BERTs with a Unified Conditional Model（基于统一条件模型的自训练视觉语言BERT模型）
　　作者： Xiaofeng Yang,Fengmao Lv,等
　　简介： 本文研究视觉语言BERT类模型的自训练新方法并获得显著效果。与自然语言BERT模型不同，视觉语言BERT类的模型（VL-BERT）需要视觉与语言的成对数据进行训练，这限制了VL-BERT预训练的规模。作者提出了一种自训练方法、允许从未标记的图像数据中训练VL-BERT。具体如下：（1）基于统一条件模型，作者提出一个可以执行小样本条件生成的视觉语言BERT模型。（2）在不同的条件下，统一条件模型可以生成：字幕、密集字幕、甚至问题。（3）作者使用标记的图像数据来训练教师模型，并使用预训练后的模型在未标记的图像数据上生成伪字幕。（4）然后作者结合标记数据和伪标记数据来训练学生模型。该过程通过将学生模型作为新教师进行迭代。实验表明：使用该自训练方法和仅300k未标记的数据，与使用300万图像数据训练的类似大小的模型相比，作者获得了具有竞争力甚至更好的性能。
　　论文地址：「链接」
　　标题：UC伯克利 Contrastive Code Representation Learning（对比代码表征的学习）
　　作者： Paras Jain, Ion Stoica等
　　简介： 以GitHub为代表的大规模代码库是学习机器辅助编程的一个强大资源。然而，像RoBERTa这样流行的无标签自监督方法对对抗性输入并不稳健，对代码形式也很敏感。与其像BERT那样重构字符，学习代码说什么，不如学习代码做什么。据此本文提出了ContraCode，一个基于对比学习的预训练方法。它可以在众多干扰因素中识别出功能相似的程序变体，学习到代码功能，而不是形式。该模型使用一个自动的编译器作为数据增强的形式，可扩展地生成变体以供对比学习。实验显示本方法对恶意的代码编辑具有鲁棒性，提高了三个下游JavaScript代码理解任务的性能。另外本文还提出了一个新的零样本学习用的JavaScript代码克隆检测数据集。
　　论文地址：「链接」
　　标题：Nature Biomedical Engineering Amelioration of Alzheimer’s disease pathology by mitophagy inducers identified via machine learning and a cross-species workflow（通过机器学习和跨物种流程识别有丝分裂诱导剂对阿尔茨海默症病理的改善）
　　作者： Chenglong Xie, Evandro F. Fang等
　　简介： 对功能失调的线粒体的清除减少是衰老和与年龄有关的神经退行性病症，如阿尔茨海默症的共同特征。在该场景上，本文结合使用无监督机器学习，包括分子预训练模型、分子结构的矢量表示、药理指纹和构象体指纹等，和跨物种方法来筛选和实验验证新的有丝分裂诱导化合物。衍生筛选流程使能够从天然化合物库中识别出18个小分子，其中有两个强效的有丝分裂诱导剂。在线虫和啮齿动物的阿尔茨海默症模型中，本文发现这两种有丝分裂诱导剂都能增加谷氨酸和胆碱能神经元的存活率和功能，消除淀粉样蛋白-β和tau的病变，并改善动物的记忆。简而言之，计算实验筛选和验证工作流程有助于发现刺激神经元健康和大脑稳态的有效的有丝分裂调节剂。
　　论文地址：「链接」
　　标题：墨尔本大学 Large-scale protein-protein post-translational modification extraction with distant supervision and confidence calibrated BioBERT（利用远距离监督和置信度校准的BioBERT进行大规模的蛋白质翻译后修饰提取）
　　作者： Aparna Elangovan, Karin Verspoor等
　　简介： 蛋白质-蛋白质相互作用（PPI）对正常的细胞功能至关重要，并与许多疾病途径有关。然而，在IntAct等生物知识数据库中，只有4%的PPI被注释了翻译后修饰（PTM）。本文训练一个BioBERT的改进模型，PPI-BioBERT-10，它进行了置信度校准以抵消类别不平衡的影响，便于提取高置信度的预测。作者在1800万份PubMed摘要上评估了该模型，提取了160万个PTM-PPI三元组，并筛选出约5700个高置信度预测。在这5700个预测中，本文对随机抽样的子集进行了人工评估，通过筛选与论文相关的预测，精确度达到了58.8%。在这项工作中，作者强调了基于深度学习的文本挖掘在实践中的好处和挑战，以及需要更加重视置信度校准。
　　论文地址：「链接」
　　标题：IBM Identification of Enzymatic Active Sites with Unsupervised Language Modeling（用无监督语言识别酶的活性位点）
　　作者： Loïc Kwate Dassi, Teodoro Laino等
　　简介： 随着测序技术的发展，功能未知的蛋白质的特征描述激增，活性位点的研究也随之变得重要。本文将Transformer架构与预训练应用于生物催化化学反应的语言表征，以学习底物-活性位点上基于原子相互作用的信号。该语言表征包括底物和产物的SMILES，辅以酶的氨基酸序列信息。本文通过注意力和特殊的标记方法成果捕捉底物-活性位点相互作用的信号，并利用它来确定未知蛋白质序列中的活性位点位置，仅用一维表征就能解开复杂的三维相互作用，在共结晶的底物-酶结构的场景上可以回复31.51%的活性部位，大大超过了仅基于序列相似性的方法。该结论也可以通过对酶的三维结构进行对接进行进一步证实。这项工作证实了自然语言处理，特别是Transformer架构对特定领域语言的影响，为蛋白质功能鉴定和生物催化工程的有效解决方案铺平了道路。
　　论文地址：「链接」

弹窗广告关不掉退不出捆绑下载安装易卸载难你的手机App里暗藏多少牛皮癣？来源法治日报法制网整治行动取得显著成效，互联网广告相关的多项规范性文件已经发布，但有些手机App呈现出问题频出监管治理安全平稳再次复现等特征，手机App广告乱象仍然需要深入治理要加丰田bZ4X细节公布给纯电SUV一种全新的可能全球电动汽车行业似乎在一夜之间迎来了盛宴。即便面临缺芯片缺电池的外界环境，但爆发式的市场增长裂变式的新品推出势头丝毫未减。而在面对国内造车新势力，以及一些传统汽车制造商破釜沉舟式的反垄断处罚，43起！涉及数个互联网大厂市场监管总局依法对43起未依法申报违法实施经营者集中案作出行政处罚决定市场监管总局根据中华人民共和国反垄断法，对43起未依法申报违法实施经营者集中案件立案调查。经查，上述案件均违反沃尔沃XC60比凯迪拉克XT5强这么多难怪法外狂徒罗翔都爆赞张三觉得树想喝茶，用开水把路边的树浇死了，算犯罪吗？算，故意毁坏财物罪。张三因为很饿，捕猎了一只熊猫充饥，算犯罪吗？不算，因为这是紧急避险。最近，一个个让人啼笑皆非的段子火了，法外定价30万以上，看完小鹏G9，真觉得蔚来ES8卖的不便宜小鹏终于开始跟蔚来理想正面刚了。作为国内造车新势力的第一梯队，蔚小理是人们常放在一起比较的对象。但翻看一下各家的产品列表就会发现，蔚来与理想都是以SUV见长，而小鹏的扛鼎之作却是小2款高品质低速电动车来了，最大续航150公里，电池终身免维护过去，大家不敢买低速电动车的一个重要原因的是品质太差，粗制滥造的产品太多，车身结构不安全。用户的体验感太差。这几年，由雷丁御捷一批大型低速电动车企业引领的品质革命之下，低速电动车品最大续航160公里，绿源电动车3款惊艳之作，最高速度52kmh请您在阅读前，先点击上面的关注，感谢您的支持，我们将持续为您带来更多有价值的内容。电动车用户最关心电动车哪项性能？肯定是续航里程和动力要求！续航里程有多远，决定了车辆的实际用途动力聪明的打工人进可攻，退可守前段时间阿里巴巴的副总裁人工智能首席科学家漆远离职了，后受聘为复旦大学特聘教授，担任人工智能创新与产业研究院院长。简单来说，一个学术界的大佬去企业当了几年高管，然后重返学术界的故事多部门全链条发力绿色消费迎新风口扩大绿色低碳消费产品有效供给，完善废旧汽车家电回收处理体系，鼓励发展互联网回收等新业态新模式，指导电商企业建立健全绿色运营体系近期以来，多个部门密集出台举措，全链条发力支持绿色消费知名通信专家对四大通信运营商预测末来探索推进网业分离异网漫游知名通信专家对四大通信运营商发展趋势预判来源澎湃新闻2022年即将到来，资深电信分析师中国通信行业知名作家尚晓蒲，对四大通信运营商未来发展趋势简要分析预判，以下纯属个人分析观点，仅蒲公英R300A路由器，金属机身，安全稳定，守护你的网络身为一个网络工程师，接触到的路由器品类非常多，家用的机架式的已经数不清楚有多少，唯独对工业型路由器接触不多。前几天，一位好朋友寄来了一台工业级路由器，说是给免费体验，估计不知道心里

<<<<<<－>>>>>>

你们的苹果X有遇到明明有网络，微信却一直无法连接的问题吗？你们是怎么解决的？由于苹果使用的是外挂基带，所以在网络质量方面一直都很一般，苹果iPhoneX的基带也有两个版本，国行全部都是高通基带，网络质量要好一些。而美版韩版等水货iPhoneX则有可能使用的现在红富士苹果价格猛涨，是好现象，还是坏现象呢？我说一下沂蒙山区的苹果吧。前些年，红富士，苹果，价格必较高，发展的必较快速的增加，地亩的数量。而且快速的扩散加大发展基本上，扩散到全国，各地。最近几年里，价格逐步的下降。现在就有些从小听力不好，说话不清楚，配个助听器效果会怎样？戴上助听器后要进行言语康复训练，慢慢练习，有很多孩子戴助听器后经过一段时间的言语康复训练都可以正常说话的可以佩戴助听器后，通过发音的纠正，达到更好的状况，但还是要自己加强发音的锻炼双十一耳机推荐，SOUNDPEATSAir3体验，佩戴舒适才重要其实近几年，主动降噪耳机非常火，但是这种类型的耳机一般都是采用入耳式，我个人觉得佩戴起来不是很舒服，在那样耳机的选择上，我更青睐于半入耳式。苹果的AirPods虽然音质表现不错，但真无线蓝牙耳机的天花板，JBLX600TWS小飓风带来定制级体验真无线蓝牙耳机如今已经成为了主流，一方面是因为手机厂商取消了3。5mm耳机接口的设计，二来则是便捷的佩戴方式和稳定的效果，让真无线耳机被更多的人接受。JBL于1946年正式成立，是入门无线耳机怎么选？长续航更轻盈，索尼WIXB400上手评测近年来TWS（真无线）耳机成为大多数人主要选择的耳机类型。但是真无线耳机在运动时使用，尤其是剧烈运动时耳机还是比较容易掉落，颈挂式无线在运动时使用相比真无线耳机更为适用。本文开箱的游泳耳机新选择，体验南卡RunnerPro2骨传导蓝牙耳机常去游泳的时候看到一些游得比较好的玩家戴着耳机，都是清一色的高端骨传导耳机，品牌就不说，基本就那几个，作为游泳耳机要有几个刚性功能，第一就是要有非常好的防水性能，耳机不会进水第二是跑步用蓝牙运动耳机哪款好？推荐骨传导运动耳机对于热爱跑步运动的人来说，入手一款骨传导耳机是最适合不过的了，其不用入耳就可以听歌也是让耳朵得到了极大的解放，更健康的耳机佩戴方式，降低对耳道的伤害。骨传导耳机，顾名思义，通过骨头OPPO三款新机曝光天玑900骁龙778G天玑1200Max今日早间消息，据知名爆料博主数码闲聊站带来的最新曝光内容称，OPPO的Reno7系列即将开始预热。本次的Reno7系列依旧会分为三个版本，分别为Reno7Reno7Pro和RenoASML就EUV光刻机再次表态，局势明朗了虽然我国是全球最大的半导体芯片消费市场，然而芯片综合自给率却不足20，以至于不得不依赖进口。据统计数据显示，近两年国内芯片市场的年均进口额突破了3000亿美元大关，所占比重远超石油谁是最牛的新能源电力运营商？上海电力（4）绿色装机的形成绿电装机产能的投产体现在装机容量的逐年增加，这个方面上海电力的披露感觉是做得最好的，先从上海电力的绿色装机投产过程来分析最近几年绿电装机容量投产的情况1上海电力是从2013年开始投