AAAI2023Oral如何识别未知标签？多模态知识迁移框架实现新SOTA

　　在多标签分类系统中，经常遇到大量在训练集中未曾出现的标签，如何准确地识别这些标签是非常重要也极富挑战性的问题。为此，腾讯优图实验室联合清华大学和深圳大学，提出了一种基于多模态知识迁移的框架 MKT，利用图文预训练模型强大的图文匹配能力，保留图像分类中关键的视觉一致性信息，实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。 论文链接：  https://arxiv.org/abs/2207.01887 代码链接：  https://github.com/sunanhe/MKT
　　一、 背景与挑战  图像多标签识别算法的目标，是识别图像中存在的所有类别标签。作为计算机视觉应用中的一项基础能力，在场景理解、监控系统、自动驾驶等任务中有着广泛的应用。在实际落地场景中，多标签识别系统不仅需要识别图像中存在的大量已知类别标签，最好还能较为准确地识别出未知标签，即模型在训练集中未曾见过的标签。迄今为止，典型的有监督多标签分类方法，只能在训练过的已知类别标签上进行识别，远远无法满足实际场景中对大量未知标签的识别需求。因此，如何设计有效的算法，实现在有限的已知类别标签上进行训练，并在部署时同时支持在有限的已知类别和大量未知类别上的标签识别，是实际落地场景中非常重要的问题。
　　二、解决思路
　　为了识别这些训练集未知标签，已有的 多标签零样本学习（ML-ZSL）方法，往往通过从训练集已知标签到训练集未知标签的知识迁移，来实现对未知标签的识别。 然而 ，这些方法存在以下问题：
　　1. 这些方法只利用预训练语言模型（如 GloVe）的单模态知识，来提取已知和未知标签的 Embedding，如图 1. (b) 所示，而忽视了文本标签的视觉语义信息；
　　2. 尽管 GloVe 等语言模型可以比较好地提取单个 Word 标签的 Embedding，如 ‘Cat’，但是不能很好地扩展到由多个 Word 组成的标签，如 ‘Black Cat’，因而妨碍了模型在词组标签上的识别效果。
　　单模态的语言模型虽然很好地建模了标签之间的语义一致性，但忽视了图像分类中关键的视觉一致性信息。 近来，基于图文预训练模型的 Open Vocabulary 分类模型，在单标签 Open Vocabulary 分类任务上取得了令人印象深刻的效果，但如何将这种能力迁移到多标签场景，仍是亟待探索的问题。
　　由此，研究者提出了 一种基于多模态知识迁移（Multi-modal Knowledge Transfer, MKT）的框架，通过迁移大规模图文预训练模型中的多模态知识，挖掘文本标签中的视觉一致性信息，实现了多标签的 Open Vocabulary 分类 。如图 1. (c) 所示，MKT 模型主要包含图像编码器和图文预训练模型的图像、文本编码器。研究者采用知识蒸馏（Knowledge Distillation）和提示学习（Prompt-Tuning）来进一步增强图像和文本 Embedding 的语义一致性，从而更好地迁移图文模型的图文匹配能力。在实践中，知识蒸馏使得图像编码器提取的图像 embedding 更好地与其相对应的文本 Embedding 对齐，而提示学习使得标签 Embedding 更好地适应分类任务。除此之外，为了进一步提升特征表达能力，研究者提出了一种简单有效的双流特征提取模块，同时捕获局部和全局特征，从而增强模型的判别特征表示能力。通过上述设计，MKT 框架可以更好地利用图文模型中丰富的语义信息，迁移多模态知识，更好地识别训练集未知标签。
　　图 1. ML-ZSL 和 MKT 方法比较
　　三、 技术贡献
　　该研究的主要技术贡献可概括为如下几点：
　　· 研究者提出了一种基于多模态知识迁移的 Open Vocabulary 多标签识别框架 MKT，利用图文预训练模型中的多模态语义信息，进行未知标签的识别。这是业界首个研究 Open Vocabulary 多标签分类任务的工作。
　　· MKT 框架主要包括图像编码器，和图文预训练模型的图像和文本编码器。研究者采用知识蒸馏来保证图像和文本 Embedding 的一致性，并引入提示学习机制来迭代更新标签 Embedding。为进一步增强特征表示能力，研究者提出了双流特征提取模块，同时捕获局部和全局特征。
　　· MKT 在 NUS-WIDE 和 Open Images 公开数据集上显著超过了以往的 ML-ZSL 方法，在 Open Vocabulary 多标签分类任务上达到 SOTA。
　　四、技术方案
　　MKT 总体框图如图 2. 所示，主要包含 Vision Transformer、双流模块（Two-Stream Module）、图文预训练（VLP）Image/Text Encoder 等模块。其中，Vision Transformer 是提取图片语义特征的 Backbone 网络。由于 CLIP 具有强大的图文匹配能力，研究者采用 CLIP 的图像和文本编码器作为图文模型多模态知识的迁移来源。标签 Embedding 由 CLIP 文本编码器产生，并通过提示学习进一步更新。研究者引入知识蒸馏来促进图像和文本 Embedding 的对齐。
　　图 2. MKT 总体框图 4.1 Backbone 网络和双流模块
　　对于一张图片，首先经过分块（Patchify）输入 Vision Transformer 网络，得到表征全局特征的 CLS Feature 和表征局部特征的 Patch Feature，然后分别采用全局 Head 和局部 Head，将全局和局部特征映射到 Embedding 空间，最后采用 TopK 平均的方式得到局部 Head 的相似度分数，与全局 Head 分数求平均得到最终预测分数，并采用排序损失（Ranking Loss）优化模型：
　　其中   表示图片   的标签 Embedding，  表示内积运算，  表示图片   的标签预测分数向量，  表示图片   存在标签的集合，是已知标签集合的子集。 4.2 知识蒸馏和特征对齐  图像 Embedding 和对应标签 Embedding 的对齐，在从已知标签到未知标签的知识迁移过程中非常重要，对于开放集合多标签分类来说是十分关键的。考虑到 CLIP 模型在预训练阶段进行图文对比训练，产生的图像和文本 Embedding 具有比较高的相似性，研究者采用知识蒸馏来迁移 CLIP 模型的多模态特征表示能力，促进图像 Embedding 和相关文本 Embedding 之间的对齐，蒸馏损失函数如下式：
　　其中   是图像全局特征，  是 CLIP 图像编码器产生的特征。 4.3 标签 Embedding 的提示学习  参照 CLIP，研究者首先使用固定模板 ＂There is a {label} in the scene＂ 作为标签上下文，将标签文本送入 CLIP 文本编码器，从而得到标签 Embedding。由于固定模板的文本与 CLIP 训练时的自然文本存在差异，有理由认为通过这种方式产生的标签 Embedding 不是最优的。因此，最好对标签 Embedding 的产生过程进行进一步 finetune，但是由于训练标签数量有限，直接优化文本编码器容易造成过拟合。受到 CoOp 的启发，研究者采用提示学习，仅优化上下文 Embedding，其余模型参数均固定，这种在 Embedding 空间连续搜索的方式能够促进最优上下文 Embedding 的学习，从而得到更好的标签 Embedding。 4.4 损失函数  研究者将 MKT 训练过程分为两个阶段。在第一阶段，标签 Embedding 由预训练的 CLIP 文本编码器产生，Backbone 网络和双流模块由排序损失和蒸馏损失联合优化： 在第二阶段，采用排序损失进行提示学习，只优化标签上下文 Embedding：
　　五、算法效果
　　为了验证算法的效果，研究者在 NUS-WIDE 和 Open Images 两个 Benchmark 数据集上进行实验。NUS-WIDE 数据集包含 925 个已知标签，81 个未知标签，161,789 张训练图片，107,859 张测试图片。更具挑战性的 Open Images (v4) 数据集包含 7,186 个已知标签，400 个未知标签，900 万张训练图片，125,456 张测试图片。实验结果见表 1.，可以看出 MKT 相比以往 ML-ZSL 的 SOTA 方法有明显提升，也显著优于直接微调（Fine Tune）CLIP 模型的结果（CLIP-FT）。
　　表 1. 不同方法在 NUS-WIDE 和 Open Images 数据集上 ZSL 和 GZSL 任务的比较
　　MKT 和 CLIP、BiAM 模型，在 NUS-WIDE 测试集上的示例图片可视化效果对比见图 3.。
　　图 3. NUS-WIDE 测试集示例图片及预测
　　MKT 和 BiAM 的 Grad-CAM 可视化效果对比见图 4.。
　　图 4. Grad-CAM 可视化比较
　　在表 2. 和表 3. 的消融实验中，研究者对知识蒸馏、提示学习和双流模块进行了探索，验证了这些模块对于 MKT 框架多标签识别效果的重要性。
　　表 2. 知识蒸馏和提示学习对实验结果的影响
　　表 3. 双流模块对实验结果的影响
　　六、总结
　　腾讯优图实验室针对现有多标签分类方法对于大量训练集不可见的未知类别标签不能有效识别的问题，提出了一种可迁移多模态知识的通用 Open Vocabulary 多标签学习框架：MKT。该研究迁移图文预训练模型强大的图文匹配能力，通过引入提示学习和知识蒸馏来优化标签 Embedding 以及提升图像 - 标签 Embedding 的一致性，并采用双流模块同时捕捉局部和全局特征，提高了模型的多标签识别能力。在 NUS-WIDE 和 Open Images 两个公开数据集上的实验结果表明，该方法有效实现了 Open Vocabulary 的多标签学习。
　　参考文献  [1] Pennington J, Socher R, Manning CD. Glove: Global vectors for word representation. InProceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) 2014 Oct (pp. 1532-1543).
　　[2] Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G. Learning transferable visual models from natural language supervision. InInternational Conference on Machine Learning 2021 Jul 1 (pp. 8748-8763). PMLR.
　　[3] Du Y, Wei F, Zhang Z, Shi M, Gao Y, Li G. Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 14084-14093).
　　[4] Huynh D, Kuen J, Lin Z, Gu J, Elhamifar E. Open-vocabulary instance segmentation via robust cross-modal pseudo-labeling. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2022 (pp. 7020-7031).
　　[5] Zhou K, Yang J, Loy CC, Liu Z. Learning to prompt for vision-language models. International Journal of Computer Vision. 2022 Sep;130 (9):2337-48.
　　[6] Huynh D, Elhamifar E. A shared multi-attention framework for multi-label zero-shot learning. InProceedings of the IEEE/CVF conference on computer vision and pattern recognition 2020 (pp. 8776-8786).
　　[7] Ben-Cohen A, Zamir N, Ben-Baruch E, Friedman I, Zelnik-Manor L. Semantic persity learning for zero-shot multi-label classification. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 640-650).
　　[8] Narayan S, Gupta A, Khan S, Khan FS, Shao L, Shah M. Discriminative region-based multi-label zero-shot learning. InProceedings of the IEEE/CVF International Conference on Computer Vision 2021 (pp. 8731-8740). 作者：腾讯优图 来自：机器之心 Illustration b y   Delesign Graphics f ro m IconScout   -TheEnd- 扫码观看 ！
　　本周上新！
　　多家技术企业招聘来啦！ 多家技术企业招聘来啦！有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求，包含来自科技大厂微软亚研、腾讯、小红书等企业，科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位，欢迎有需求的大家向这些公司投递简历哦！ 扫描了解详情~
　　关于我＂门＂
　　将门 是一家以专注于  发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ，旗下涵盖 将门创新服务 、将门技术社群以及。
　　将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
　　如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务， 欢迎发送或者推荐项目给我＂门＂:
　　一键送你进入TechBeat快乐星球

深汕供电局电亮产业之光，助力倍增发展阳春三月，万物勃发，深汕大地处处涌动着建设热潮。在深圳市深汕特别合作区的比亚迪配套变电站及上级电源建设项目现场，挖掘机来回穿梭着进行场平施工，工人师傅半蹲在电缆沟里操作焊机焊接电缆从0到1开发自动化运维平台接口文档分页视图和权限配置安装依赖pipinstalldjangorestframeworksimplejwtpipinstalldjangofilterpipinstallcoreapipipinstal制药装备厂商创志科技明日上会对客户议价能力较强，主业毛利率为何仍持续下降？每经记者张明双每经编辑董兴生3月27日，闯关创业板IPO的创志科技（江苏）股份有限公司（以下简称创志科技）将迎来上会，计划募集资金5。50亿元。创志科技主要从事药物固体制剂生产设备苹果皮还有那么多的营养苹果是我们日常生活中常见的水果之一，它甜美可口，营养丰富，常常被称为健康水果。而苹果皮在一些人看来可能只是苹果的外壳，不太受到重视。但事实上，苹果皮与苹果肉一样也含有许多有益于身体名酒企发力百元价格带抢滩百元酱酒新高地本报记者阎娜党鹏成都报道大众酱酒赛道正在扩容。近期，多家企业推出了定价百元价格带的产品，例如茅台集团旗下茅台保健酒业公司推出定价156元的百元酒，习酒推出了定价168元的产品等。在买大虾，选直虾还是弯虾？老渔民区别很大，别再买错了导读买大虾，选直虾还是弯虾？老渔民区别很大，别再买错了。大虾是男女老少每周都要吃的食物，因为大虾含有丰富的高蛋白，常吃大虾，不仅可以提高免疫力，而且还能预防骨质疏松。而在挑选冷鲜大君子之品感恩有你习酒掉进了第二个坑习酒刚推出大师与时间的精华的时候，我们就指出这个方向是错误的，原因很简单，几乎所有的白酒品牌都可以说自己是大师与时间的精华。最近发现习酒启用了新的广告君子之品，感恩有你。这事实上又3月最该吃的瓜，比黄瓜脆，比西瓜甜，老少皆宜，一吃难忘羊角蜜甜瓜，是一种好吃的水果。它的果实呈长锥形，一端大，一端稍细而尖，细长如羊角，其味甜如蜜，所以被称为羊角蜜。羊角蜜甜瓜的果皮呈灰绿色，果瓤呈淡绿，果芯呈棕黄。成熟的羊角蜜，不用清明将至，提醒大家喝酒时务必牢记3不饮，讲究多益处更多清明时节雨纷纷，路上行人欲断魂，每年清明，大家的情绪肯定都很低落，扫墓祭祖后，难免会忍不住喝点酒，有些人更是把自己灌的醉醺醺的，结果徒增不少烦恼！今年清明马上到来，这里提前提醒大家刘亦菲抛弃内娱病态审美，腰臀比成亮点，拯救容貌焦虑全靠她了当红明星出席宝格丽晚宴，刘亦菲抛弃内娱病态审美，拯救了多少女性的容貌焦虑。刘亦菲身穿深V条纹裙亮相活动，生图身材饱满略显圆润，虽然面部有些发腮，皮肤松弛，但不影响美感，不过尴尬的是你曾错过的那些优质动漫！第三期铃芽户缔铃芽户缔是一部以日本神话为背景的奇幻冒险电影。影片讲述了生活在九州宁静小镇上的17岁少女铃芽，在遇见旅行青年草太后，跟随他来到山上的废墟之地，并发现一扇古老的门。为了避免灾祸降临于

<<<<<<－>>>>>>

巧解孕妇后股之忧母亲是世界上最伟大的，不仅需要十月怀胎去辛苦孕育下一代，更要在这个过程中忍受一些外带因素带来的痛苦，比如说痔疮这个严重影响生活质量的疾病。痔疮在妊娠晚期和产后不久尤为常见，据有关研面对孩子情绪失控，家长怎么办？孩子情绪失控，可能是每位家长都会遇到的问题。面对孩子突如其来的情绪失控，家长往往手足无措，不能打不能骂，又听不进去大道理，家长应该如何应对呢？北京儿童医院精神科心理治疗师崔琳钰结合孩子入学第一个月如何适应新环境？资深教师来支招（特别家教1142期）为了在特殊时期为家长提供特别的家庭教育指导，全国妇联推出了特殊时期特别家教微信栏目，家长可以通过家庭教育微课学习家庭教育知识。孩子入学第一个月如何适应新环境？资深教师来支招（特别家陪读宝妈的心酸与无奈我是一个80后陪读宝妈，从九月一号开始我正式成为了一名高一男孩的陪读宝妈。从开学到现在已经有一个多月的时间了，在这段时间里我的生活也随之发生了变化。其一，生活上的变化，从夫妻同行变欢度国庆喜迎二十大潮桥幼儿园庆祝国庆节系列活动欢度国庆喜迎二十大红色文化承载了中华民族的优秀文化传统和民族精神，是历史征程中不忘初心牢记使命永远奋斗的不竭动力。我园以传承红色基因，润泽幼儿心灵为办园理念，为了更好的开展幼儿爱国国内这些赏秋火车路线，低调又惊艳！早就该火了！中秋将至，秋意也愈发浓烈起来。最绚丽的色彩和最惬意的气候相遇，想出去游玩的心情难以抑制！除了帮我们到达远方的飞机，其实在蜿蜒的火车轨道上也有别样的秋色等着我们。游哥在携程社区上精准十月份旅游必打卡的最佳景点，国庆假期你去参观了几个？金秋十月，丹桂飘香，这不正是旅游的最佳时节吗？国庆假期期间小伙伴们都去了哪里游玩？今天小袁同学就带大家盘点一下国内十月份出游的最佳景点。希望对大家有所帮助。国庆假期期间很多人都去了秋游正当时让全新BMWX5陪你撒点儿野！安全，智能，高效湖州骏宝行宝马4S店20221010发表于浙江风微凉秋游正当时让全新BMWX5陪你撒点儿野！下马闲行伊水头，凉风清景胜春游。刚刚过去的国庆小长假大家有没有趁着秋高气爽，驾一辆爱车，秘境敦煌震撼世界的敦煌到底藏了什么秘密敦煌学研究的先声，开始于清朝学者关于敦煌历史地理人文资料的编纂，关于莫高窟历史和莫高窟艺术的评介，以及关于敦煌写经零星出土的记述收藏与鉴赏等。而在莫高窟藏经洞被发现之后，随着敦煌文我们的新时代多彩婚俗展风情油茶套种罗汉果以短养长助增收多彩婚俗展风情10月8日，林溪镇程阳八寨景区举行原汁原味的送新娘回门传统婚俗活动，数十人组成的送亲队伍挑着酸鱼酸鸭糯米侗布等贺礼，将新娘从夫家徒步送回娘家，浓郁风情吸引沿途村民及游东北小众赏枫地，丹东凤城大王沟森林公园辽宁东部山区是秋季赏枫叶的好去处，特别是丹东本溪一带分布着众多以红叶著称的景区。在凤城赛马镇著名的蒲石河景区附近，有一个小众景点，虽然开发时间不长，名气不大，但风景却毫不逊色。大王