范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

达摩院开源半监督学习框架Dash,刷新多项SOTA

  机器之心专栏
  作者:达摩院
  本文介绍机器学习顶级国际会议 ICML 2021 接收的 long talk (top 3.02%) 论文 "Dash: Semi-Supervised Learning with Dynamic Thresholding"。
  一、研究背景
  监督学习(Supervised Learning)
  我们知道模型训练的目的其实是学习一个预测函数,在数学上,这可以刻画成一个学习从数据 (X) 到标注 (y) 的映射函数。监督学习就是一种最常用的模型训练方法,其效果的提升依赖于大量的且进行了很好标注的训练数据,也就是所谓的大量带标签数据 ((X,y))。但是标注数据往往需要大量的人力物力等等,因此效果提升的同时也会带来成本过高的问题。在实际应用中经常遇到的情况是有少量标注数据和大量未标注数据,由此引出的半监督学习也越来越引起科学工作者的注意。
  半监督学习(Semi-Supervised Learning)
  半监督学习同时对少量标注数据和大量未标注数据进行学习,其目的是借助无标签数据来提高模型的精度。比如 self-training 就是一种很常见的半监督学习方法,其具体流程是对于标注数据 (X, y) 学习数据从 X 到 y 的映射,同时利用学习得到的模型对未标注数据 X 预测出一个伪标签
  ,通过对伪标签数据 (X,
  )进一步进行监督学习来帮助模型进行更好的收敛和精度提高。
  核心解决问题
  现有的半监督学习框架对无标签数据的利用大致可以分为两种,一是全部参与训练,二是用一个固定的阈值卡出置信度较高的样本进行训练 (比如 FixMatch)。由于半监督学习对未标注数据的利用依赖于当前模型预测的伪标签,所以伪标签的正确与否会给模型的训练带来较大的影响,好的预测结果有助于模型的收敛和对新的模式的学习,差的预测结果则会干扰模型的训练。所以我们认为:不是所有的无标签样本都是必须的!
  二、论文 & 代码
  论文链接:https://proceedings.mlr.press/v139/xu21e/xu21e.pdf 代码地址:https://github.com/idstcv/Dash 技术应用:https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
  这篇论文创新性地提出用动态阈值(dynamic threshold)的方式筛选无标签样本进行半监督学习(semi-supervised learning,SSL)的方法,我们改造了半监督学习的训练框架,在训练过程中对无标签样本的选择策略进行了改进,通过动态变化的阈值来选择更有效的无标签样本进行训练。Dash 是一个通用策略,可以轻松与现有的半监督学习方法集成。实验方面,我们在 CIFAR-10, CIFAR-100, STL-10 和 SVHN 等标准数据集上充分验证了其有效性。理论方面,论文从非凸优化的角度证明了 Dash 算法的收敛性质。
  三、方法
  Fixmatch 训练框架
  在引出我们的方法 Dash 之前,我们介绍一下 Google 提出的 FixMatch 算法,一种利用固定阈值选择无标签样本的半监督学习方法。FixMatch 训练框架是之前的 SOTA 解决方案。整个学习框架的重点可以归纳为以下几点:
  fixmatch 的优点是用弱增强数据进行伪标签的预测,增加了伪标签预测的准确性,并在训练过程中用固定的阈值 0.95(对应 loss 为 0.0513) 选取高置信度(阈值大于等于 0.95,也就是 loss 小于等于 0.0513)的预测样本生成伪标签,进一步稳定了训练过程。
  Dash 训练框架
  下图对比了训练过程中的 FixMath 和 Dash 选择的正确样本数和错误样本数随训练进行的变化情况(使用的数据集是 cifar100)。从图中可以很清楚地看到,对比 FixMatch,Dash 可以选取更多正确 label 的样本,同时选择更少的错误 label 的样本,从而最终有助于提高训练模型的精度。
  我们的算法可以总结为如下 Algorithm 1。Dash 是一个通用策略,可以轻松与现有的半监督学习方法集成。为了方便,在本文的实验中我们主要将 Dash 与 FixMatch 集成。更多理论证明详见论文。
  四、结果
  我们在半监督学习常用数据集:CIFAR-10,CIFAR-100,STL-10 和 SVHN 上进行了算法的验证。结果分别如下:
  可以看到我们的方法在多个实验设置上都取得了比 SOTA 更好的结果,其中需要说明的是针对 CIFAR-100 400label 的实验,ReMixMatch 用了 data align 的额外 trick 取得了更好的结果,在 Dash 中加入 data align 的 trick 之后可以取得 43.31% 的错误率,低于 ReMixMatch 44.28% 的错误率。
  五、应用
  实际面向任务域的模型研发过程中,该半监督 Dash 框架经常会被应用到。接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验): https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

上海男篮的一场季后赛,为何能冲上热搜榜首?上海男篮(白色球衣)陷入苦战新民晚报记者李铭珅摄下同如果不是对手关键时刻连续失误,大鲨鱼的季后赛之旅差一点提前终止。108比104,昨晚上海久事男篮逆转险胜苏州肯帝亚队,以总比分2上海晋级后续!球迷堵大巴炮轰假球,上海管理层教练组约饭洽谈昨天上海晋级八强,不过对于球迷来说确实无法忍受。这种情况下,他们的热搜不仅来到第一,而且赛后无数球迷堵在大巴旁边,以此来怒斥上海男篮。当时的情况是这样的。各个球员从球馆出来,然后全2023上海半马即将开跑上海警方做足护跑准备作为今年上海首场参赛人数超万人的大规模路跑赛事2023上海半程马拉松即将于4月16日燃情开跑点击边框调出视频工具条本次比赛将途经陆家嘴世博地区等标志性路段全程21。0975公里参赛中国篮协将对上海江苏队的季后赛比赛情况展开调查中国篮球协会15日发布官方声明,将针对14日进行的中国男子篮球职业联赛(CBA)季后赛12进8附加赛上海队和江苏队的比赛情况展开调查。上海队在本场比赛中以108104险胜江苏队,总险胜江苏后,上海还能打过深圳吗?CBA附加赛,上海对阵江苏第三场,上海以108比104险胜江苏队,以2比1的大比分淘汰江苏队挺进8强,他们下一轮的对手是排名联赛第4的深圳队。深圳队已经静候上海队很久,加上布莱德索香港飞遇世界大赏机票送赠计划落地上海,获取方法公布香港机场管理局行政总裁林天福在新闻发布会上透露,50万张机票中将有14万张机票向上海及内地旅客发放。本文图均为澎湃新闻记者俞凯图(除署名外)为重振香港旅游与经济,香港机场管理局早前降薪达30!在电商之城杭州,主播这个行业不香了?这些年如火如荼的电商行业,在这个春天里,正在经历一场寒流。杭州每244个人里就有一个是主播。这一波降薪潮,杭州的主播们最先感受到凉意近期,不少直播电商行业人士透露,今年以来,主播都摊牌了?小米11Ultra放大招,抛出2个无法拒绝的理由在过去这几年,华为被断供后,小米就成为国产旗舰阵营的最大黑马,扛起了对标iPhone的重任。不得不承认,小米的成长速度是相当快的,小米11Ultra发布后,就获得了很多用户的好评,下一个郑州式科技园,不仅有富士康30亿建厂投资,华为也在此落户阅读此文前,诚邀您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。引言近几年来,郑州的代加工地位逐渐被周口所取代。这一变化不仅体现在富士康投资的30亿乌鲁木齐市天山区一季度新落地招商企业19个招商金额超32亿元新疆网讯(全媒体记者王璇)招商引资是经济建设的活力源。今年一季度,天山区大力推进产业链招商外出招商以商招商基金招商等,把引资与引智引技结合起来,目前已完成新落地总部经济招商企业19亚运之年电竞产业小镇退潮大城崛起电竞新业态进一步落地亚运东风下的电竞之城最近几年,电竞业成为颇有想象力的行业,但发展也进入一个相对的瓶颈期电竞收入电竞用户规模在2022年出现下降,很多地方的电竞小镇则逐步退潮。在即将到来的亚运会东风
两连败,西蒙斯罕见爆粗!篮网面临解散危机,三份溢价合同太尴尬在早些时候结束的一场NBA常规赛中,篮网在客场以121153不敌国王,是的,你没有看错,在48分钟的常规时间内,篮网让国王轰出了153分的夸张比分,这场比赛,篮网刷新了他们队史的单勇士消息两将官宣下放,汤普森愤怒回应,或与马刺2换1北京时间11月16日,远在大洋彼岸的金州勇士传来了3条消息,一起来看看吧。两将官宣下放今日,勇士官方宣布正式将今年二轮新秀莱恩罗林斯和中锋詹姆斯怀斯曼下放到了发展联盟下属球队圣克鲁最新手机性价比榜出炉,这三款机型实至名归,不用多花冤枉钱每个月手机性价比榜单都会更新,因此选购手机前一定要多看一下每个月的榜单多做功课。最新一期的榜单已经出炉,今天来盘点一下三个价位段的榜首机型。01999元手机性价比排行榜来源安兔兔R掏空家底!3队7人大交易方案湖人再出2首轮,火箭一石二鸟湖人3胜10负开局,可以说非常糟糕,在西部排名第14,前面的球队看起来都没有放弃季后赛的打算。所以,就算詹姆斯施罗德和布莱恩特即将复出,湖人想要后来居上也是很困难的,他们有必要通过01大冷,闪电丢球,中超前冠军轰然倒下,遭中乙球队淘汰出局中超前冠军赛前在中超排名第11的长春亚泰队迎来了足协杯第2轮的较量,长春亚泰队此役PK中乙冲甲组排名第1的济南兴洲队。赛前济南兴洲队已经连续4场比赛取得了胜利以及连6场比赛保持不败埃因霍温青年队近4轮荷乙都获得胜利,球队在这几个赛季保持不败埃因霍温青年队近4轮荷乙都获得了胜利,球队在这几个赛季一直保持不败,实力还是比较强的。乙联赛客场保持不败,且赢下了其中4场。3。乌德勒支青年队在荷乙联赛中表现中规中矩,不过球队在最关键时刻值得信赖,王哲林等四名球员,提前入选下一届国家队曾经我们质疑过很多中国男篮的球员,认为刘炜只会运球过半场,孙悦只会防守盖帽,王哲林打球太软,周琦太瘦打不了内线,郭艾伦不会投篮!而如今我们再看看中国男篮的一些球员,要身体没有身体,蜜月期已过,篮网惨败国王!球队需要欧文,杜兰特带队能力差点蜜月期已过,篮网121153惨败国王吃到两连败,排名东部第十二位,真没比湖人好到哪里去!还是先简单回顾上半场爆出冷门,篮网在多名大将复出的情况下,竟然被国王吊打,5473落后19分华为Mate60Pro渲染图环绕屏太豪横,硬刚iPhone14毫无压力华为Mate50Pro的发布时间比iPhone14系列提前一天,并且微信通讯技术也是领先iPhone14发布,所以在竞争力方面占据了极大的优势。同时华为Mate50Pro发布的时候美联储激进加息或暂缓,市场看好中国经济更快回暖上周核心经济数据利空美元因素中国10月外汇储备(亿美元)30524。3超过预期欧元区11月Sentix投资者信心指数30。9超过预期美国10月CPI年率未季调()7。7不及预期美国财富对话专访瑞银财富管理中国区主管董事总经理吕子杰内地财富管理市场加速创新与发展,粤港澳大湾区潜力庞大南方财经全媒体记者郭晓洁实习生马莹莹广州报道近年来,资管新规的落地推动了资管行业的整体转型,财富管理行业日趋回归理性而金融对外开放的持续推进,为内地财富管理带来了先进的经验和服务理