专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

使用ML和人在循环中构建Airbnb类别(译文来自Airbn

  Airbnb2022版本引入了类别,这是一种以浏览为重点的产品,允许用户通过浏览围绕一个共同主题的房屋集合来寻找灵感,例如湖畔、乡村、高尔夫、沙漠、国家公园、冲浪等。在我们的第一部分类别博客系列我们介绍了创建类别并在产品中展示它们的高级方法。在第二部分中,我们将更详细地描述ML分类工作。
  在整个帖子中,我们使用Lakefront类别作为运行示例来展示ML支持的类别开发过程。类似的过程适用于其他类别,具有类别特定的细微差别。例如,一些类别更多地依赖兴趣点,而其他类别更多地依赖结构化列表信号、图像数据等。类别定义
  类别开发从产品驱动的类别定义开始:Lakefront类别应包括距湖不到100米的列表。虽然一开始这听起来像是一项简单的任务,但它非常微妙和复杂,因为它涉及利用多个结构化和非结构化列表属性、兴趣点(POI)等。它还涉及训练将它们组合起来的ML模型,因为没有一个这些信号自己捕获了可能候选者的整个空间。列出理解信号
  作为过去各种项目的一部分,Airbnb的多个团队花时间处理不同类型的原始数据,以提取结构化形式的有用信息。我们的目标是利用这些信号进行基于规则的冷启动类别候选生成,然后将它们用作ML模型的特征,以便以更高的精度找到类别候选:房东提供的房源信息,例如房产类型(例如城堡、船屋)、便利设施和属性(游泳池、火坑、森林景观等)。列出位置、标题、描述、图像标题,可以扫描关键字(我们收集了每个类别不同语言的详尽关键字集)。主机指南,其中主机推荐附近的地方供客人参观(例如葡萄园、冲浪海滩、高尔夫球场),其中包含可用于提取POI的位置数据Airbnb体验,例如冲浪、高尔夫、水肺潜水等。事实证明,这些活动的地点有助于确定某些活动相关类别的候选房源。客人评论是可以扫描关键字的另一个来源。我们还收集客人的补充评论,其中客人提供有关房源质量、便利设施和属性的反馈。客人在浏览时创建的愿望清单,例如Golftrip2022、Beachfront、Yosemitetrip,通常与其中一个类别相关,事实证明这对候选人生成很有用。
  图1。airbnb用户创建的热门愿望清单
  使用外部数据进一步丰富了房源理解知识库,例如卫星数据(告诉我们房源是否靠近海洋、河流或湖泊)、气候、地理空间数据、人口数据(告诉我们房源是在农村还是城市)或大都市区)和POI数据,其中包含来自主机指南或我们通过开源数据集收集的名胜古迹的名称和位置,并通过内部人工审查进一步改进、丰富和调整。
  最后,我们利用内部ML模型从原始列表数据中提取更多知识。其中包括ML模型,用于检测列表图像中的设施和对象、对列表图像中的房间类型和室外空间进行分类、计算列表之间的嵌入相似性以及评估物业美学。这些中的每一个都分别在类别开发、候选生成、扩展和质量预测的不同阶段有用。基于规则的候选生成
  一旦定义了一个类别,我们首先利用上一节中描述的预先计算的列表理解信号和ML模型输出来使用一组规则对定义进行编码。然后,我们的候选生成引擎应用它们来生成一组基于规则的候选,并根据类别置信度分数对它们进行优先排序以供人工审核。
  此置信度分数是根据有多少信号使列表符合类别以及与每个规则关联的权重计算的。例如,考虑到Lakefront类别,靠近LakePOIs的权重最大,房东提供的关于直接进入湖泊的信号次之更重要,listing标题、描述、愿望清单、评论中发现的lakefront关键字权重较小,而湖泊和水检测在列表中,图片的权重最小。具有所有这些属性的列表将具有非常高的置信度分数,而仅具有一个属性的列表将具有较低的分数。人工审核流程
  通过从具有最高类别置信度得分的每个类别中选择一定数量的列表,每天将候选人送去人工审查。然后人工代理判断列表是否属于该类别,选择最佳封面照片并评估列表的质量(图3)
  随着人工评论开始涌入,并且有足够多的列表带有确认和拒绝的类别标签,它解锁了新的候选生成技术,这些技术开始贡献自己的候选:基于邻近度:利用到给定类别中已确认房源的距离,例如已确认的Lakefront房源的邻居也可能是Lakefront嵌入相似性:利用列表嵌入来查找与给定类别中已确认列表最相似的列表。训练ML分类模型:一旦代理审查了20基于规则的候选人,我们就开始训练ML模型。
  一开始,只有经过代理审查的列表才会被发送到生产环境并出现在主页上。随着时间的推移,随着我们的候选生成技术产生了更多的候选和反馈循环的重复,它使我们能够使用更多标记数据训练越来越好的ML模型。最后,在某个时候,当ML模型足够好时,我们开始将具有足够高模型分数的列表发送到生产环境(图2)。
  图2。每个类别的生产清单数量和人工审查的分数
  使ML模型与人工审核任务保持一致
  为了扩展审查过程,我们训练了模仿三个人工代理任务中的每一个的ML模型(图3)。在以下部分中,我们将演示每个模型所涉及的训练和评估过程
  图3。用于模拟人工审查的ML模型设置
  机器学习分类模型
  ML分类模型的任务是自信地将列表放在一个类别中。这些模型使用Bighead(Airbnb的ML平台)作为XGBoost二进制分类模型进行训练。他们使用代理类别分配作为标签,并将列表理解部分中描述的信号作为特征。与基于规则的设置相反,ML模型使我们能够通过模型分数阈值更好地控制候选人的精度。
  尽管许多特征是跨类别共享的,并且可以训练单个多类模型,但由于类别大小的高度不平衡和类别特定特征的主导地位,我们发现最好为每个类别模型训练专用的ML。另一个很大的原因是,对单个类别的重大更改,例如定义的更改、大量添加新的POI或标签,不需要我们重新训练、启动和衡量对所有类别的影响,而是方便地在一个孤立的类别。
  湖滨ML模型
  特征:第一步是构建特征,最重要的是到LakePOI的距离。我们从收集表示为单个点的湖泊POI开始,然后添加了追踪湖泊的湖泊边界,这大大提高了能够在边界附近拉出列表的准确性。然而,如图4所示,即便如此,仍有许多边缘情况导致基于规则的列表分配出现错误。
  图4。不完美的POI(左)和复杂地理的示例:湖泊和家之间的高速公路(中)、长长的后院(右)
  其中包括不完美的湖泊边界,可能在水内或陆地之外、湖泊和房屋之间的高速公路、悬崖上的房屋、不完美的列表位置、缺失的POI以及不是真正湖泊的POI,如水库、池塘等。为此因此,事实证明,将POI数据与其他列表信号结合起来作为ML模型特征,然后使用该模型主动改进LakePOI数据库是有益的。
  在这里被证明有用的一种建模方法是特征丢失。由于大多数特征还用于生成由代理评分的基于规则的候选对象,从而产生ML模型使用的标签,因此存在过度拟合和超出规则的有限模式发现的风险。
  为了解决这个问题,在训练期间,我们会从一些列表中随机删除一些特征信号,例如与LakePOI的距离。因此,该模型并没有过度依赖主要的POI特征,这使得列表即使不靠近任何已知的LakePOI也可以获得高ML分数。这使我们能够找到丢失的POI并将它们添加到我们的数据库中。
  标签:正面标签被分配给标记为Lakefront的列表代理,负面标签被分配给作为Lakefront候选人发送以供审查但被拒绝的列表(从建模角度来看是硬底片)。我们还从相关的LakeHouse类别中抽取了负面样本,这些类别允许距离湖泊更远(更简单的负面)和标记在其他类别中的列表(最简单的负面)
  训练测试拆分:70:30随机拆分,我们对距离和嵌入相似性特征进行了特殊处理,以免泄露标签。
  图5。LakefrontML模型特征重要性和性能评估
  我们使用不同的特征子集训练了几个模型。我们对POI数据自身的表现以及其他信号可以提供哪些改进感兴趣。如图5所示,POI距离是迄今为止最重要的特征。但是,当单独使用时,它无法达到ML模型的性能。具体来说,ML模型将平均精度提高了23,从0。74提高到0。91,这证实了我们的假设。
  由于POI功能是最重要的功能,我们通过添加新的POI和改进现有的POI来改进它。这被证明是有益的,因为使用改进的POI特征的ML模型大大优于使用初始POI特征的模型(图5)。
  LakePOI优化的过程包括利用训练有素的ML模型通过检查模型得分高但与现有LakePOI相距甚远的列表来查找缺失或不完善的POI(图6左),以及通过检查模型得分低的列表删除错误的POI分数,但非常接近现有的LakePOI(图6右)
  图6。查找缺失POI(左)和错误POI(右)的过程
  将自信的列表发送到生产环境:使用测试集PrecisionRecall曲线,我们找到了一个达到90Precision的阈值。我们使用这个阈值来决定哪些候选人可以直接投入生产,哪些需要先送去人工审查。封面图片机器学习模型
  为了用ML执行第二个代理任务,我们需要训练不同类型的ML模型。其任务是根据类别上下文选择最合适的列表封面照片。例如,为Lakefront类别选择具有湖景的列表照片。
  我们测试了几个开箱即用的对象检测模型以及几个使用人工评论数据训练的内部解决方案,即(列表id、类别、封面照片id)元组。我们发现,最佳的封面照片选择准确性是通过使用我们的人工审查数据微调VisionTransformer模型(VT)实现的。经过训练后,该模型可以对所有列表照片进行评分,并确定哪一张是给定类别的最佳封面照片。
  为了评估模型,我们使用了一个保留数据集并测试了代理选择的特定类别的列表照片是否在同一类别的前3个最高得分VT模型照片中。所有类别的前3名平均精度为70,我们认为这是令人满意的。
  为了进一步测试模型,我们判断VT选择的照片是否比主持人选择的封面照片更能代表类别(图7)。结果发现,VT模型可以在77的情况下选择更好的照片。应该注意的是,主持人选择的封面照片通常是在不考虑任何类别的情况下选择的,因为它最能代表搜索提要中的列表。
  图7。VisionTransformer与Host选择的Lakefront类别相同列表的封面照片选择
  除了通过ML分类模型为发送到生产的候选人选择最佳封面照片外,VT模型还用于加快人工审查过程。通过按照VT分数的降序排列候选列表照片,我们能够将代理对类别和封面照片做出决定所需的时间缩短18。
  最后,对于一些高度视觉化的类别,例如设计、创意空间,VT模型被证明对直接候选生成很有用。质量机器学习模型
  最后的人工审核任务是通过选择以下四个等级之一来判断列表的质量:最具启发性、高质量、可接受、低质量。正如我们将在博客系列的第三部分中讨论的那样,质量在搜索提要中的列表排名中起着重要作用。
  为了训练可以预测列表质量的ML模型,我们结合使用了参与度、质量和视觉信号来创建功能集和代理质量标签来创建标签。这些功能包括评论评级、心愿单、图像质量、嵌入信号和列表便利设施和属性,例如价格、客人数量等。
  给定具有四个质量等级的多类设置,我们尝试了不同的损失函数(成对损失、一对多、一对一、多标签等)。然后,我们在保留集上比较了不同策略的ROC曲线,二元一对一模型表现最好。
  图8:质量ML模型特征重要性和ROC曲线
  除了在搜索排名中发挥作用外,QualityML分数还在人工审查优先逻辑中发挥作用。有了所有三个ML模型都可以完成所有三个人工审查任务,我们现在可以简化审查流程并将更多候选人直接送往生产,同时还优先考虑一些人进行人工审查。这种优先排序在系统中起着重要作用,因为经过人工审查的列表可能在类别提要中排名更高。
  在确定人工审核列表的优先级时,需要考虑多个因素,包括列表类别置信度得分、列表质量、可预订性和该地区的受欢迎程度。最好的策略被证明是这些因素的组合。在图9中,我们显示了在撰写本文时几个类别的人工审核的最佳候选人。
  图9:列表在4个不同类别中优先审查
  评分后,这些标签将用于在主动反馈循环中进行定期模型重新训练,不断提高类别准确性和覆盖率。未来的工作
  我们未来的工作涉及在几个方向上迭代三个ML模型,包括使用生成视觉模型生成更大的标签集,并可能将它们组合成一个多任务模型。我们还在探索使用大型语言模型(LLM)进行类别审查任务的方法
  作者:MihajloGrbovic,PeiXiong,PratikshaKadam,YingXiao,SherryChen,WeipingPeng,ShukunYang,ChenQian,HaoweiZhang,SebastienDubois,NateNey,JamesFurnary,MarkGiangreco,NateRosenthal,ColeBaker,AaronYin,BillUlammandakh,ShankarShetty,SidReddy,EgorPakhomov
  出处:https:medium。comairbnbengineeringbuildingairbnbcategorieswithmlhumanintheloop35b78a837725

世界上最大的瀑布之一只获得两张空中全景图,位于巴西一侧2008年1月,我们拍摄了位于阿根廷和巴西边境的伊瓜苏瀑布(也称为伊瓜苏和伊瓜苏)。这是最早的AirPano虚拟之旅之一。由于当地限制从直升机拍摄,我们在旅行中只获得了两张空中全景使用kubectl管理Kubernetes(k8s)集群常用命令查看负载命名空间一。系统环境服务器版本docker软件版本CPU架构CentOSLinuxrelease7。4。1708(Core)Dockerversion20。10。12x8664二。前言ku如何迁移旧电脑数据到新电脑?文件如何传输?当我们有很多文件需要导入另一个电脑时,我们一般都会选择用U盘或者移动硬盘来拷贝文件数据。但对于新旧电脑之间传输数据,这种传统的办法就不可行了,原因在于旧电脑里存有的数据往往几百G,江苏健身房利用免费健身,一年盈利372万,这策略值得借鉴今天要给大家带来的案例是江苏有这么一家健身房,老板利用免费健身,在短短一年的时间里,疯狂盈利372万。如果你在做生意,不知道怎么做活动,缺少现金流。今天这个案例你一定要好好看一看,1988年,特工从宝岛带回绝密文件,6字情报揭开沉寂38年的谜团6字情报带来的意外发现刘光典,旅顺人,这是1988年由台湾的一名潜伏特工带回来的绝密文件。文件并不只有这个信息,而是上百人的信息名单。这位老人从台湾回到北京,第一时间向政府上报,并我掏钱,你掏房,你有什么理由提要求!再婚大妈怒斥老伴不地道在平凡的世界中有这么一句话真正的爱情不应该是利己的,而应该是利他的,是心甘情愿地与爱人一起奋斗,并不断的自我更新的过程,是融合在一起,完全融合在一起的共同斗争,你有没有决心为他而付拒绝摆烂!CBA网红球队签下两名顶级外援,下赛季能否一鸣惊人?南京同曦俱乐部上赛季亏损2432。95万元南京同曦上赛季的成绩是2胜36负,排在第20位,整个赛季才赢了2场比赛,确实有些难以理解。上赛季同曦只有一名外援,叫爱德华兹,爱德华兹是打平野美宇横扫张安,付玉零封陈熠,展现绝对实力WTT阿拉木图站挑战赛女单八进四的比赛,日乒选手平野美宇30击败美国选手张安。这场比赛应该用毫无悬念来形容,平野美宇跟对手基本上都是在反手对攻,明显的整体实力技高一筹。张安也想出了国乒小将不敌平野美宇,徐海东吴洋晨晋级决赛,将与林昀儒争冠北京时间9月17日消息,2022年世界乒乓球职业大联盟WTT常规挑战赛阿拉木图站继续进行,女单第二轮,徐奕以0比3输给平野美宇,李雨琪2比3不敌付玉,直板选手吴洋晨3比1击败万远,打破垄断!ULED将迎来迭代,海信踏出关键一步对于电视有所了解的人应该都知道,电视行业虽然一直在发展,从CRTLCDOLED到QLED,各种显示技术不断发展交替或取代,但关键技术和市场主导权始终掌握在外资品牌手中。在核心关键技一天一充,motorazr2022以优异的电池调教打消你的续航焦虑随着iPhone14系列的正式发布,苹果一条关于承认将增加系统内置广告的信息也一并上了热搜,这么看下来,想使用没有广告的手机系统,目前只剩摩托罗拉的myui可以选择了,并且在最新的
1958年,军区首长视察辽宁,发现粮仓警卫竟是自己牺牲5年的战友1958年,辽宁省东沟县的一个粮仓来了一群特殊的客人,原来是抗美援朝的志愿军老首长路过这里,听说这里也有一位以前部队退下来的老兵,就想来拜访一下。一群人缓缓踱步到守卫室的门口,只看俄媒俄军大规模打击严重破坏乌军部队指挥系统俄媒俄国防部称俄军大规模打击严重破坏乌军部队指挥系统环球网报道综合俄新社塔斯社等多家俄媒报道,俄国防部发言人科纳申科夫11月1日通报称,俄军10月31日对乌克兰进行大规模打击,严重以戴绿帽为荣,这个国家太奇葩了,当地女人身材令人大饱眼福每个国家其实都有专属于自己的一些独特的文化和习俗,对于外国人来说,有些时候是不太能够理解这些文化与习俗的。毕竟每个国家的历史和发展情况都是有着比较大的差别的,而这些习俗和文化必然也广西恩城国家级自然保护区第一届自然观察节举行10月29日30日,广西恩城国家级自然保护区(后简称恩城保护区)在广西崇左市大新县榄圩乡正隆村驮押屯举办了神奇自然在身边第一届自然观察节。活动吸引了不少来自大新崇左南宁等地的亲子家中国更像一个文明国家古代并没有民族这个词汇,它起源于西方的威斯特伐里亚体系,并且在19世纪逐渐流行于世界,被人们所接受,但做为一个外来的现代概念它完全无法应用于古代,更不适用于中国。因为东亚是一个孤立中国科技企业正在加快布局大语言模型技术今年4月,谷歌公司的LaMDA人工智能系统着实火了一把,它基于大语言模型(LLM)对话学习后,可以学会谈论几乎任何事情,同时进行语言的微调,以显着提高其响应的敏感性和特异性。谷歌还阿里云亮相中国互联网基础资源大会飞天企业版推助IPv6创新实践北京,2022年11月2日近日,阿里云亮相由工业和信息化部主办的第三届中国互联网基础资源大会,阿里云资深技术专家专有云网络首席架构师张然(花名然犀)于IPv6发展创新论坛发表了题为日媒美国总统拜登开始对中国实施芯片战争,中国何去何从?拜登的宣战公告2022年10月7日,美国总统拜登以商务部命令的形式,向中国宣布了事实上的芯片战争。今后包括芯片及制造设备,如果没有美国商务部的许可,不能出口到中国。使用美国技术的外中国股市重回视野的供销社,这究竟是意味着什么?发展前景供销社,全称供销合作社,是集体经济。并且供销社是集体所有制,成员是没有编制的,并且并不是所有人都可以加入供销社的,供销社的主要成员是农民社员。众所周知,供销合作社的老本行是外网评论中国电动汽车的地位对美国汽车产业意味着什么?2021年,中国电动车出口达到58。8万辆,同比增长高达163,2022年一季度突破20万辆,势头强劲。以下为国外网网友对中国新能源汽车行业的评论PeterMakin推动中国电动汽麦当劳中国携手乒乓球世界冠军马龙,推出新升级巨无霸11月2日,麦当劳中国正式推出新升级巨无霸,对巨无霸的烹饪工艺和产品口感进行了优化,并延续了巨无霸的高品质食材经典搭配和专属巨无霸酱。即日起,顾客可在中国内地近5000家麦当劳餐厅
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网