范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

如何为数据标记提速?使用训练数据平台就对了

  如今,几乎每家上市企业都在积极讨论人工智能技术对自身运营方式的重大影响。从特斯拉使用AI技术改善自动驾驶性能,到Levis通过AI强化产品决策能力,每个人都热切想要在AI领域占据一席之地。
  但要实现这一目标,组织的智能度必须进一步提升。为了逐步发展出严肃AI,我们需要采用监督学习方法,而监督学习的效果又由标记数据的质量决定。原始数据需要经过漫长的标记过程,而后方可用于增强监督学习模型,由此产生的预算甚至可能给组织带来可感受的压力。过去十年以来,组织高管在存储数据并将数据转化为收入方面,主要拥有三种选项:
  1.DIY并建立自己的定制数据标记系统。为人力、技术及时间层面的重大投资做好准备并调拨预算,借此建立起一套规模庞大、可永久保存的健壮生产系统。听起来不难?也许吧,毕竟谷歌和Facebook都成功了。但这一切未必适合您,因为那些科技巨头拥有出色的人才与几乎无穷的IT预算,足以建立并维护这些复杂的标记系统——换言之,这类企业的预算甚至与世界上某些小国的GDP相当。另外,即使您拥有充足的人力与时间来从零开始构建大规模生产系统,您的组织能接受这项长期延续的巨额投资吗?
  2. 外包。专业服务合作伙伴当然很给力,但您仍然需要开发自己的内部工具。这种方式还可能带来其它风险,因为此类解决方案要求将第三方数据与您自己的专有数据混合起来,通过显著扩大数据样本量在理论上获取质量更高的模型。您是否对自己的数据审计跟踪能力有信心,保证其能够在持久数据标记要求的整个生命周期中保持专有性?即使您的供应商倒闭,您在AI旅程中作为竞争优势开发出的流程是否可重复且始终可靠?您积累了数十的知识产权(数据)可能因此而不慎泄露,导致其落入同样与您合作伙伴联手构建系统的竞争方手中。以自动驾驶汽车行业为例,Scale.ai已经成为领域中规模最大的服务商,几乎所有相关机构都与其保持合作关系。
  3. 使用训练数据平台(TDP)。这些属于相对较新的市场解决方案,可提供一套统一平台,将负责收集、标记并馈送数据的所有作业汇总至监督学习模型当中,或者帮助用户自主构建新模型。这种方法可帮助不同规模的组织获得等同于Salesforce及Hubspot等客户关系管理商的方式建立标准化工作流程。其中一些平台还使用集成化机器学习算法自动执行复杂任务,借此进一步降低工作难度。更重要的是,TDP解决方案能够帮助数据科学家摆脱繁重的任务,将主要精力集中在构建实际结构(而非构建及维护复杂而脆弱的定制化系统)当中。目前比较重要的TDP厂商包括Labelbox、Alegion以及Superb.ai。
  我们为什么需要训练数据平台
  任何组织在开启自己的AI探索之旅前,首先需要明确一点:数据标记是监督机器学习系统中成本最高、最为耗时的部分之一。随着机器学习系统逐步发展成熟并可用于生产环境,数据标记任务仍然不会停止。这项任务将永远存在并不断增长。无论选择外包标记还是内部标记,组织都需要选择一套TDP进行工作管理。
  TDP旨在促进整个数据标记过程,加快产生高质量数据的速度,由此帮助组织快速创建高性能的AI模型与应用程序。如今,已经有部分企业在强调TDP技术的重要性,但真正能被称为"TDP"的解决方案仍然非常有限。
  其中有两点非常重要:业务准备情况与直观的使用界面。如果未对业务做好充分准备,IT部门将拒绝使用。如果界面不够直观,用户也会寻找其他更易于使用的方案。此外,任何负责处理敏感的、对业务至关重要的信息的系统,也都需要具备企业级的安全性与可伸缩性保障,否则同样无法正常起效。而实际情况甚至证明,这类目标也许永远无法实现。IT消费化至少已经持续了十年,但Instagram这类简单易用的应用都很难在组织内普及。Salesforce的自动化工具之所以能够从Siebel手中夺取市场,靠的就是轻松愉快的用户体验与便捷的云交付。
  除了这些基础之外,数据注释、管理与迭代同样非常重要。如果候选系统无法满足这三项要求,那么其同样不能算是真正的TDP。下面来看关于这三项核心指标的更多细节:
  注释。TDP必须提供可用于智能自动注释功能的工具,即尽可能自动做出更多标记。高水平的TDP应该能够处理有限数量、带有专业标签的数据。我们以放射科医师处理的X光片为例,系统需要首先从图像中识别出肿瘤,而后再做出预标记。而审核人员的工作,就是纠正各类错误标记问题。机器会为标记结果提供一项置信度输出,例如特定标签正确标记的可能性为80%。对审核人员来说,优先级最高的工作应该是检查并纠正机器认为置信度不足的标签。因此,组织应努力推动注释自动化并投入于相关专业服务,确保数据标记的准确性与完整性。好消息是,目前与注释相关的多数任务无需人工即可轻松完成。
  管理。TDP应该用作数据训练项目中的中央记录系统。数据科学家与其他团队成员将在TDP中开展协作,通过与传统项目管理工具的集成、或者在平台本体之内,创建工作流并分配任务。
  由此得出的数据集,还可供后续项目使用。以美国为例,每年约30%的房屋会投保房屋保险。为了预测风险并做出准确定价,保险公司需要分析多种数据——例如房龄、是否有游戏池或者蹦床,或者房屋与树木间的距离。为了推进这个过程,企业现在使用计算机视觉通过卫星图像为保险公司提供连续分析支持。在对新兴市场中的房屋进行分类时,企业应该使用TDP重复使用现有数据集。例如,如果某家公司有意进军英国市场,则应该能够重用来自美国的现有训练数据,以此为基础稍加更新以适应当地差异(例如英国本地的建筑材料选择)。这些迭代周期,将使企业提供高准确度数据,同时迅速做出调整以适应美国及其他地区的房屋情况变化。
  这意味着您的TDP需要提供与其他软件相集成的API,借此对接项目管理应用、数据收集与处理工具,并帮助组织通过SDK建立自定义工具、扩展TDP。
  迭代。真正的TDP必须承认这样的现实:带有注释的数据永远不会保持静态。相反,数据会不断变化,随着更多数据加入数据集而持续迭代,并由模型提供关于数据有效性的反馈。而保持数据准确性、客观性的关键,就是迭代。我们需要测试模型、改进模型、再次测试、持续循环。拖拉机的智能喷雾器能够在50%的概率将除草剂准确喷向杂草,而随着训练数据中的杂草图像越来越多,计算机视觉模型的后续迭代有望逐步将准确率提升至90%或更高,同时帮助喷雾器更准确地识别出那些不需要喷洒除草剂的植物。这个过程可能相当耗时,而且在高自动化水平的支持下,往往仍需要审核人员的参与。通过一次次迭代,我们可以推动模型逐步走向最佳状态。而TDP的目的就是加速这种迭代,并确保每次迭代都能给模型带来积极的改进,由此节约时间和金钱。
  展望未来
  正如十八世纪的标准化与可互换部件引发了工业革命一样,用于定义TDP的标准框架也开始将AI技术推向新的高度。尽管尚处于起步阶段,但真正的TDP管理平台能够以更可靠的方式将原始数据(特别是宝贵的知识产权)转化为标记数据,由此帮助组织在所在行业中建立起实际竞争优势。
  在另一方面,高层管理人员还需要切实理解通过投资挖掘AI潜在财富的必要性。以往,组织只能在自主构建、外包或者直接采购之间做出选择,三者都会带来高昂的成本。更重要的是,自主构建与外包还可能带来巨大的隐性成本,导致组织难以成功迈入新的业务领域。真正的TDP能够"降低"这一高成本决策的风险,同时有效保护企业的核心竞争优势,即知识产权。

健澜科技13家巨头排队挨锤!马云被请喝茶,果然只是开始蚂蚁之后,13家巨头排队等着挨锤。马云们的好日子,都快到头了!一hr互联网金融圈,突发重磅炸弹!4月29日,13大网络平台实控人被中国四大顶级金融监管机构请去喝茶,包括腾讯京东百度健澜科技医院全院CA认证项目解决方案1项目背景随着计算机技术和网络技术的不断发展,医院的信息化建设的步伐在逐步加快。各大医院都在利用先进的技术设备替换原有医院信息的纸质管理。数字化医疗平台的建设,加强了医院对医疗数据这个月,3名航天员将上天!16选3,56岁杨利伟为何也在备选之列?众所周知,我国空间站天和核心舱有一个快递,已经被天舟二号送达,目前正在等待接下来的神舟十二号飞船携带3名宇航员与天和核心舱对接,等待3名宇航员登陆天和核心舱后,再签收天舟二号所携带浙大郑强教授说要把大学讲台留给杨利伟英雄?一起回顾飞天过程浙大郑强教授浙大讲堂应该留给钱学森,杨利伟这样的英雄演讲!杨利伟说2003年10月15日上午9时整,火箭尾部发出巨大的轰鸣声,几百吨高能燃料开始燃烧,8台发动机同时喷出炽热的火焰,定了!准备出征!神舟十二号载人飞船飞行乘组航天员已入驻问天阁定了!准备出征!神舟十二号载人飞船飞行乘组航天员已入驻问天阁!01航天员聂海胜02航天员邓清明03航天员叶光富这个月,神舟12号将登上太空,这也是2016年神舟11号发射之后,时隔7个关于宇航员在太空中真实经历过的罕见现象7个关于宇航员在太空中真实经历过的罕见现象相信许多人在小的时候,都有过坐上飞船去往外太空的梦想,就像那些宇航员一样,这样的经历肯定非常的酷,因此也会对所有的宇航员感到羡慕和敬佩,但看了28岁华为员工的工资表才知道牛逼的人注定会牛逼看了28岁华为员工的工资表才知道牛逼的人注定会牛逼!西湖论健所有的牛逼,都有迹可循。在别人看不见的地方默默努力,时间会给你答案。01hr之前,华为的一位前员工,曾在网上晒出自己的工航天员邓清明搭乘神舟十二号出征太空!宁可备而不用决不用而无备近日有媒体报道,神舟十二号载人航天飞船已准备就绪,预期将会在今年6月份发射升空,抚州人邓清明将作为本次航天员共同执行中国空间站的初期搭建相关任务!航天员邓清明航天员邓清明中国载人航轮子摩擦力低,适合快速运动,为什么动物没有进化出轮子?人类发明轮子之后运输能力大大提升,因为轮子结构可以变活动摩擦为滚动摩擦,有利于提高运输效率,尤其在平原之上,轮子的出现快速地促进了不同地区间文明的交流。一个还很有趣的问题,既然轮子美国曾向太空发射精子,返回后使雌鼠怀孕,宇宙辐射为啥没作用?网络上经常有一个观点,那就是航天员的选拔尽量选那些已婚已育的男性或者女性,原因在于空间站由于处于太空中,虽然有舱体的阻隔,依然会遭受较为严重的宇宙辐射,可能对人的基因造成永久性地改宇宙最诡异天体它让人类所有知识失效超大质量黑洞是宇宙中的恐怖天体,有句话说在我们生活在光锥之内,光锥之外的宇宙我们是无法得知的。那么黑洞内部的时空就有可能通往光锥之外。天文学家在NGC1068中发现了神秘的超大质量
苹果公司iphone12或将分批发售据新浪科技官方微博发布消息苹果公司或将iPhone12分成两批发售,苹果首席财务官卢卡梅斯特里证实他们今年的供货和发售将推迟几周。发布会不像苹果公司之前那样选择在九月发布,而是退后SpaceX公司完成SN5原型机150米跳跃测试就在今天北京时间早上8点,SpaceX公司星舰SN5完成了首个全尺寸星舰主体的150米跳跃飞行测试,虽然星舰SN5的跳跃测试已经推迟了数次。此次SpaceX公司测试的SN5150米苹果CEO库克iphone11在中国市场最畅销就在最近苹果CEO库克进行视频会议说在中国最畅销的是ipone11。苹果公司CEO对此销量感到非常满意,并且对中国后续市场会有更大信心,对此他感到非常乐观。苹果公司CEO库克说iP特朗普有多爱撒谎?CNN认真做了统计他至少说了50次谎话当地时间4月9日,美国有线新闻网(CNN)报道说,在过去3个星期的时间里,美国总统特朗普在白宫新闻发布会上,至少说了50次虚假或者误导性的谎言,其中有些涉及新冠疫情的谎言十分危险。冰封之地现4。6万年的物种,预示地球气候进入一个紧急状态二氧化碳加剧全球气候变暖,看来已经掩盖不住了!2月21日,科学期刊生物学通讯发表研究类文章称,2018年西伯利亚东北部别拉亚戈拉(BelayaGora)地区的居民发现一只保存完好无彭斯拒戴口罩,暴露出美国的一个大问题,特朗普必须尽快解决当地时间4月28日,美国副总统迈克彭斯来到明尼苏达州的梅奥医学中心视察,这是美国乃至全球最顶尖的医院之一,拥有约6。3万名员工,多次获得美国最佳医院的称号。4月初,梅奥医学中心曾经与总统特朗普反智主义较量,福奇能保住自己的一世英名吗?现年79岁的安东尼福奇(AnthonyFauci)是世界最顶级的公共卫生专家之一,从1984年开始,他就一直担任美国国家过敏和传染病研究所主任和总统顾问,历经里根老布什克林顿小布什封城49天!意大利宣布逐步解禁民众可以参加葬礼了由于新冠疫情的影响,很多国家都宣布了封城封国的措施,以阻止新冠病毒的传播。作为疫情最严重的国家之一,意大利从3月9日开始对该国所有的城市进行封城,除可证明的工作健康和紧急需求这三种确诊人数破百万!为什么特朗普没有问责撤换相关的美国官员?据约翰斯霍普金斯大学数据实时数据显示,美国新冠肺炎的确诊人数已经突破了100万,达到了约103万例,累计死亡约5。9万例,位列世界第一,是全球疫情最严重的国家。通过此次新冠疫情,美欧洲死亡病例一半来自养老院,梵蒂冈教皇我要为老人们祈祷当地时间4月13日,根据英国卫报的报道,新冠肺炎在欧洲各国造成的死亡病例中,有4257来自养老院。也就是说,有近一半的死者是养老院的老人,他们在患病去世的过程中,缺少来自家人的陪伴特朗普将推迟11月份的大选?美国前副总统拜登他会这么做当地时间4月23日,美国前任副总统民主党总统候选人乔拜登举办了一个网络筹款会。自从3月份美国新冠疫情大规模爆发以来,拜登停办了自己的竞选集会和筹款会,转而改用网络视频的方式,与选民