童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AI产品经理之数据标注

6月2日 飞虹谷投稿
  前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。
  前几天参加京东的AI技术沙龙,在提问环节,有个小伙说:
  “我是做销售的,刚才您讲的我都没听懂,我就知道,现在AI是风口,只要做AI相关的就能挣钱,您能说几个现在我们这类人能做到吗?能挣钱就行!”
  台上技术出身的老师自然一时语塞。小伙说的没错,百团大战的时候确实一批刷单公司赚得盆满钵满。但是这些投机取巧注定不能长远。
  让更多人卷进这次AI浪潮的可能就是数据标注了,AllinAI的百度拥有大量的标注业务,大部分河南标注工厂用的是百度的标注工具,干的是百度的活。开始的时候标注的利润空间可以达到6070。有些企业盲目扩张,一下子招了几百人;但是陆奇离开后,百度需求减少。准确率又普遍提高至9596,活难干了。这些工厂只会百度的标注工具,很难接别家的业务,因此死了一批。
  现在来看标注行业是一个苦行业,“如果你和谁有仇,就劝他干标注吧。”这是标注圈有名的段子。干标注就像将水倒进一个水桶里,每拉一个框就是添一碗水。目前,谁也不知道还能添多久,只有水溢出来时,才知道。
  数据是AI公司的必需品。数据对于AI模型的重要性尤为重要,AI建模没有门槛,数据才是门槛。现阶段的人工智能是简单的认知智能。分类器的构造是个数学问题,就是由数据堆起来的。或者说深度学习本质上是个数学问题,是由大量的样本空间数据反向构造分类器的系数空间的过程。
  数据标注模型
  数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。或者说更像是一个流水线作业流程。
  不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。
  数据的质量直接会影响到模型的质量,因此数据标注流程设计和监督纠错就显得异常重要。
  一般来说,数据标注部分可以有三个角色:
  数据标注员:标注员负责标记数据。(文本、图像、视频)
  数据审核员:审核员负责审核被标记数据的质量。(抽检)
  标注管理员:管理人员、发放任务、跟进流程。
  只有在数据被审核员审核通过后,这批数据才能入库使用。
  一般众包数据标记流程
  任务分配:一般数据分配由后台自动分发,根据用户选择标注类型每次分发几条内容,标注完成后再次分发。
  复核入库:一般一条任务会分配给大于三个人的基数人员完成,根据少数服从多数原则确定该条数据的最终标签。
  质量验收:一般会根据用户标注总数量和入库数量计算该用户的标注质量,和计算有效标注数量,质量高的和质量低的薪酬计算方法会有差别,以此来淘汰不能完成高质量标注的人员。
  数据标注类型
  图像标注线标注
  根据需求标注检测对象相对应的线型位置,例如:车道线。
  图像标注边框标注
  标注检测对象相对应的区域,例如:汽车行人等各种物体。
  图像标注3D边框标注
  将图像中待检测物体以立体形式标注,例如汽车检测。
  图像标注语义分隔
  根据检测区域不同,将图像标注为不同的像素,例如来自汽车拍摄的图像。
  图像标注多边形标注
  根据需求标注检测对象的形状,例如:标注图像中的汽车轮廓(示例图)或标记污损边界。
  图像标注点标注
  根据需求标注检测对象参考点的像素坐标,或者图像中的关键点标记,如人脸。
  图像标注3D点云标注
  在3D空间中,标注点云数据中指定的检测对象,如汽车、行车道等。
  视频标注跟踪标注
  在视频或者连续的图像中跟踪标注检测对象,形成有ID关联的运动轨迹。
  文本标注中英文语音转写与校对
  英文语音转中文文本,或中文文本转英文语音。
  文本标注
  实体命名,标注文本中的实体。
  语音标注客服语音标注
  外呼机器人进行外呼记录语音标注呼叫成功或者失败,从而训练话术。
  标注流程
  需求确认:对标注任务需求确认,标注数据集准备完成,规范标注需求,指定标注模型。
  人员筛选:确定标注人员及人员角色
  人员培训:针对不同角色培训标注规范和标注标准
  开始试标:先标注少量数据,试用标注数据,调整标注流程,使得效率最优。
  正式标注:完成整体标注任务。导出数据。
  总结
  快速、高效的进行数据标注,是机器学习和深度学习的基础,现在一些标注工具通过深度学习模型和主动学习技术,通过NLP模型来提高标注效率,集数据标注、数据管理、模型训练和模型服务于一体,使数据标注更加轻松、更高效。离AI最近的重复复杂的工作,是首先会被机器取代的。
  相关阅读
  《AI产品经理需要了解的概率论通识:4个概念3个问题》
  《AI产品经理需要了解的线性代数通识》
  《AI产品经理需要了解的微积分通识》
投诉 评论

智能时代的电话呼叫中心本文将盘点人工智能在呼叫中心不同类别业务下的部分应用,为读者勾勒出人工智能技术在呼叫中心的应用现状,与读者一起畅想呼叫中心未来的发展趋势,并挖掘更多潜在的应用场景与市场机会。……AI产品经理之数据标注前两篇笔者分别为大家介绍了AI产品经理需要了解的概率论通识、线性代数通识、微积分通识,本篇文章中,笔者将继续为你介绍AI产品经理需要了解的数据标注,供大家一参考学习。前几……AI电话机器人防骚扰产品研究:用AI来对抗AI会是个好办法吗近些年来,无良商家利用AI机器人电话骚扰用户的现象频发,而如何解决就成了一个难题。本文通过调查与研究,认为用AI反抗AI会是个好办法。2018年8月,国家出台《综合整治骚……AI产品经理需要了解的概率论通识:4个概念3个问题笔者基于工作实践,分享了非常实用的4个概率论概念和3个经典的概率论问题,供大家参考学习。我认为AI产品经理应该学一些概率知识,是否理解概率,直接决定一个人对AI智能的了解……人脸识别:技术应用与商业实践人脸识别,已成趋势。关于人脸识别各种碎片式的报道也层出不穷,但对于大多数人而言,依然是管中窥豹,雾里看花。本篇文章中,笔者将从技术应用与商业模式两个维度,系统性地说明人脸识别,……AI重制经典IP,到底是不是一个好生意?AI重制经典IP,它真如大家所预想的那样,是一块埋藏着富矿的好生意吗?明星“换头术”,DeepNude自动脱衣,修复民国美女这些应用的走红无不说明,在让大众认识AI这件事……国内智能语音行业分析报告伴随着人工智能行业的快速发展,中国在智能语音这个细分市场的发展速度也将会持续增长,但是目前国内在智能语音市场,技术已经相对成熟,且头部企业在行业的垄断力度较大。一、智能语……自然语言理解技术在早教领域的应用本文笔者将从三个方面分享下自然语言理解技术在早教领域的应用:丰富的学习资源、独特的教学方式、有效的习惯培养。自然语言处理(NLP)是人工智能和计算机科学领域的一个热门研究……在线小班课中的AI,到底能“”些什么?本文笔者将以在线教育为例,按照“AI技术AI能力应用场景”的逻辑顺序,分析:在线小班课中的AI,到底能“”些什么?就像前几年的“互联网”一样,最近两年,“AI”突然变成一……了解新零售下的AI智能货柜,看这篇就够了本文分析了新零售下智能货柜的现状与未来发展,主要包括这5点:新零售与智能货柜概述、智能货柜发展路线和市场分析、智能货柜技术核心、系统结构、货柜运营核心与用户体验,供大家一起学习……AI在婚恋领域是怎么起作用的?AI能够在婚恋领域起到作用吗?我们这一帮单身狗的问题AI是否能够帮忙解决呢?好奇背景:众所周知,日本社会老龄化十分严重,而众多年轻一代别说生育了,连结婚谈恋爱的动力……女性劳动更容易被AI替代?才不是!一个更自动化的社会,会显著的减少对一般人类劳动力的需求。在人类各种能力中,偏向创造力、想象力、沟通交流能力,以及控制机器的能力的一面会被更突出强调。最近有很多研究提到,人……
微信:2020年处理超3。3万条侵犯知识产权的短视频抖音上线短剧新番计划提供亿级流量扶持和百万现金奖励多家社区团购平台受罚商超便利携手顺丰同城急送前景几何?人社部推动实现零就业家庭动态清零58同城发挥资源优势打通人才百度沈抖:百度智能小程序是行业唯一真正开源平台微信又放大招,视频号MCN机构来了!护肤严选品牌嘻选红牌仓重磅来袭海谱纳米光学:乘政策之”东风“,全力打造中国”芯“微盟成立控股子公司TEAMPRO构建全链路营销新矩阵谷歌意外泄露了Pixel5a5G的相机规格集成灶什么品牌好?火星人集成灶,看得见的“鲜”味道世界读书日十点读书打造全新阅读场景体验那些天价QQ,现在到底怎么样了给刘校长的一封信回顾4月和5月,对下半年楼市有一种预感月上重火上官透是渣男吗上官透角色介绍特级教师肖培东除了教师这个角色,我还有其他身份陈萌产检后回朱家,大衣哥大衣嫂亲自摘菜,网友陈亚男该哭了地震后的心理干预有哪些化蝶教人说话的书籍环保法庭何以“门庭冷落”素质教育快乐成长作文十个经典的学生上课插嘴

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界