美国劳工统计局使用机器学习自动执行数据编码

　　政府机构永远充斥着各种文件，其中又不乏大量纸质文档；即使是对于电子文档，实际处理与解读仍然需要耗费大量的人力。为此，联邦机构寄希望于AI技术，即通过高级机器学习、神经网络以及自然语言处理（NLP）技术帮助改善这类文档的处理效率，尽可能将宝贵的人力资源解放出来。虽然其中不少技术在其他行业中早已拥有成熟的应用，并被拓展以增强各类工作流程及任务，但在部分政府部门内，这些技术还完全属于新鲜事物。
　　以美国劳工统计局（BLS）为例，该机构的主要职责在于执行职业伤害与疾病调查，以确保各类工作场所中常见的健康危害问题并协助制定指导性政策。为了完成这项任务，劳工局在全国各地的办公室中设有数十名训练有素的员工，专职通过工作场所内的调查数据对各类伤害及疾病进行分类。但是，这方面工作一直以手动方式执行，并导致各类标记、编码错误乃至速度与成本瓶颈一直妨碍着整体流程的效率提升。
　　图：Alex Measure, 美国劳工统计局经济学家
　　为了简化整个流程，劳工局决定引入机器学习技术。约十年之前，劳工局经济学家Alex Measure决定探索机器学习（ML）技术如何帮助该机构改进流程效率，他本人也与我们分享了将AI技术纳入劳工局乃至整个联邦政府当中可能出现的独特挑战、各机构在AI应用过程中面临的数据难题、外加未来几年内他最为期待的重要发现。
　　在本文中，我们将一同了解他对于将机器学习应用于政府业务场景，特别是文档与人工流程中方面的宝贵见解。
　　问：劳工局在数据收集与处理方面面临的特殊挑战是什么？
　　Alex Measure: 劳工局需要面向众多方向收集大量专题信息，具体涵盖就业、人力成本、工作时间以及工作场所伤害风险等各个方面。在调查当中，各领域间唯一的共通点在于，调查结果往往以自然语言的形式存在。在信息收集过程中，无论是采取访谈、调查或者还是其他方式，收集到的大部分内容都是以语言形式传达。为此，我们需要将语言转换为统计数据，这就是我们常说的编码过程。
　　在此过程中，我们需要分配标准化分类指标以指示值得关注的关键特征。例如，《职业伤害与疾病调查》每年收集数十万份与工作相关的伤害与疾病调查资料。为了回答诸如＂门卫人员在工作中最常见的伤害原因是什么？＂这类问题，我们需要认真阅读每一份描述，以编码方式将对方的职业与造成伤害的因素关联起来。接下来，我们汇总结果信息以回答实际问题。直到最近，整个流程仍然相当枯燥繁琐，而且大部分工作需要以手动方式完成。
　　在职业伤害与疾病调查方面，我们每年大约需要25000个工作时。如果希望尽快完成任务，则意味着需要同时雇用更多人力、培训更多新雇员，并保证他们能够以统一的方式对内容做出解读。这相当困难，实际上我们发现，即使是两位同样经验丰富的专家，在编写同一份伤害说明材料时也只有70%左右的几率针对相同的素材给出完全相同的伤害编码分类。这样的挑战不仅存在于劳工局之内，也广泛存在于全球各类从事类似任务的组织当中。
　　问：那么劳工局是如何使用机器学习技术解决这些问题的？
　　Alex Measure: 七年之前，劳工局完成了《职业伤害与疾病调查》的全部编码工作。过去一年中，我们使用有监督机器学习（特别是深度神经网络）自动完成了超过85%的处理任务。随后，劳工局开始逐步将这些技术用于处理其他相关任务，涵盖从职业/生产分类，到医疗福利及工作要求的各个方面。
　　问：多年以来，劳工局对于AI技术的看法与应用方式经历了哪些转变？
　　Alex Measure: 我加入劳工局大概是12年前，那时候人们主要还是在用知识工程或者基于规则的方法进行素材编码。其中的基本思路是，如果希望计算机执行某项操作，则需要明确告知它执行任务所需要的每条规则与信息。例如，如果要对职业进行分类，则可能需要创建一份清单，列出所有可能出现的职称以及与职称相对应的职业代码。
　　这种方法在处理简单及标准化任务时表现不错，但遗憾的是，即使是在职位分类这种相当具体的应用领域当中，系统也几乎无法直接处理人类语言。例如，在《职业伤害与疾病调查》中，我们发现每年收到的职位中约有2000种被系统直接对应为＂管理员＂。更糟糕的是，总会出现某些以往从未出现在数据中的新职位，而且部分职位与所在行业紧密相关，具体取决于特定企业的命名惯例或者行业中的传统用语。结果就是，我们需要制定体量庞大且相当复杂的规则，而这一切最终也只能支持840多种职业分类。更要命的是，这套系统的构建与维护都极为困难。
　　有监督机器学习带来了一种替代方案——相较于明确告知计算机其需要了解以及执行的任务内容，现在我们可以引导计算机通过数据进行学习，由其自主找到执行某些任务的最佳方法。只要大家拥有成规模的数据素材（多年以来，我们已经积累到可观的数据资源），那么往往只需要很少的人工投入就能构建起一套效率极高的系统。在我们的案例中，劳工局在短短几周之内就使用自由开源软件构建起我们的第一套机器学习系统，并发现其性能远远超越我们以往长期使用的、基于规则的昂贵方案。更令人惊讶的是，其性能甚至比我们的编码员还要高。
　　与传统方案相比，机器学习方法也给自动化带来了更多发展空间。如今，劳工局与全球各统计机构已经在类似的任务中迅速推广此项技术。当然，机器学习在其他领域也拥有良好表现。我们正使用机器学习技术自动检测数据错误，并自动匹配并标记数据集中的缺失记录。这对我们可谓意义重大，能够帮助劳工局通过更多不同来源收集到大量数据。
　　问：AI/ML技术的介入，给原本的编码员们带来了怎样的影响？
　　Alex Measure: 在最初考虑引入自动化解决方案时，人们普遍感到担心，不少员工抵制自动化并将其视为一种威胁。但实际情况并非如此，我认为这得益于我们采取的具体实施方式以及对整体状况的综合考量。首先，我们很早就做出决定，将自动化的重点放在提高数据质量方面。这非常重要，因为除了数据质量本身的意义之外，这也代表着一种非常新颖的处理方式，要求我们保证编码流程的正确执行、并在出现问题时及时启动预先制定的可靠备份计划。我们的规划基本如下：
　　第一，将计算机最擅长的工作交由自动化处理，将人类最擅长的工作留给雇员。
　　第二，逐步引入自动化机制，保证员工有时间适应工作量与工作方式的变化。
　　第三，由雇员负责监督自动分配的代码，并在他们认为计算机存在错误时分配人员做出调整。
　　第四，将节约下的资源用于其他重要任务，例如数据收集与数据审查。
　　结果就是，在随后的六年时间里，越来越多的常规编码工作逐渐被速度更快、质量更好的数据审查与收集自动化方案所接管。这还带来令人意外的结果，即我们对常规手动编码的需求虽然大大减少，但模型无法处理的高难度情况仍然依赖于人类专家。因此，自动化程度越高，能够处理的总数据量就越大，其中需要人为介入处理的数据同样更多。结果就是，负责人为调整以及验证机器学习系统是否正常运行的雇员反而有所增加。
　　问：您能否分享一些在劳工局的应用场景中，AI技术发现的有趣或者令人意外的洞见？
　　Alex Measure: 就个人来看，我认为这里有两个令人印象深刻的惊喜。首先就是自由开源软件的存在，居然让机器学习系统的构建变得如此轻松，且实际表现远优于我们以往使用的高成本、基于规则的方法。第二点在于，这类系统在编码分配准确率方面比经过培训的人类编码员更高。这一切都是我们刚开始难以想象的，事实上整个劳工局都花了一段时间才适应如此出色的效果，而且其结果确实非常稳定。
　　平均来看，我们的机器学习系统自上线以来就一直在编码准确率方面超越了人类雇员，而且二者的差距随着大量数据的涌入以及随之进行的后续训练而越来越大，这也促使我们逐步转向更强大的机器学习算法——例如深度神经网络。
　　问：我们在数据使用方面面临着哪些独特挑战？这些挑战是否会成为政府机构在使用AI技术方面的障碍？
　　Alex Measure:最大的挑战之一在于数据保密性。机器学习需要大量数据，政府机构则拥有着丰富的实用性数据，但却不能任意公开加以使用——这无疑限制了各机构使用机器学习技术的具体途径。例如，在我们第一次尝试使用深度神经网络时，我们无法直接使用云资源，因为现有政策对此明令禁止。这就构成了大问题，因为劳工局自身显然没有充足的硬件以训练我们需要的各类神经网络模型。最终，我们通过内部采购及安装必要硬件解决了这个问题，但相当一部分其他机构恐怕难以跨过这道门槛。
　　另一大重要挑战在于模型共享。当劳工局开发出能够自动对职业或伤害进行标准化类别划分的机器学习模型时，这一成果不仅能够服务于劳工局自身，对于其他处理类似任务的联邦机构也同样意义深远，甚至能够给外部研究机构及研究人员带来巨大帮助。由于我们掌握着大量相关数据，因此劳工局等政府机构在训练这类模型方面拥有着特殊的优势地位。但有研究表明，这类模型可能在无意之间透露出训练过程中所使用的的数据信息，这就要求我们在模型共享方面小心再小心。近期其他研究表明某些技术有望缓解这些风险，劳工局已经开始进行探索，但这仍是一项极为艰难的挑战。
　　问：从更广泛的角度来看，联邦政府中的哪些领域有望在AI技术的推动下实现显著的效率提升？
　　Alex Measure: 我在政府机构工作的时间不短了，在我看来几乎每个联邦机构都有望利用有监督机器学习技术，实现相当一部分日常任务的自动化转型。统计机构就是最典型的一例，他们的主要工作内容就是语言编码与分类。目前，越来越多的统计机构已经在使用类似的技术自动检测错误，并匹配来自不同数据集的记录内容。
　　问：联邦机构可以采取哪些措施以吸引那些具备技术创新能力的高水平劳动力？
　　Alex Measure: 我认为联邦机构最好的人才吸引方法，就是强调使命感与荣誉感。联邦机构关注的往往是那些最重要的任务，一旦成功将造福整个国家，这对于具有强烈公民意识的人才极具吸引力。毕竟有意义的项目可不是那么容易接触到的。我还想强调的是，外部招聘并不是吸引熟练劳动力的唯一途径。劳工局的不少编码项目及后续机器学习尝试依靠的并不是外部AI专家，而是经过培养、对于自动化技术抱有浓厚兴趣的内部雇员。当然，在此期间Coursera等免费在线教育资源也发挥了重要作用。
　　劳工局之所以能够走通这条道路，是因为员工已经在统计领域拥有丰富的经验。可以肯定的是，成功的机器学习项目既需要强调技术的一面，也需要关注专业知识方面的积累。政府雇员对专业的认识已经非常深刻，互联网上又有着大量能够自由获取的资源建立技术基础，二者就这样和谐统一了起来。
　　问：展望未来几年，您最期待哪些AI技术成果？
　　Alex Measure: 我的工作主要依赖于有监督机器学习，但其中仍存在着一大局限。我们需要丰富的训练数据才能获得良好的性能，这里说的不是少量数据，而是体量庞大、远超普通人学习所需的数据集合。在大多数情况下，我们需要为模型提供成百上千的训练数据示例，才能让其掌握一种相关概念。这是个巨大的障碍，因为大多数应用场景中并不能提供这么丰富的数据。
　　过去几年当中，研究人员们已经在这方面取得了巨大的进展。这种进展主要来自两个方面：
　　其一是迁移学习，即将一项任务中学习到的知识转移到另一项任务上，有时候人们也将其称为自我监督学习。这基本上就是将有监督学习技术应用于无明确标记的数据。最近，一种流行的自我监督语言任务开始被人们所重视，即首先收集大量文本、而后重复采样其中的部分小规模子集、隐藏采样中的某些单词，训练模型根据上下文预测缺失的片段。只要能够正确完成这一操作，我们即可获得一套对语言拥有深刻理解的模型，且不需要任何显式标签。接下来，我们就能通过迁移学习将该技术应用于指向不同语言处理任务的模型，例如预测伤害分类等。如果一切顺利，那么其能够显著降低任务自动化所需要的训练数据总量。这无疑为目前由于缺乏训练数据而无法实现自动化的众多应用场景，打开了通向机器学习的大门。
　　我们关注的另一个重要领域在于差异化隐私，其在AI内部与外部皆有应用。最新进展已经带来一种全新机制，能够在实现机器学习模型共享的同时，为基础训练数据提供严格的隐私保护。一领域的进展有望加快受信数据收集方之间的自动化成果流通（例如经过训练的机器学习模型以及统计估计值），同时提升基础数据的保密性水平。

Kavango在Ditau稀土项目中确定了七个目标目标相对较浅，这应该可以直接确定该项目的潜力。Ditau现场KavangoResourcesPLC（LONKAV）表示，博茨瓦纳Ditau稀土项目的地质调查确定了七个目标，其中三个秘鲁采矿业发展面临不确定性据BNAmericas网站报道，在6月6日秘鲁总统大选中领先的佩德罗卡斯蒂略（PedroCastillo）将组阁新政府，但前能矿部两名高官却表示，该国530亿美元的矿业投资项目面临CFACT让我们停止谈论化石燃料，谈谈技术地图是什么？大多数人都很熟悉六度分离的概念这个星球上的每个人只被六种关系所分隔。我想给你们介绍一下70度连接的概念。在当今世界，我们大多数时候都希望有一个舒适的70（华氏）度左右的温度。人们谈Lynas稀土季度总产量下降，但收入大增稀土公司Lynas日前发布了2021财年第四季度市场报告，在需求和市场行情推动下，其季度收入和销售收入均创了纪录。根据报告，销售收入为1。859亿澳元，比上一季度增长69同比增长3北方稀土挂牌价格上调，稀土市场仍然行走于上行通道7月9日，中国北方稀土（集团）高科技股份有限公司公布2021年7月轻稀土产品挂牌价格整体偏强，继3个月下调之后出现价格首度上升。同期，稀土现货市场价格表现为整体上行。具体而言，氧化Gobitz铜价下跌据MetalMiner的MariaRosaGobitz报道，伦敦金属交易所（LondonMetalExchange）3个月期铜价6月份下跌了7。5。铜价在5月份触及历史高点后，6月莱纳斯稀土公司获得了1480万澳元的拨款Lynas稀土公司上周四宣布，作为澳大利亚政府现代制造业计划的一部分，该公司获得了一笔1480万澳元（1090万美元）的拨款。这笔资金将使Lynas实现行业首个稀土碳酸盐精炼工艺的美国稀土公司（AmericanRareEarths）即将完成对Laramie的收购Laramie稀土元素项目的收购反映了ARR对其美国控股公司的长期战略，即在该行业建立市场领导地位，并满足中国对国内供应日益增长的需求。Laramie项目包括超过1，108公顷的矿美国构筑稀土产业链和供应链的工作在努力推进今年以来，多项政策指向了美国稀土供应的重建，包括一些具体的法规及其条款以及从煤提炼稀土的一些项目拨款。7月中旬，随着稀土碳酸盐从WhiteMesa运往Neo，外媒表示美欧构筑一条新欧盟计划稀土补贴呼应美国钕铁硼补贴模式援引外媒报道，欧盟草案文件显示，扶持措施包括提供低息贷款，以及对成本较高的稀土提供补贴。欧盟采用的是美国模式，美国最近为国内制造商推出了税收减免政策（补贴）。知情人士表示，计划的主第二季度美国关键矿物进口同比增长7。9英文来源MINING。com编译产业前沿根据标准普尔全球市场情报的分析，美国关键矿产的进口在第二季度同比增长了7。9，但与上季度相比保持相对平稳。该报告显示，2021年上半年，流入

<<<<<<－>>>>>>

海奥华预言达尔文的进化论可能是错误的，听听海奥华预言怎么说目前可观测的宇宙范围有920亿光年，而这还远远不是宇宙的尽头！浩瀚的宇宙中是否有着我们无法窥探的伟大存在？今天海奥华语言告诉你答案。喜欢的朋友可以长按点赞3秒，我们开始今天的视频一爽！中国飞船一次可搭载7名宇航员您是不是也有飞一次的梦想？中国下代载人飞船可搭载7名航天员中国航天，世界瞩目，全球敬仰。这神舟13号刚回来，这神舟14号和神舟15号也要马上升空了。这叫中国速度，振奋人心。1目前，执行二次载人航天飞行任务的NASA和SpaceX推迟向国际空间站发射Crew4任务NASASpaceXCrew4前往国际空间站任务的飞行准备审查已经结束，各小组正朝着美国东部时间4月23日上午5点26分从佛罗里达州肯尼迪航天中心的39A发射场升空的方向前进。日期还认为时间不存在吗？科学家发现时间膨胀效应，作何解释？导读有一个很奇怪的事情，明明我们无时无刻不受到时间流逝的影响，但许多人却不承认时间的存在。他们认为，时间只不过是人类的错觉，对于宇宙而言，讨论时间毫无意义！真的是这样吗？关于时间的全球的沿海城市正在加速下沉近期科技趣评沧海遗珠，信手拈来图源pixabay。com01hr在地球诞生的初期生命可能就已经出现了2017年，古生物学家在加拿大魁北克省的岩石中发现了距今37。5至42。8亿年前的微小结构，俄罗斯航天集团进步MS18号飞船今日将调整国际空间站轨道高度IT之家4月23日消息，据俄罗斯卫星通讯社报道，俄罗斯国家航天集团公司通过Telegram频道表示，俄罗斯进步MS18号货运飞船将于23日启动发动机调整国际空间站轨道高度，避免其与室温化合物半导体核探测材料的研究进展及应用化合物半导体探测器是六十年代快速发展的新型核辐射探测器件之一。室温化合物半导体探测器是区别于PN结型探测器锂漂移型探测器高纯锗核探测器等的一种特殊类型半导体核探测器。室温核辐射探测自己看星星也能预测未来天气不知大家有没有注意到，晴天夜里，有时候仰望天空，发现在繁星密布的天幕上，星光闪烁，忽明忽暗，好像向人们眨着眼睛。这是为什么呢？原来，星光从遥远的太空经过大气层，投入我们的眼帘。而围四星伴月即将上演拍摄星空的好时机来啦下周精彩天象将层出不穷，几乎每天都有值得关注的天象出现，而且这些天象都和行星有关，涉及五大行星。4月25日土星合月，4月26日火星合月，4月27日金星木星相继合月，4月28日金星与研究称最靠近木星的卫星木卫一可能拥有壮观的沙丘科学家们长期以来一直在思考，最靠近木星的卫星木卫一（伊奥，Io）如何拥有蜿蜒的山脊，就像在沙丘等电影中可以看到的那样宏伟。现在，罗格斯大学的一项研究提出了一个新的解释，即即使在像木假如有一个只有一立方厘米的微型黑洞靠近地球，会发生什么？黑洞，是宇宙中最恐怖的天体，能吞噬一切靠近的物体，连光都不放过。黑洞的质量通常都非常大，引力也非常强。那么假如把黑洞的一小部分放到地球附近，比如说一立方厘米的黑洞，会发生什么呢？首