范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

大数据时代基于云计算的数据监护研究论文

  在大数据时代,为了更好地管理和利用科学数据,计算机图灵奖获得者Jim Gray于2002年提出了数据监护(Data Curation)的概念。十余年来,数据监护一直是国内外信息资源管理领域的热点议题,研究主题集中在数据监护的内容、发展策略、合作模式、职业教育、成功实践等领域。111鉴于云计算能够为数据监护提供强有力的技术支撑,如云计算快速提供资源的能力有助于辅助完成资源密集型数据监护任务,网络化云服务有利于实现数据监护的协同工作,基于云计算开展数据监护引起了国外信息资源管理学界和业界的广泛关注。本文对基于云计算的数据监护问题进行探讨,希望对我国的数据监护工作有所借鉴。
  一、数据监护工作流程
  数据监护是为了确保数据当前的使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。121为了有效指导数据监护实践,提高数据监护效率,一些数据监护机构和研究者对数据监护过程进行了概念化,提出了相应的数据监护生命周期模型。本文基于英国数据监护中心的DCC数据监护生命周期模型13与王芳和慎金花提出的细化的数据监护生命周期模型,梳理出了数据监护工作流程,见图1。数据监护工作流程由4个阶段、11个业务环节组成,涵盖了数据监护的所有必要阶段和核心工作。
  数据收集阶段:数据采集。数据采集是数据监护活动的起点,指根据采集政策,从数据创建者、档案馆、知识库或数据中心等接收数据。元数据创建。为采集到的数据创建管理、描述、结构和技术元数据,以便进行数据管理和数据维护,以及实现数据共享。
  数据处理阶段:数据评价和选择。评估数据并为长期监护和保存选择数据。数据评价和选择直接关系到科学数据库的质量,并且带有一定的主观性。数据剔除。根据成文的政策、指引或法律要求,处理未成为长期监护和保存对象的数据,将这些数据转移到其他档案馆、知识库、数据中心或其他保管机构。根据法律要求,有些数据会被安全销毁。数据导入。将经过选择的数据传送至档案馆、知识库、数据中心或其他数据监护机构。为保证数据的可用性,在导入数据之前,应进行去重、交叉注释、格式认证等。数据迁移。根据存储环境的需求,或者为了确保数据对硬件和软件退化的抗扰性,改换数据的格式、存储系统、存储类型。
  数据保存阶段:数据长期保存。长期保存须确保数据的可信性、可靠性、可用性和完整性。长期保存包括数据清洗、数据验证、分配保存元数据、分配表征信息,保证数据具备可接受的数据结构和文件格式。数据存储。遵守相关标准,选择科学的组织方式和安全的存储介质组织并存储数据。数据存储既可以保证数据的安全性,又便于数据被随时使用和加工处理。
  数据利用阶段:数据获取。采用适当的标准发布数据,并执行严格的访问控制和验证程序,保证用户安全、准确的访问和获取数据。数据复用。制订数据复用规则,在不违反知识产权的前提下,提供数据复制、链接、引用等服务。数据转换。根据原始数据创建新数据。例如,通过转换格式、建立子集等途径,创建新数据。
  二、云计算为数据监护提供支撑
  云计算作为分布式计算、网络存储、负载均衡、热备份冗余等计算机和网络技术融合的产物,具有超大规模、虚拟化、通用性、高可扩展性等诸多特点。云计算的特点与数据监护的需求非常契合,可以为数据监护提供强有力的技术支撑。
  弹性服务:云计算服务的规模可快速伸缩,以自动适应业务负载的动态变化。用户使用的云计算资源与业务的实际需求相一致,避免了因为资源供需不匹配而导致的.服务质量下降或资源浪费。161数据监护的数据剔除和数据迁移等任务不需要持续不断的执行,属偶发性活动。云计算的弹性服务能够很好地满足偶发性数据监护活动的资源调用需求。
  按需服务:云计算以服务的形式为用户提供基础设施、存储空间、应用程序等,并能够根据用户的需求,自动分配各种资源。17用户也可以根据需要在云中部署所需的应用程序。云计算的按需服务为数据监护中需要依赖主观意识完成的任务,如元数据创建、数据评价和选择提供了极大的便利。
  泛在接入:用户通过互联网可以随时随地利用云计算服务。数据用户越来越多的使用笔记本电脑、智能手机、平板电脑,将数据监护业务流程转移至云,能够极大地方便用户上传、访问和下载数据。数据监护的数据采集、数据获取和数据复用等业务环节,可以从云计算的这一特点中受益。
  服务外包:用户进行数据处理所需的计算资源价格昂贵,将提供计算资源的业务委托给云服务商,既能够节省开支,又能够使用户专注于自己的核心工作。云服务商为了利益最大化,保持最优竞争力,都会迅速应对技术变革,以更低的价格提供更快的处理器和更大的存储空间。云计算服务外包的特点使数据监护机构将部分信息技术支持业务委托给云服务商,以获得更低廉的价格和更优质的服务成为可能。
  三、基于云计算的数据监护模型
  云计算提供从硬件设施到应用软件的多层次服务。根据服务的对象和功能差异可以将云计算划分为三种服务模式:基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS);根据租用云计算的用户对数据和环境的控制权,可以将云计算划分为公有云、私有云和混合云等部署模型。本文根据数据监护不同业务阶段的工作内容和技术需求,并结合云计算的服务模式和部署模型,构建了基于云计算的数据监护模型,见图2。下面分别从数据监护的云计算服务模式和部署模型两个方面分析基于云计算的数据监护模型。
  (一)数据监护的云计算服务模式
  IaaS层。IaaS提供基础设施部署服务。IaaS通过虚拟化技术整合服务器、存储设备、网络资源、高性能计算集群等物理资源,构建全局统一的动态虚拟化资源池。基于云计算的数据监护模型的IaaS层为上层云计算服务提供海量硬件资源,实现硬件资源的按需酉己置。
  PaaS层。PaaS是云计算应用程序运行环境,提供应用程序部署与管理服务。PaaS不仅能够实现海量数据的存储,而且能够提供面向海量数据的分析处理功能。在基于云计算的数据监护模型的PaaS层,数据监护机构使用云供应商的软件工具和开发语言,开发数据收集和数据处理所需的各种应用程序,实现应用程序的多元化和定制化服务,并将科学数据保存于海量数据存储系统。
  SaaS层。SaaS提供以服务为形式的应用程序。SaaS允许用户使用部署于供应商云基础设施上的应用程序,用户也可以根据需求向供应商定制应用程序。在基于云计算的数据监护模型的SaaS层,数据监护机构通过应用程序向用户提供数据利用服务,实现数据共享和科研协作。
  (二)数据监护的云计算部署模型
  数据监护的各个阶段分别面向数据监护方和数据使用方,对应不同的数据存取、处理等操作权限,因此需要采用相适应的云计算部署模型。数据监护过程中的数据利用阶段位于SaaS层,为用户提供方便高效的数据获取等服务,而公有云面向一般公众提供敏捷弹性服务的特点与数据利用阶段的功能需求相契合。用户能够通过网络浏览器像使用个人电脑中的软件那样使用公有云的应用程序,实现应用程序的泛在访问。因此,基于云计算的数据监护模型的SaaS层应采用公有云部署模型。数据收集和数据处理工作要求云计算提供量身定制的服务功能和非常稳定的服务质量,而数据保存工作要求云计算能够切实保障数据安全。私有云部署在用户数据中心的防火墙内,能够提供对数据、安全性和服务质量的最有效控制,而且不会冲击用户已有的业务流程。因此,基于云计算的数据监护模型的PaaS层适宜采用私有云部署模型。上述公有云和私有云的基础设施共同构成了基于云计算的数据监护模型的IaaS层,并且公有云和私有云具有统一的接口标准,保证服务的无缝迁移,即IaaS层采用混合云部署模型。
  四、基于云计算的数据监护案例
  SRF项目:英国南安普顿大学的SRF项目,针对科学研究工作集成了许多已有的协作型数据管理工具,并将这些工具部署到一个共享的虚拟云平台上,以SaaS的方式提供服务。SRF工具最大的特点是能够在网络日志中自动或者手工创建和共享实验数据。例如,SRF的一款代理软件能够植入实验仪器和计算机,自动抽取仪器在实验过程中记录的数据,并转换为XML格式,然后以博客的形式发布以实现协作复用。通过博客发布平台实现实验过程、实验数据、实验分析的互联,组织实验数据记录,构建实验、实验数据、实验设备之间的关联关系。在数据监护生命周期中,SRF工具主要用于接收和抽取数据,以保证实验数据在上传至云的过程中会被格式化成标准格式。
  Data Flow项目:牛津大学的Data Flow项目,旨在创建免费的云托管Data Stage和Data Bank,以便于管理、保存、发布研究数据。其中,Data Stage以在用户电脑上运行映射驱动器的方式,提供研究组水平的、安全的"本地"文件管理环境。另外,Data Stage还提供数据的网络获取和在线存储服务,用户通过访问控制程序的认证之后,即可以访问私人、共享、协作、公众和公共数据目录。Data Bank是一种虚拟化的、基于云部署的机构研究数据仓储。机构可以选择将Data Bank部署在Eduserv教育云或者机构自己的基础设施中。Data Bank还具备包括数据抽取、储存、长期保存、访问在内的一系列数据监护功能。
  Kindura项目:伦敦国王学院的Kindura项目,是一个基于混合云部署模型的科学数据管理试点项目,提供基于存储的数据管理服务和基于计算的数据处理服务。Kindura项目通过DuraSpace推出的托管云服务一DuraCloud,将本地服务与各种云服务相衔接。用户利用DuraCloud提供的统一界面,即可享受一站式数据存取服务。Kindura项目通过部署于服务器上的规则引擎,以及面向规则的集成数据管理系统(iRODS)的规则库,决定具体数据存储在本地还是存储于云端:二进制对象存储在云端,元数据和Fedora对象存储在本地。l9Kindura项目证明,混合云能够有效节省数据监护成本,并且能够更加高效地利用本地存储库,提升数据处理能力。
  东南大学AMS-02项目:东南大学为大型国际合作项目AMS-02的数据监护工作构建的云计算平台,提供IaaS、PaaS、SaaS服务。该云计算平台架构如图3所示。在IaaS层,云计算基础设施由3500颗CPU内核和500TB高速存储设备构成,提供虚拟机和物理机的按需分配,并且自动配置操作系统、科学计算函数库等运行环境。在PaaS层,数据分析处理平台提供大规模计算能力和海量数据存储能力;应用开发环境为AMS-02数据分析处理应用提供编程接口。在SaaS层,以服务的形式部署云计算应用程序,用户通过访问AMS-02应用,可以获取原始科学数据以及数据处理分析结果。云计算通过超级计算模式,整合大量的存储、计算、带宽等资源,为数据监护提供了经济高效的解决方案。国内的数据监护尚处于起步阶段,对基于云计算的数据监护进行深入的理论探讨和实践探索,有助于推动我国的数据监护实现跨越式发展。

陕西高校英语语言学课堂教学现状调查陕西高校英语语言学课堂教学现状调查英语语言学是英语专业本科必修的专业知识课程,如何有效地提高英语语言学课堂教学效率,已成为大家关注的焦点和热点。为了全httpWWw。LWlM。cO新形势下陕西省体育与健康产业发展战略研究摘要陕西省体育与健康产业在不断发展,为当地经济带来一定的效益,随着生活水平的不断提高,人们的体育健身意识逐渐加强。为了促进体育与健康产业的可持续发展,分析陕西省体育与健康产业发展过内蒙古自治区中小学教师参与体育活动的现状摘要采用问卷调查的方法对内蒙古自治区部分中小学教师参与体育活动的现状进行调查,结果显示,中小学教师承受着来自各方面的压力较大,在参加体育活动方面,具有明显的年龄特征。参与体育活动的普世语言王朝语言与民族语言普世语言王朝语言与民族语言关键词近代欧洲普世语言王朝语言民族语言政治化权威模式世界上现存的语言约有6000种。就欧洲而言,目前那里大约有六十余种语言。有的欧洲语言学家慨叹,就语言资创造良好语言环境,发展幼儿语言交往能力创造良好语言环境,发展幼儿语言交往能力语言是发展智力思维能力社会交往能力的基础,而幼儿时期则是培养语言能力的最佳时期。因此,提高幼儿的语言表达能力是幼儿园教育工作者的一项艰巨的任务试述国内语言学研究中对索绪尔语言观的一些阐释试述国内语言学研究中对索绪尔语言观的一些阐释摘要作为现代语言学之父,索绪尔的语言观对中国当代的语言学研究有着深远影响。可以说,现代语言学理论的方方面面都渗透着索绪尔的思想,国内学者笑的语言学研究综述笑的语言学研究综述摘要笑是人类与生俱来的本领。对笑的研究由来已久,本文重点从跨文化交际幽默理论会话分析三个语言学方向陈述对笑所作的研究状况。跨文化中的笑传达文化的讯息西方三大传统幽用韩语网上聊天对高职高专学生学习韩语的帮助用韩语网上聊天对高职高专学生学习韩语的帮助摘要本文分析了制约高职高专学生韩语口语提高的因素,提出网络韩语聊天是提高学生韩语口语水平的有效途径,同时也指出了它的一些弊端。关键词网络韩论高校韩语教学的创新论高校韩语教学的创新伴随着市场经济的飞速发展和世界经济一体化趋势的日渐加强,我国经济结构发生了巨大的变化,就业市场随之受到严重的影响。小语种专业逐渐发展成为外语学习中最为热门的专业语言艺术性在小学语文课堂语言教学中的体现语言艺术性在小学语文课堂语言教学中的体现语言是一门艺术,尤其是语文课堂语言。既然是艺术就应该让学生在课堂学习中享受课堂语言,从而达到在艺术中轻松学习的效果。课堂语言的艺术化会使学生鉴赏语言amp183悟觉语言amp183内化语言鉴赏语言middot悟觉语言middot内化语言语文课教什么?语文课学什么?这些事关语文(或语文教学)根本的问题,早就由前辈语文专家给出答案。答案简洁洗练如真理,四字而已mdash
大学生创业路径的探讨论文摘要随着每年高校毕业生的不断增多,大学生就业难问题越来越严重,各高校毕业生正面临着此问题。本文对此问题进行分析,以期加强校园文化建设提高国家资金支持注重实践综合练习培育学生创新思维论文一种电站故障诊断方法摘要由于电站控制系统较为复杂自动化程度和集成度高,造成电站故障时现场维护人员不能及时修复,需要依赖公司技术人员前往解决,导致故障修复时间长,严重影响用电设备正常工作。针对此问题设计汽车故障诊断相关论文一高速公路爆胎原因分析与对策汽车在高速公路上高速连续行驶,若接近或超过了轮胎的工作极限就可能发生爆胎事故,这类突发性事故对车辆和乘员的安全危去极大。从现有统计资料来看,汽车在高速公变压器故障诊断技术研究论文摘要变压器在电力系统中发挥着非常重要的作用,而在变压器长期的运行过程中,容易受到多种因素的影响导致发生各种运行故障,严重影响了电力系统的安全性和稳定性,因此必须高度重视变压器的故障对油浸式变压器故障诊断的研究论文对油浸式变压器故障诊断的研究摘要变压器是电力系统中的中的重要设备,它的正常运行对电力系统起着至关重要的作用。针对变压器的故障诊断方法,主要有传统比值法以及各种智能诊断方法。针对传统基于案例推理的装甲装备故障诊断方法研究论文0引言基于案例推理技术摆脱了知识瓶颈的束缚,在很多领域得到了广泛应用,如航空远程故障诊断民用飞机维修间隔期确定智能化农业和教学指导等。但目前的研究大部分集中在案例检索方面,如高明通烟草良繁田绿肥种植技术论文摘要施加化肥能快速促进作物的生长,但是在增加成本的同时还会对环境造成影响,因而绿肥逐渐在作物种植中兴起。基于此,本研究介绍绿肥的作用分类以及种植烟草时如何选择绿肥,最后介绍烟草种植高中地理教学现状探析论文一高中地理教学应当始终洋溢浓厚情感情感是推动教学开展最直接最有效最明显的内在促进因素。对于高中地理教学这一难度较大的工作而言,让学生保持强烈的情感可以使教学工作事半功倍,从而有利于高校行政管理人员绩效评估探讨论文摘要高等学校的主要任务是培养具有创新精神和实践能力的人才,发展科学技术文化,促进社会主义现代化建设。随着社会经济的发展,建立中国特色的现代大学制度是摆在政府和高等学校管理者面前的难普通高校信息管理与信息系统专业人才培养模式探究论文摘要普通高校信息管理与信息系统专业人才培养模式定位,始终是我国各类普通高校较为困惑的一个问题,学科的复杂性前瞻性,导致目前普通高校办此专业在培养目标制定课程体系设置上的混乱,使培养信息化教学与高职英语教学模式论文摘要针对信息化教学环境下高职英语教学模式探索,首先从信息化环境下高职英语教学现状入手,然后阐述了信息化教学环境下高职英语教学的主旨,其次对在信息化教学模式下高职英语教学模式的改革,