首页 > 实用范文 > 其他范文
云计算环境下的分布存储技术研究论文[大全]
编辑:柔情似水 识别码:130-973472 其他范文 发布时间: 2024-04-24 09:08:21 来源:网络

第一篇:云计算环境下的分布存储技术研究论文[大全]

摘要:云计算是一种全新的计算模式,其在科学计算以及商业计算领域发挥的作用不可估量,当前在学术界以及企业界等都受到了非常广泛的关注。云计算环境下的分布存储技术?整体而言,它研究的主要内容是在数据中心上对于数据的相关管理和组织,是云计算环境的核心内容和最基础设施。通常来说,数据中心是由上百万级别的节点综合组成的,因此这也就自然造成了数据失效的经常发生,这就对云计算的推广和应用造成了向大限度的限制,基于上述一些层面,对于云计算环境下的分布存储技术进行研究意义重大。

关键词:云计算;分布存储技术;数据

随着信息技术的飞速发展,社会和科学也已不可估量的速度飞速行进着,与此同时,在各行各业中不断推进和广泛应用的信息化向信息技术发出了更新一轮的巨大挑战,对信息技术向前发展起到了促进作用。云计算随着存储、通信技术以及计算等的发展而出现并得以广泛应用,使得用户能够更便捷、适时地访问云服务提供商提供的信息资源,整体来说,云计算同时具备着高可靠性、虚拟化、超大规模、价格低廉等特性,极大程度上满足了海量数据存储要求。在这一环境下的分布存储技术作为云计算的基础,虽然功能强大,然而从当前形势看来,它面临着巨大的挑战,因此需要不断地做出分析和研究。

1云计算技术

云计算是一种为了能够更好地满足相当数量的数据信息的计算以及存储等相关服务,同时跟随当下形势呈现出非常流行趋势的通信技术而产生的新型的、能够为各行各业进行分享基本数据资源的一种计算模型。云计算服务提供商基本上是不参与相关流程的,云计算机能够保证用户实现随时、便捷且放百度呢存储服务、访问网络服务、计算服务等一系列资源。源头上看来,云计算服务提供商是将庞大的数据节点以及相关网络设备进行科学有效的有机结合,继而就可以形成一个或者是一些具与一定规模的数据中心,进而由这一数据中心向有所需的用户提供到他们需要的服务,最大程度上满足了用户的使用要求。

关于云计算这一方面做出的相关研究表明,云计算具有最为显著的属性包括高稳定性、可扩展性以及规模超大灯,因此就可以在相应的环境下很好地实现庞大数据信息的存储操作,存储的位置多为不同数据中心的不同节点之上,即存储在这些节点之上的数据信息都是透明的、共享的,因此一旦用户有哪一方面的需求,只需通过云计算服务提供商提供出的数据访问接口就可以满足自己需求,获取到其中心内部存储的数据信息。然而当前看来,基于云计算环境的分布存储技术显然也是遇到了一些巨大的挑战,云计算数据中心的数据量、数据信息的规模是非常可观的,无疑会为数据中心的相关有效成本费用、容错性以及可扩展性等方面带来挑战,需要我们不断地做出分析研究。

2云计算环境下的分布存储技术

2.1可扩展性研究

经济发展迅速的今天,在各行各业都会应用到数据信息处理技术以及计算机技术、通信技术等对相关数据做出一定的有效处理,当下看来,海量信息显然单靠计算机无法满足其处理操作,类似存储、计算等,这一背景下,基于云计算环境的分布存储技术研究应运而生,首先研究其可扩展性。研究之前先分析传统的数据存储计算,其通过冗余的磁盘实现相关要求,那种采取与流行时进行提高数据存储可扩展性的方式虽然确实实用了一定时间,它在一定程度上实现满足了数据的存储空间,只是基于云计算之中的庞大的海量的数据节点,其存储的数据规模以及相关数据中心的规模仍然处在不断扩大的趋势之上,不断增长的需求存储容量显然不能由磁盘预留方式来实现了。因此,云计算环境下的分布存储技术又到达了一个致高点。云服务提供商的数据中心不可能采取冗余磁盘预留的方式来扩展存储空间,并且它也不可能在建立之初将所有的操作都完完全全规划好,譬如说谷歌当前看来,已经在全球的数据中心就有36个,并且每一个数据中西所包含的计算机节点达到了数百万个;再譬如微软的数据中心,对外宣称其将会在全球建设多余二十个数据中心,同时在九月份已经在芝加哥形成了全球最大的模块化数据中心,其中包含了二百二十多个集装箱,同时每一个集装箱中机器数都在两千作用,其服务器还会以十四个月为周期进行成倍增长,赶超摩尔定律增长速度,因此,基于数据中心的网络可扩展性进行研究意义十分重大,以期能够适应当下不断增长、扩展的应用需求。

2.2容错性研究

云计算提供商仅仅依靠传统的提高容错性的方法进行操作显然满足不了当下的需求,这是因为传统的容错性提高办法是经由高性能的服务器、RAID技术或者是专用的存储设备来进行相关操作,完成这一内容的成本十分高昂,根本无法满足现今云计算提供商的要求,除上述之外云计算之中庞大的节点以及数据规模注定了极高的失效概率。在云计算这一大环境下,操作失效非常常见。譬如在谷歌公司中,就曾在零六年做出过一份报告,即在云计算环境的分布存储技术的数据中心内部,平均每一个MapReduce作业的运行过程之中就包含了五个失效的节点;每一个拥有着四千个节点金星运行的MapReduce作业的相关数据中心中,几乎平均六个小时中就有一个小时的磁盘失效时间,这无疑会给云服务的提供商和资源应用者带来不同程度的麻烦和损失。除了上述之外,还有很多情形下会造成失效的结果。总而言之,云计算环境下分布存储的频频失效必将带来不同程度上的损失,其程度不可估量,因此当下而言,容错成为云计算环境之下分布存储所面临的一项巨大挑战,同时其亟待解决。关于云计算环境下的分布存储,想要更为彻底有效科学的提高其容错性,单研究节点之间的相互关联关系,以提高在屋里拓扑结构上的容错性是远远不够的,与此同时,必须同时研究在节点上存储着的数据的相关组织和管理操作,以提高数据容错性,达到最终目的。

2.3成本控制方面

云计算环境下的数据存储技术之所以需要在成本控制方面做出一定的研究,是因为传统的分布存储所需要管理组织的节点和数据的规模都非常显,能耗相对也自然比较小,同时于企业而言,低消耗下他们是愿意通过成本输入来交换可靠性能以及效率的。然而,在云计算环境下的分布存储,其能耗是非常大的,同时为了使设备处在正常运转的状态之下,能耗还要增加很大一部分。在24*7的运行模式下,在数据中心的存储开销中非常重要的一个组成部分就是能耗。曾有研究人员作出相关研究发现,基本上每一台服务器四年的能耗与其相关硬件的成本不相上下,而且一旦能耗有所降低,在很大程度上还可以提高磁盘等一些硬件设备的运行寿命,这些都会大幅缩减整个数据中心的成本,因此就可以说,当下云计算环境下的分布存储面临的又一大挑战就是如何降低能耗进而降低成本,相继会产生的优良效果就是能源得到节约,环境得到保护。总而言之,云计算环境下的分布存储需要研究的重大内容即尽可能多角度的对设备的制冷消耗进行研究,从而期望在更大程度上降低云计算的成本费用。

3数据中心网络构件技术

3.1以服务器为中心

之所以会研究到数据中心网络构件技术,是因为数据中心是使得云计算得以正常运行的基础所在,通常来说,它主要的包括着两个部分,分别是软件和硬件,软件即数据中心提供出服务时所应用到的软件;硬件即数据中心的相关计算机设备以及支撑系统的一些基础设施。以服务器为中心的结构,主要即是在每一个数据中心的相关服务中都会安装网卡,且数量较大,然后运用网线把网卡和服务器进行连接,继而成为一个完整的网络整体,这样做的目的之一是增大数据中心的存储功能。以服务器为中心的结构在结构的组成以及线路的连接两个方面都比较简单,从而达到确保网络底层与服务器之间的有效数据交互,当前看来还有功能更甚强大的路由算法,然而这一结构自身也存在着一定的不足,即由于数据信息会占据相当大的服务器计算资源,就会导致存在一些链路无法实现功能,继而使得服务器的数据压力更大,服务器的计算速率自然受到一定程度的影响,成本的费用以及功能的损失两方面来说都产生了一定的消极影响。

3.2以交换机为中心

以交换机为中心的网络构件结构其实最主要就是对于交换机的应用,交换机将每一个服务器的数据中心有效地连接,再通过交换机进行数据包转发,当然,云计算环境下的分布存储,相关的服务器负责的功能有所不同,其只是对于数据信息的存储以及处理负责。通常以交换机为中心的网络构件被交换机分成了三层,最为主要的分别是核心层、边缘层以及聚合层。云计算环境下的数据中心中,经由交换机作为中心的网络构件结构具有的优点有操作简便,稳定高效,同时还可以通过交换机的应用实现一些扩展功能,然而,这一结构也存在着一些难以避免的缺陷,比如由于交换机的使用,导致整个数据中心的操作具有不够良好的灵活性、较低的服务器利用效率以及交换机资源的浪费等,通常而言,这一结构在传统的数据中心网络构件中应用较多。

3.3混合模式

混合模式顾名思义就是将上述两种数据中心网络结构进行有机的结合,进而形成一种功能上更加强大,实现互补的新型结构。在混合模式的结构中,主要是将交换机作为将服务器进行连接的节点,同时配合安装在服务器中的多个网卡,除此之外,混合模式的网络结构中实现了特定场景下的网络结构,它综合上述两种结构的优势,因此比其更加的灵活自由,同等性能的条件下,对于数据中心的成本而言有一定的降低功能。

4结束语

总而言之,云计算中庞大的数据节点以及相关的网络设备进行有效的有机结合,进而就形成了一个或者是一些较为大规模的数据中心点,从而达到向用户提供一些基本性质的服务,使得客户的使用需求得到满足。总而言之,云计算环境下的分布存储技术使得庞大的数据信息得以存储,存储位置即为数据中心内部中的众多节点中的不同节点之上,更为甚者会存储到在不同数据中心的不同节点上。整体来说,基于云计算环境的分布存储技术它所研究的主要内容即上述内容,如何实现有效地组织和管理在数据中心中进行存储的大量数据信息。

参考文献:

[1]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,202_(09):56-57.[2]张莉.浅谈云计算技术国内发展现状[J].计算机光盘软件与应用,202_(23):78-79.

第二篇:云计算环境下的网络技术研究

云计算环境下的网络技术研究

摘要:随着互联网的普及应用,使得人们生活内容更加丰富多彩,并且从根本上改变了人们传统的生活习惯,网络已经成为日常生活中不可或缺的组成部分。特别是在云计算环境下,网络技术在国民经济发展、社会进步中所发挥的作用更是与日俱增。如何更好的把握时代脉搏,创新研发符合世界经济发展规律的网络技术成为当前研究领域重要课题之一。为此,本文将针对当前云计算环境下网络新挑战作为切入点,深入分析并探寻未来网络技术发展方向,以丰富现有研究成果,推动相关研究进一步发展。

关键词:云计算;网络技术;国民经济;社会进步;时代脉搏

前言:网络技术的发展可以说是日新月异,自从上个世纪40年代中期计算机诞生以来,网络逐步成为日常生活中的重要娱乐方式。云计算通过虚拟化技术、分布式计算等方式将网络信息资源整合,形成一个资源池,动态的将网络资源分配给具有使用需求的用户,继而创造良好的社会效益及经济效益的一种服务模式,并且随着世界经济一体化趋势不断发展,网络资源在各国竞争中发挥的作用愈加明显。因此,如何应用更新、更具前瞻性的网络技术来抢占市场先机,壮大本国相关产业成为一个不容忽视的问题。1 云计算环境下网络技术面临的新挑战解析 1.1海量数据信息对宽带及延迟提出更高要求

随着互联网的普及应用,网络经济正以飞速发展,人们每天都可以从中感受出网络技术的变化。特别是在云计算环境下,个人信息、企业及政府职能部门敏感数据通过云存储技术进行保存已经成为网络技术发展的主流趋势。然而,由于网络的触角已经延伸至社会经济生产生活的方方面面,每天互联网中都会生成海量的数据信息,并通过网络传输方式上传至云端进行存储。在此过程中,受到网络延迟以及宽带带宽的影响,敏感数据容易发生丢失或者损害,造成用户无法正常使用,并且相关数据恢复难度较大,造成了一定的不利影响。因此,云计算环境下,海量数据面前,网络延迟以及宽带带宽问题已经成为限制网络技术发展的重要因素,由此产生的数据安全数据存储问题亟待解决。1.2二层网络亟待建立

众所周知,由于采用虚拟机动态迁移技术能够使得数据中心的操作具有更大的灵活性及快捷性,大幅提升其工作效率而被广泛认可及接受,成为当前网络技术中应用范围较广的一种应用技术。然而,当前采用的虚拟机动态迁移技术无法改变虚拟机的IP地址、MAC地址,带来的最明显问题即在于当虚拟机发生迁移之后,虚拟机自身原有网络配置将与新环境无法适应,正常通信得不到有效保障,因而最终酿成业务连续性受到影响的不利结果。因而,云计算环境下要想实现跨域场情境下的虚拟机实时运转,就需要将所有发生动态迁移的虚拟机纳入到一个统一的二层网络中,以满足用户的上网需求。而二层网络的建立在目前尚未展开,进一步降低了云计算环境下网络技术所带来的便利性。2 云计算环境下网络技术研究方向

针对云计算环境下网络技术面临的挑战,本文在综合总结了国内外关于该领域及该可以的研究成果后,总结出了如下几方面网络技术研发应用方向,以供相关研究借鉴参考。2.1接入技术

接入技术被业界形象的称之为“最后一公里”技术,意指本地网络运营商与用户之间的一段连接[1]。当前应用前景比较明朗的接入技术如下:

2.1.1ADSL ADSL又被称作为非对称数字用户线,是DSL家族系列中应用范围最广的一种,除了ADSL外,其他DSL接入技术包括:HDSL、VDSL、IDSL等。ADSL主要是利用现有的电话双绞线作为网络传输的介质,具有成本低廉等优势,经过不断丰富及完善,当前ADSL传输峰值已经达到了115Kbps,完全能够满足企事业单位、政府职能部门、个人用户的使用需求。并且ADSL的非对称性与终端用户的网络访问特点具有较为明显的一致性:个人用户多数应用都是以客户方式从网上去获取数据,如WWW、FTP,只在个别时候才向网络大量发送数据,如发送附带多媒体信息的电子邮件,因此下行数据量大、上行数据量小。随着固定电话走入千家万户,ADSL的应用前景将会更加明显,其技术改进方向也集中于提高网络数据传输速率及稳定性等方面。

2.1.2线缆调制解调器 线缆调制解调器的客户群体主要集中于家庭用户,是在当前电缆基础上将分配网络的主干部分改为光缆通信,继而在各个节点位置实现光电转化,再经由通州电缆将网络信号传输至用户家里。线缆调制解调器可以广泛应用于Internet访问、电视节目点播、数据电话等拓展业务,其市场应用前景极其广阔。当前现有技术条件下Internet访问的最高峰值可以达到30Mbps,而上行速率可到到2M左右。尽管线缆调制解调器是一个共享网络,随着用户的增加、宽带及节点数量的激增而会产生网络延迟现象,但是其较高的带宽在目前尚可以满足用户使用需求,其所享受的宽带资源仍然是所有接入技术中最高的网络数据传输方式。

2.1.3无线接入技术(WLAN)

无线接入技术是近些年来随着网络通信技术快速发展而形成的一种新型数据传输、通讯方式。相较于ADSL、线缆调制解调器,无线接入技术是通过无限介质将用户与网络节点相连接,以实现用户与网络间无障碍数据惜惜传递的目的,其需要遵循一定的网络协议,并且该协议内容也成为无线接入技术的核心及关键内容[2]。其最明显的特征即为可以向用户提供实时的移动接入业务,不管用户是在闹市区还是乡村郊外,随时可以将自身感触、心得体会上传至网络空间,网络共享具有极大的便利性,因而该技术成为当下网络技术研究中的重要领域及方向,是今后网络业务开展的重要保障之一。2.2IPv6技术

虚拟机动态迁移技术不能改变IP地址、MAC地址的问题已经困扰人们多时,该问题的存在使得移动网络技术应用受到很大程度影响,加剧了网络服务商与用户之间的对立形势。IPv6技术的出现几乎完美的解决地址不能及时变更的问题,使得网络连接更加快捷。当前IPv6技术为用户提供了128位的IP地址,使得地址数量得到大幅提升,有效的解决了IP地址资源危机。并且其所使用的“可聚集全球统一计算地址”构造与当前网络拓扑结构较为一致,使得线缆调制解调器能够最大化发挥功用[3]。但是当前IPv6技术的应用尚无法广泛推广,主要原因在于其升级存在诸多困难。因此,IPv6技术今后研究的重点方向即为构建以下三种机制:兼容IPv4的IPv6地址、双IP协议栈和基于IPv4隧道的IPv6。结论:综上所述,云计算环境下网络技术研究领域在当前乃至今后一段时期内主要集中于网络数据传输技术及动态地址分配技术两个方面。本文中所分析的网络技术研究内容比较切合实际应用需求,对研究工作能够起到一定的指导作用,希望通过本文能够促使网络技术研究迈上一个更高的发展阶段。参考文献:

[1]周志勇.云计算环境下网络信息安全技术发展研究[J].中国高新技术企业,202_,12(25):40-41.[2]宋焱宏.云计算环境下的网络安全技术[J].网络安全技术与应用,202_,25(08):178-179.[3]王丽敏.云计算环境下的网络信息资源管理[J].信息与电脑(理论版),202_,33(10):92-93.

第三篇:云计算环境下大规模数据处理技术研究论文

随着计算机技术和互联网技术的发展和应用,网络信息和数据量正在高速增长。传统的并行计算、分布计算等方式由于各种限制,往往都难以满足实际的计算要求。基于此,采用基于云计算环境下的大规模数据处理技术,能够有效的打破这些限制,从而实现更加高效、快速的数据计算。

1云计算环境下大数据处理模式

1.1大规模廉价计算平台

利用虛拟化技术,能够实现大规模廉价计算平台,将存储、应用程序、网络、计算等资源作为虛拟化实体。对闲散的计算资源进行抽象,使之形成相互之间完全独立的虛拟服务器实例,从而独立的完成数据处理和计算。通过这种方式,就能够实现底层硬件的虛拟化。构建可扩展计算节点资源池,并在其中实现集成管理虛拟计算流程和计算节点。这样,大规模数据子处理任务就能够完成实时迁移、资源转换、系统监控和任务部署。

建设大规模计算平台的过程,也是云计算环境下大规模数据处理的一个重要步骤。具体来说,首先要对数据处理需要的资源进行参数化的配置,根据相应的要求进行定制。通过这一过程,用户能够获取自己需要的资源。在不同的操作模式下为用户提供参数服务。在设置参数完成定制之后,以此为基础,在大规模数据处理的时候,部署存储和计算资源,设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后,以此对计算流程进行分配,从而在计算节点中启动相关的资源,并且管理和部署计算节点的定制处理服务。

部署工具通过网络连接到目标计算节点和计算流程,然后执行大规模数据处理方案。然后根据相应的方案,通过代码对存储和计算资源进行分配和执行。将部署在计算节点进行进行启动,利用网络在各个计算节点发送数据处理命令,从而完成调度和部署计算流程的工作。

1.2Map Reduce技术的支持

采用Map Reduce分布式和并行式编程模型,从而在模型内部对任务容错处理、计算节点负载均衡、空间局部性优化、并行任务调度等方加以实现。在Map Reduce的开发过程中,只需对Map、Reduce两个接口进行定义,通过计算机集群,对用户编写程序进行运行,拆分大规模数据集合,使之形成若干数据片段,从而得到一系列键值对[4]。然后向一个Map任务中分配一个数据片段,在Map Reduce框架下,向大规模计算集群中的节点进行子任务的分配。最后,结合得到的键值对进行计算,生成键值对集合,向Reduce当中进行输出。

Reduce当中每一个Reduce任务,都会向二元组集合当中进行分配,输入集合片段,运行Reduce函数,输出二元组键值对。如果数据处理任务失败,也能够自动重新进行计算。在大规模数据处理当中,是高度并行操作Map的,这一步骤对于大规模数据的高效处理来说,具有不可忽视的意义。基于云计算环境下,对规模数据信息大都能够达到TB级别或GB级别。在长时间处理大规模数据的时候,如果发生数据处理任务失败的情况,能够防止发生计算任务重新执行的情况。由于数据块是被复制的,因此在容错性方面,还会关系到负载均衡的情况。

2云计算环境下大数据处理的框架模型

在大规模数据资源和计算资源当中,对云计算技术、计算机网络技术进行引入,建立大规模数据处理框架模型。主要包含了两级结构,其一是虛拟资源体系、大规模廉价计算机集群,其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。利用限制的计算机资源,对虛拟资源层和物理设备进行构建,从而形成最底层的物理资源,形成同构的数据处理资源池或接近于同构的数据处理资源池。在第二级结构当中,最为重要的就是软件体系,能够为大规模数据处理提供服务。采用Hadoop核心技术,对数据处理接口进行编写。通过这种方式,在不同的学科和领域当中,能够提供相应的大规模数据处理服务,从而使用户能够享有良好的计算平台软件支持。

在这一框架的设计与实现当中,对Hadoop分布式开源计算机框架进行了应用,对其中的HDFS分布式文件系统,以及Map Reduce进行应用,从而对大规模数据处理业务进行处理和协调。在计算节点当中,对放置在Map Reduce任务进行映射,对大规模数据进行划分,使之形成若干子块,并对数据块的数量、规格等参数加以掌握。通过HDFS功能,可以在每一个计算节点当中,对数据块副块进行智能的放置,同时针对各个节点,对具体的角色进行设计。在大规模数据处理的过程当中,需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中,为了对Map Reduce进行运行,提供了一个API进行支持。

3结论

在当前信息化的时代背景当中,计算机和网络的广泛应用,使得各个领域中的数据量和信息量与日倶增。而对于这些海量的大规模数据来说,利用传统的数据处理方式,往往难以取得十分理想的处理效果。基于此,可在云计算环境下,开发和利用相应的大规模数据处理技术,以此来支持社会各个领域当中的大规模数据处理需要,从而数字化的时代当中,始终保持较高的工作效率和良好的工作效果。

第四篇:云计算环境下网络技术研究论文

引言

云计算是一种比较全面的互联网计算模型,其主要作用是灵活自如地调用每一种IT技能。伴随着大数据时代的到来,云计算作为一种新兴的技术,对提升、优化大数据及信息的处理有着巨大的作用,云计算环境下的网络技术发展又向前迈进一大步。

1云计算技术的研究

云计算的计算方式是利用互联网,在各种网络技术(如计算机、网络、通信技术)的综合应用下实现的。云计算获得数据及信息的方法主要是利用与互联网相连接的硬件设备。“云”是对网络的一种形象表达,多的意思。网络技术的发展也推进着云计算技术的发展,被越来越多的人熟知和应用。云计算主要是建立一种随时变化的信息源数据库,主要是通过分布计算与虚拟化的手段,将许多相对分散的信息数据聚集而形成[1]。云计算形成的信息源数据库是随着自身所使用的网络资源不断变化的。云计算中转嫁硬件设备的方法为企业极大地节约了经济成本,同时也节约了人力成本。客户与任务之间主要靠互联网联系在一起,这是信息技术发展的趋势,云计算则适应了这一趋势。

2云计算网络技术体系框架

信息处理硬件负责云计算的主要工作,云计算市场呈现一种蓬勃发展的态势,促使着处理硬件需求量的增加。互联网信息处理的规模化、模拟化都受到信息处理硬件发展的影响。信息处理平台基于横向和纵向的两种交流实现,在以前的处理平台中主要采用纵向交流,随着大数据时代的发展,横向数据交流量不断增加,云计算网络的体系骨架进一步完善。云计算网络骨架(从工作任务到最终的客户)一般可以分为四种:

(1)在虚拟机之间的网络交互;

(2)服务器之间的网络交互;

(3)数据中心之间的网络交互;

(4)用户与数据信息中心之间的网络交互。其中发生在数据信息中心内部的是服务器、虚拟机之间的两种网络交互方式。网络交互是发生在虚拟机之间的,主要是在虚拟交换机中进行。网络交互发生在服务器之间的,利用交换机进行交互,在服务器中通过纵向和横向两种流量交互实现。网络交互发生在数据中心之间的,可分情况对待:同城时,可选用城域网解决;不同城时,可选用骨干网解决。数据中心可能因数据量的增多而不能及时完成操作,需要增设数据中心进行操作,由此出现二层网络的搭架。网络交互发生在用户与数据信息中心的,主要通过城域网完成交互。现实生活中,升级的业务、剧增的信息数据、流量增大的用户与信息数据中心之间,都促使着更大型、更智能的网络宽带的出现,从而更好地进行数据信息的传输。多个数据信息中心的出现也为我们带来了新的问题,例如:如何快速地进行数据信息中心的转换。

3云环境下的网络新技术

3.1虚拟机本地互访网络

目前状况下,对同一台服务器内部虚拟机之间的交互连接使用虚拟交换机就可以完成。虚拟机一般单靠软件实现网络互联,不需要硬件设施的运行[2]。虽然这种网络交互发生在虚拟机之间,其互访简单易行,但存在不少隐患:(1)虚拟机之间的流量得不到有效的监控,传统的系统已不能适应现有的云计算;

(2)当虚拟机通过虚拟机的流量增大时,服务器信息数据中心的负担加大,会影响虚拟机的性能。针对以上两个问题,现已有了解决的方案。IEEE的802.1QgbEdgeVirtualBridging和IEEE的802.1BrBridgePortExtension,就是针对这两个问题提出来的。两者方案各有优劣,802.1Br需要硬件的支持,802.1Qgb需要修改交换机的驱动。在具体应用中选择哪一种方案,还需要进一步的实践检验。

3.2数据中心二层互访网络

当前,数据中心普遍采用的是树状三层网络架构,分别为接入层、汇聚层以及核心层。出现两个服务器位于树状结构的不同分支时,就需借助核心层来实现运行,但在这期间耗费了大量的时间,云环境下对横向流量增加的性能需求已完全不能得到满足。若采用增设防火墙的方式,相当于在整个计算过程中增加了一个VLAN,但虚拟机也会因超出VLAN的范畴导致运行出现问题。解决方式是减缩树状结构(三层变两层,删除汇聚层)。对数据中心的影响是结构实现扁平化,服务器能力得到强化,从而实现虚拟机的正常运行[3]。数据中心的结构扁平化的过程中也会出现一系列的问题。多台通过虚拟化技术虚拟出的服务器,增加了数据信息中心的网络规模。传统的方法通过树状协议绕路解决,很明显这种方法已不适用现有的需求。控制平面和数据的平面虚拟化技术产生,解决了这个难题,同时对宽带的利用强化。

3.3数据中心跨站点二层互访网络

大数据时代到来后,随着互联网技术及其应用的发展,如何保证数据信息的安全成为信息时代的主题。传统方法在解决这个问题时,选择对数据扩容以及备份,但备份的内容牵扯到数据信息中心时,就需要对数据信息中心进行备份操作。在云计算的环境下,需要构建跨数据中心的的二层互访网络(即进行分布式计算机以及对虚拟机跨点迁移),在目前看来,实现数据中心直连的状况很少,主要还是选择二层互联(通过在IP网上打隧实现)的方式。最新的技术仍为个人私有,传输过程中实现数据信息中心相互独立,确保IP互联的永续性[4]。

3.4用户接入网络

在云计算环境下,数据中心二层互访网络的构建使得用户在接入网络时会遇到以下情况:

(1)多站式的分布计算,让用户在选择数据信息中心时产生困惑;

(2)如何快速在业务虚拟机与数据中心之间切换、迁移。在实际具体操作中,用户大多会选择DNS技术,对新技术LISP使用率较低。DNS技术主要是分散IP地址,用户与数据信息中心的交联就是通过分散出来的IP实现的。我们可以假设一个条件:虚拟机跨数据中心转移,IP地址保持不变。在这种情况下,NAT设备就可以发挥作用,它可让IP地址转化为多个虚拟IP以便用户切换。

3.5SND技术

SND是与当前网络技术发展相适应的技术,主要用于控制和分离的分离。传统技术中主要通过拆分控制层实现三层架构。SDN作为最新的网络技术受到广泛的欢迎,当前数据中心的网络互联就是靠它来实现,整合信息资源,从而使得网络虚拟化以及虚拟机之间的迁移实现[5]。

4云计算网络发展的展望

在云计算环境下,对网络技术的发展提出更高的要求。一种网络技术的需求可能会出现多种解决办法,因此在实际应用中,需要根据实际情况实际分析。目前国外通过数据中心间的光纤直连,来解决数据中心之间的数据互联剧增的问题,这对中国来说有着相当大的借鉴意义。通过多种技术而实现不同设备之间的数据共连是网络技术发展的新方向。

5结束语

社会的发展催促着网络技术的更新换代,传统技术在新形势下逐步暴露出自身的不足。云计算环境下,需要更高层次的网络技术做支撑,以满足社会发展对网络更新换代提出的要求。新的网络技术层出不穷,如上文中提到的SND技术、虚拟网络技术等等,以适应新的社会需求。但是要注意新的网络技术并不成熟,还要进一步投入研究。随着社会以及网络技术的不断发展,基于云环境下的网络技术定会有新的突破,以服务于现代化建设。

第五篇:云计算中MapReduce技术研究

云计算中MapReduce技术研究

孙香花

(长江师范学院数学与计算机学院,重庆,408100)

摘要: MapReduce是云计算的核心技术之一,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。

关键词:MapReduce技术;云计算应用;云计算;并行计算;

MapReduce technology of cloud computing

SHUN Xiang-hua(1、College of Mathematics and Computer Science,Yangtze Normal university, Chongqing,,410081)

Abstract: MapReduce is one of the core technology of cloud computing, which is parallel data processing system provides a simple, elegant solution.Its main purpose is to a large cluster of systems in large data sets in parallel, and parallel computing for large-scale data.This paper focus on the cloud of MapReduce technologies.MapReduce first introduced the relevant knowledge, the current research situation of MapReduce are introduced and Analysis;MapReduce model put forward the current research issues;Finally, the summary text and the future trends.Key words: MapReduce technology;cloud computing applications;cloud computing;parallel computing;

1、引言

随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了互联网数据处理能力的相对不足。由于待处理数据越来越多,多到了很难在一台或有限数目的存储服务器内容纳,且更无法由一台或数目有限的计算服务器就能处理这样的海量数据。因此,如何实现资源和计算能力的分布式共享以及如何应对当前互联网数据量高速增长的势头,是目前互联网界亟待解决的问题。正是在这样一个发展背景下,云计算应运而生[1]。

云计算是由并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)发展而来[2,3]。云计算的核心技术之一是MapReduce,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算[4-6]。

近几年来由于数据的大量增长,Mapreduce受到了较多的关注,获得了较大的发展,但还没有形成成熟的、系统化的理论体系[7]。目前国内外进行MapReduce分析技术研究的机构都显示了对MapReduce的高度关注,并在不同的体系结构上都进行了实现,尤其是在开源hadoop平台上对其所做的研究提供了更多的研究机遇。因此对MapReduce的研究不仅具有收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

重要的应用价值,更具有重要的学术意义[8,9]。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。2、MapReduce相关研究

目前国内外文献中对MapReduce模型都有相应的研究。主要体现在以下几个方面: 基于MapReduce的初等研究及改进:在Goole提出的原始模型的基础上提出一些新的改进方法,或是对怎样提高MapReduce算法的效率上去进行研究。如:文献[10]提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduee模型对map函数和reduce函数的定义.对map和reduce过程进行了改进优化。文献[11]中的HPMR是建立在多核集群上的高性能计算支撑平台。它继承并改进了MapReduce并行编程模式,使其适合高性能计算需求。并让并行程序的编写和运行变得非常简单,同时又保持很高的性能。

对大规模的数据挖掘:利用MapReduce模型对于云平台的海量数据进行挖掘,抓取网页相关数据,或是对网页内容去重等到相关的大规模数据的研究等。如:文献[12]详细描述SPRINT并行算法在HadooP中的MapReduce编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。

基于MapReduce并行模型的一些设计方法与实现或是计算方法的实现,如:文献[13]结合MapReduce的长处,提出研究和实现一个完整的高性能并行计算系统,以GPU为硬件基础并配合基于MapReduce并行计算模型平台进行大规模数据处理。文献[14]提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduee架构简化了分布式程序设计。

MapReduce的综述:文献[15]重点讨论了MapReduce模型的相关研究,并对采用或是实现了这些模型的相应公司的技术进行了探讨,是一篇综述类型的学位论文。MapReduce模型的研究与应用:文献[16]介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。

当前的研究中,对于云计算中并行计算模型的研究主要是针对于MapReduce模型,而对于MapReduce模型的研究主要在两个方面展开,一个方面为对MapReduce模型的改进,但是对于改进后的模型的实现平台没有研究;另一个方面为MapReduce模型的应用,也是当前的主要研究方向。

3、MapReduce相关研究问题

MapReduce是由Google提出的一种并行分布式编程模型[17-19]。在MapRedcue 模型中用户只须指定一个map函数来处理一个输入的key/value对,产生中间结果key/value对集,再通过一个由用户指定的reduce函数来处理中间结果中具有相同key值的value。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理[20-21]。

图1说明了用 MapReduce 来处理大数据集的过程,MapReduce 的计算过程很简单,计算利用一个输入key/value对集,来产生一个输出key/value对集[22]。MapReduce库的用户用两个函数表达这个计算:map和reduce。首先,用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集。然后,MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数。最后,用户自定义的reduce函数,接收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

受一个中间key 和相关的一个value集。它合并这些value,形成一个比较小的value集[23-25]。

图1、Mapreduce的计算流程

随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了对MapReduce这种并行计算模式的研究变得越来越重要,由此也产生了一系列的相关研究问题,分别如下所列出[26-28]:

1、MapReduce模型只需执行简单的计算,对于隐藏并行化、容错、数据分布、负载均衡的那些问题是如何实现的。

2、Google的MapReduce执行流程。

3、对MapReduce模型的实现。

4、对MapReduce模型进行改进。

5、提高Mapreduce的运算效率的方法。

6、基于MapReduce模型的应用。

7、基于MapReduce模型的设计方法及实现 对于以上所列出这些研究问题,目前国内外都有相关的研究,对于这些研究问题在很大程度上仍然有可研究性。

4、未来研究趋势

MapReduce作为一个通用可扩展的并行计算模型,它用来有效地处理海量数据,不断地从中挖掘出有价值的信息,成为互联网企业发展的必然选择。很多现实世界对海量数据的处理,都可以用这种模型来表示。当前在云计算中使用的分布式并行运算基本上是采用的MapReduce计算模型,不过国内的研究仍然有点滞后,同时,当前的主要研究都放在其应用上,比如说网页抓取等,真正去研究算法本身的并不多,尤其是在提高算法本身的效率上,以及算法的优化等都研究较少。

根据上面的论述和分析可以看出,对于云计算中并行计算模型的研究和应用主要是对于MapReduce模型的,而对MapReduce模型的应用是当前的主要研究方向。本课题在分析MapReduce模型的基础上,提出了如下的研究内容:

1、利用MapReduce强大的计算能力,把MapReduce模型应用到一些经典的算法中。所要解决的主要问题是经典的算法的选取,即要满足利用MapReduce模型的条件,还要解决的是两个算法的比较及评价问题;

2、利用MapReduce强大的计算能力,把MapReduce模型应用到一些数值计算问题中去,所要解决的主要问题是数值计算问题的分解和结束条件,还要解决的是两个算法的比较问题及新算法的评价问题。

收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

4、结束语

本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。参考文献 [1] [2] [3] [4] [5] 张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,202_,27(2):429-433 金海,漫谈.云计算[J].中国计算机学会通讯,202_,5(6):22-25 吴吉义,平玲娣, 潘雪增等.云计算:从概念到平台[J].电信科学,202_,12:23-30 陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报.202_,20(5):1337-1348 尹国定,卫红.云计算—实现概念计算的方法[J].东南大学学报:自然科学版,202_,33(4):502-506 [6] 武永卫,黄小猛.云存储[J].中国计算机学会通讯,202_,5(6):44-52 [7] Lamel.R Google’s Mapreduce Programming Model-revisited [J].Science of Computer Programming, 202_, 7(1): 208-237.[8] 万至臻.基于Mapreduce模型的并行计算平台的设计与实现[I].浙江大学.202_ [9] 吴晓伟.MapReduce并行编程模式的应用和研究[I].中国科学技术大学.202_.[10] 周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛.202_.2(11):11-12 [11] 郑启龙,王昊,吴晓伟等.HPMR:多核集群上的高性能计算支撑平台[J].微电子学与计算.202_,25(9):21-23 [12] 王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机.202_,22(11):22-25 [13] 瞿李峰.基于GPGPU的MapReduce高性能并行计算模型研究与应用[I].桂林理工大学.202_.[14] 郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程.202_,33(22):83-85 [15] 周敏.MapReduce综述[I].暨南大学.202_.[16] 杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术.202_, 25(4)23-26 [17] Luis M V, Luis Rodero Merino, Juan Caceres, Maik Lindner.A break in the clouds: toward a cloud definition.ACM SIGCOMM Computer Communication Review, 202_,39(1):50-55 [18] Robert L G,Gu Yunhong,Michael Sabala,Zhang Wanzhi。Compute and storage clouds using wide area high performance networks。Future Generation Computer Systems,202_,25(2):179-183 [19] Daniel J A.Data management in the cloud: limitations and opportunities.Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 202_,32(1):3-12 [20] 郑启龙.HPMR在并行矩阵计算中的应用[J].计算机工程.202_(8).[21] 徐志伟,廖华明,余海燕.网络计算系统的分类研究[J].计算机学报.202_,31-9:1509—1515.[22] M.Kruijf and K.Sankaralingam.MapReduce for the Cell B.E.Architecture[J].Technical Report No.TR1625,Computer Science Department,University of Wisconsin,Madison,202_.[23] Colby Ranger,Ramanan Raghuraman,Arun Penmetsa,Gary Bradski,Christos Kozyrakis.Evaluating MapReduce for Multi-core and Multi-processor Systems,Proceedings of the 13th Intl,Symposium on High-Performance Computer Architecture(HPCA).收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

Phoenix,AZ, February 202_.[24] J.Dean and S.Ghemawat.Mapreduce:Simplified data processing on large clusters.In OSDI,pages 137-150,202_.[25] D.V.Kalashnikov,S.Prabhakar,and S.E.Hambrusch.Main memory evaluation of monitoring Queries over moving objects.Distributed and Parallel Databases,15(2):117-135,202_.[26] J.Dean.Experiences with mapreduce,an abstraction for large-scale computation.In Proc.IEEEP ACT,202_.[27] 钟伟彬,周梁月,潘军彪等.云计算终端的现状和发展趋势[J].电信科学,202_,3:22-26 [28] 陈国良,孙广中,徐云.并行计算的一体化研究现状与发展趋势[J].科学通报,202_,54(8):1043-1049

地址:重庆市涪陵区李渡聚龙大道98号长江师范学院数学与计算机学院办公室

孙香花 邮编: 408100

收稿日期:

基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.

云计算环境下的分布存储技术研究论文[大全]
TOP