上海代写论文网专业提供论文代写、论文宣布效劳
您如今的地位:代写本科论文 > 办理学论文易发娱乐国际 > 信息办理论文 > 国际外关于大数据技能的研讨近况
国际外关于大数据技能的研讨近况
公布工夫:2015-10-21
择要

  0 引 言

  随着盘算机技能和互联网的连忙开展,特殊是随着 Web2. 0的开展,互联网上的数据量高速增长,对大数据处置才能绝对缺乏。随同着待处置数据越来越多,以后曾经到了无法将大数据存储在一台或无限数量的效劳器内,更无法由数量无限的盘算机来处置大数据的困境。因而,怎样完成资源和盘算才能的散布式共享以及怎样应对以后数据量高速增长的势头,是现在数据办理、数据处置范畴亟待处理的题目。

  IBM 给出了大数据的三个 V,辨别是: Volume,Variety,Ve-locity.大数据在 Volume 表现的是处置的数据量正从 T 级别超过到 Z 级别,在 Variety 表现的是处置的数据范例从构造化范例为主过渡到构造化和非构造两种数据范例共存; 在 Velocity 表现的是对数据处置的呼应工夫从批处置呼应工夫到及时的流数据处置呼应工夫。本文给出大数据的描绘: 范围大; 深度大; 宽度大; 处置工夫短; 硬件零碎大众化; 软件零碎开源化。

  1 国际外研讨近况

  1. 1 并行数据库研讨

  大数据处置的传统办法是运用并行数据库零碎。并行数据库零碎是在大范围并行处置零碎( MPP) 和集群并行盘算情况的根底上树立的高功能数据库零碎。如许的零碎是由很多松耦合处置单位构成的,指的是处置单位而不是处置器。每个单位内的 CPU 都有本人公有的资源,如总线、内存、硬盘等。在每个单位内都有操纵零碎和办理数据库的实例复本。这种构造最大的特点在于不共享资源。外洋在该范畴研讨起步较早,在 20 世纪 80 年月就呈现了可以运转在非共享节点构成的集群上的数据库零碎。这些零碎都支持规范的干系型表和 SQL,同时关于终端用户来说数据现实上是通明地存储在多个呆板上的。许多这类零碎都是树立在 Gamma[4]和 Grace[5]的并行 DBMS 项目标先驱性研讨效果之上的。80 年月前期,并行数据库技能的研讨偏向逐渐转到了通用并行机方面,研讨的重点是并行数据库的物理构造、操纵算法、优化和调理策络。

  早在 20 世纪 80 年月中期,Teradata 和 Gamma 项目就开端探究一种基于经过高速互联网络衔接的“share-nothing 节点”( 具有独立 CPU,主存和磁盘) 构成的集群的全新并行数据库架构形式[30],如图 1 所示。从当时起,简直一切的并行数据库零碎都用到了这两个项目标技能: 干系表的程度分区以及 SQL 盘问语句的分区实行[15].程度分区的面前头脑是将干系表的行在集群节点上停止分别,如许他们就可以被并行地处置。比方将一个 10-million-行的表在一个 50 节点的集群上停止分别,每个节点具有 4 个磁盘,如许每个磁盘大将会有 50 000 个行。绝大少数的并行数据库零碎都提供了多种分别战略,包罗 Hash,range 以及 round-robin 分别[8].在基于 Hash 的分区形式下,当每行被加载的时分,会对每行里的一个或多个属性易发娱乐真人使用一个Hash 函数来决议该行所应该寄存的目的节点和磁盘。

  从 20 世纪 90 年月至今,随着处置器、存储、网络等相干根底技能的开展,并行数据库技能的研讨上升到一个新的程度,研讨的重点也转移到数据操纵的工夫并行性和空间并行性上。可以并行实行有两个要害: 1) 大局部( 乃至是一切的) 表被分别到集群的一切节点上; 2) 零碎运用一个优化器来将 SQL 下令翻译成在多个节点上实行的盘问方案。由于顺序员只需求运用初级言语描绘他们的目标,因而他们基本不需求关怀底层存储细节,比方索引设置装备摆设和衔接战略。并行数据库零碎的目的是高功能和高可用性,经过多个处置节点并行实行数据库义务,进步整个数据库零碎的功能和可用性。功能目标存眷的是并行数据库零碎的处置才能,详细的体现可以一致总结为数据库零碎处置事件的呼应工夫。并行数据库零碎的高功能可以从两个方面了解,一个是速率提拔; 一个是范畴提拔。速率提拔是指,经过并行处置,可以运用更少的工夫完成两样多的数据库事件。范畴提拔是指,经过并行处置,在相反的处置工夫内,可以完成更多的数据库事件。并行数据库零碎基于多处置节点的物理构造,将数据库办理技能与并行处置技能无机联合,来完成零碎的高功能。

  可用性目标存眷的是并行数据库零碎的强健性,也便是当并行处置节点中的一个节点或多个节点局部生效或完全生效时,整个零碎对外继续呼应的才能。高可用性可以同时在硬件和软件两个方面提供保证。在硬件方面,经过冗余的处置节点、存储设置装备摆设、网络链路等硬件步伐,可以包管当零碎中某节点局部或完全生效时,其他的硬件设置装备摆设可以接办其处置,对外提供继续效劳。

  在软件方面,经过形态监控与跟踪、相互备份、日记等妙技,可以包管以后零碎中某节点局部或完全生效时,由他所停止的处置或由他所掌控的资源可以无丧失或根本无丧失地转移到其他节点,并由其他节点持续对外提供效劳。

  1. 2 面向大数据处置的 MapReduce 模子研讨

  2004 年 Google 研讨员 Jeffrey Dean 和 Sanjey Ghemawat 经过对网页数据存储和并行剖析处置研讨后,在文献[1]提出 Ma-pReduce 盘算模子并在 ACM 等多个期刊上转载[2,3].MapRe-duce 盘算模子为大数据剖析处置题目提供了一个新的无效处理办法和途径。文献中指出,“MapRedcue 是一种编程模子,以及一个处置和天生大数据集的相干完成。顺序被写成函数式,而且主动并行实行在一个大范围的通用盘算机集群上。这容许没有任何并行和散布式零碎编程经历的顺序员轻松天时用大范围散布式零碎的资源。”MapReduce 盘算模子 Map 操纵经过把输出数据停止分区,比方: 分为 M 块,散布到差别的呆板上并行实行。Reduce 操纵是经过对两头发生的 key 的键值对来停止散布的,两头发生的 key 可以依据某种分区函数停止散布,散布成为 R 块。分区( R) 的数目和分区函数都是由用户指定的。详细流程如图 2 所示。

  ( 1) 用户顺序中的 MapReduce 函数库起首把输出文件分红M 块,每块巨细为 16M 到 64M( 可以经过参数决议) .接着在cluster 的 worker 呆板上实行处置顺序。

  ( 2) 这些分排的实行顺序中有一个顺序比拟特殊,它是主控顺序 master.剩下的实行顺序都是作为 master 分排任务的worker.统共有 M 个 map 义务和 R 个 Reduce 义务需求分排。master 选择闲暇的 worker 而且分派这些 map 义务或许 Reduce义务。

    ( 3) 一个分派了 map 义务的 worker 读取并处置相干的输出小块。它处置输出的数据,而且将剖析出的 key/value 对通报给用户界说的 map 函数。map 函数发生的两头后果 key/value对临时缓冲到内存。

  ( 4) 这些缓冲到内存的两头后果将被定时刷写到当地硬盘,这些数据经过分区函数分红 R 个区。这些两头后果在当地硬盘的地位信息将被发送回 master,然后这个 master 担任把这些地位信息传送给 Reduce 的 worker.

  ( 5) 当 master 告诉 Reduce 的 worker 关于两头 key/value 对的地位时,它挪用 remote procedure 来从 map worker 的当地硬盘上读取缓冲的两头数据。当 Reduce 的 worker 读到了一切的两头数据,就运用两头 key 停止排序,如许可以使得相反 key 的值都在一同。由于有很多差别 key 的 map 都对应相反的 Reduce义务,以是,排序是必需的。假如两头后果集太大,那么就需求运用外排序。

    ( 6) Reduce worker 依据每一个独一两头 key 来遍历一切的排序后的两头数据,而且把 key 和相干的两头后果值聚集通报给用户界说的 Reduce 函数。Reduce 函数关于本 Reduce 区块输入到一个终极的输入文件。

  ( 7) 当一切的 map 义务和 Reduce 义务都曾经完成的时分,master 激活用户顺序。在这时分 MapReduce 前往用户顺序的挪用点。

  经过下面 7 个步调,就顺遂实行完 1 个完好的 MapReduce盘算义务,可见并行盘算技能能明显进步数据处置才能。

  1. 3 NoSQL 与数据库技能的比照

  非干系型数据库( NoSQL) 以键值对存储,它的构造不牢固,每一个元组可以有纷歧样的字段,每个元组可以依据需求添加一些本人的键值对,如许就不会范围于牢固的构造,可以增加一些工夫和空间的开支。Google 的 BigTable[13]便是典范的 NoSQL完成。别的具有代表性的另有 Apache Cassandra 由 Facebook 在Hadoop[23]根底上开辟的混淆型的非干系的数据库,相似于Google 的 BigTable,用于贮存特殊大的数据。

  一开端,数据库范畴专家对 MapReduce 盘算模子为代表的非干系型数据库持否认态度。2009 年 6 月,在 SIGMOD 09 上登载了 Andrew Pavlo,Daniel J. Abadi,David J. DeWitt 和 MichaelStonebraker 等的着名数据库合作的文章“A Comparision of Ap-proaches to Large-Scale Data Analysis”[20],辨别对并行数据库和MapReduce 两种模子停止了描绘。别的,比照了这两种零碎的功能和开辟的庞大度。最初,界说了由多个盘算义务构成的测试集,并在一个 MR 的开源版本和两个并行 DBMS 零碎上停止了测试。针对每个盘算义务,而且在一个 100 节点的集群上停止了多个并行度上的零碎功能测试。得出结论: 虽然并行DBMS 的数据加载进程和实行调优所破费的工夫比 MR 零碎要长,但是这些 DBMS 零碎所体现出的实行功能却比 MR 零碎好许多,并最初认定: MapReduce 在大数据处置上比并行数据库差。

  随着 MapReduce 技能功能的提拔、易发娱乐真人使用范畴的扩展,干系数据办理技能和 MapReduce 技能的争论不断继续。于是在2010 年 1 月的 ACM 通讯杂志同时向 MIT 的 Stonebraker 传授和Google 的 Jeff Dean 和 Sanjay Ghemawat 研讨员停止约稿。Dean 研 究 员 在“MapReduce: A Flexible Data ProcessingTool”[3]中指出 MapReduce 是停止大范围数据剖析处置的灵敏而无效的东西。与并行数据库相比,MapReduce 的劣势包罗存储零碎有关以及大范围 jobs 的细粒度容错性。MapReduce 是一个用于大范围数据聚集天生和处置的编程模子。用户描绘一个Map 函数和 Reduce 函数,Map 函数会处置一个 key / value 对来天生一系列的两头 key/value 对聚集,Reduce 函数会对具有相反两头 key 值的两头 values 停止兼并。在 2003 年 Dean 就基于MapReduce 模子构建了一个零碎用来简化 Google.com 所运用的倒排索引的构建。从当时起,在 Google 曾经有超越 10 000 个的差别顺序运用了 MapReduce,涵盖了用于大范围图处置、文本处置、呆板学习、呆板翻译等各方面的算法。MapReduce 的 Ha-doop 开源完成也已被 Google 之外的许多构造普遍运用。与并行数据库相比,MapReduce 具有许多明显的劣势。起首也是最紧张的,它为大范围 jobs 提供了细粒度的容错性; 在一个需求运转几个小时的义务两头呈现错误时,不需求重新开端。其次,MapReduce 关于一个具有多个存储零碎的异构零碎的数据处置和加载十分有协助。第三,MapReduce 提供了一个可以实行那些比 SQL 所能间接支持的更庞大函数的好框架。Stonebraker 传授在“MapReduce and parallel DBMSs friendsor foes?”[29]中则从最后的对 MapReduce 技能的彻底否认,转为一定 MapReduce 的精良扩展性,而且指出,MapReduce 十分合适做 ETL 如许的任务。现在,越来越多的数据库研讨职员逐步认识到,MapReduce 和干系数据库可以相互学习,而且走向集成。

  MapReduce 可以从 RDBMS 学习盘问优化、形式支持、核心东西支持等,而 RDBMS 可以从 MapReduce 学习失掉高度的扩展性和容错性、疾速装载、易于运用等特点。

  1. 4 MapReduce 与数据库技能相联合研讨

  在并行数据库与 MapReduce 模子相联合的实际研讨方面,外洋以耶鲁大学的 Daniel J. Abadi 研讨员为代表,其研讨团队近三年在 SIGMOD,VLDB 上宣布了多篇关于在数据库范畴的列存储的论文[8 -11],辨别在 2009 年和 2011 年宣布在 VLDB 上的HadoopDB[18,34]研讨为代表,在 Apache Hadoop 项目根底上提出了 Hadapt 研讨,它消弭数据孤岛,在云情况中运用现有的 SQL东西,构造剖析少量的“多层构造”数据。耶鲁大学盘算机迷信系研讨开辟的 Hadapt 的技能,处理了一些在大数据剖析需求中的要害题目: 数据的减速增长,非构造化数据的爆炸。Hadoop-DB 经过传统干系数据剖析办法剖析构造和非构造化数据。

  2011 年宣布在 SIGMOD 上的文献[34]更细致地引见了经过MapReduce 框架与数据库零碎的联合,在分步并行实行情况下,设计 HadoopDB 数据引擎,进步数据剖析功能,重点剖析了衔接和聚集操纵。联合 Hadoop 作业调理和网络传达技能,乐成地将单节点数据库零碎转换为可扩展并行数据库剖析平台。

  2010 年的 ICDE 和 SIGMOD 以及 2009 年的 VLDB 上宣布了 Facebook 研讨员关于应用 MapReduce 完成并行数据堆栈的研讨效果: Hive[31 -33].它是一个基于 Hadoop 的开源数据堆栈处理方案。如图 6 所示,Hive 支持的盘问是相似 SQL 方法的陈说言语: HiveQL .这种盘问被编译进 MapReduce 的 job 用以Hadoop 的实行。并且 HiveQL 容许用户在盘问中添加“客户map-Reduce 剧本插件”.这种言语包括了一个“支持包括原语范例的表的”数据构造,比方,列表、栈、聚集、映射,以及嵌套组合数据构造。其面前的 I/O 库可扩展以盘问客户款式的数据。

  Hive 还包括了一个零碎目次 - 元存储( Metastore) -包括了“有利于数据发掘、盘问优化与盘问编译的”提要形式与统计。

  在 Facebook,Hive 数据堆栈包括了数万张表,共存储超越 700TB的数据。普遍地用于用户的陈诉和即时剖析。在 2011 年的 ICDE 上,Facebook 研讨员宣布了 RCFile 一种基于 MapReduce 的数据堆栈的疾速且存储高效的数据安排构造[38],文章提出一个大的数据结构构造,称为 RCFile( 面向记载的列存储文件零碎) ,如图 3 所示。

  并在 Hadoop 平台上施行。经过麋集的实行,文章表现的RCFile 无效性满意四个要求: ( 1) 数据导入快; ( 2) 盘问处置快; ( 3) 存储空间应用率高效; ( 4) 关于高度静态的任务量方法要有弱小的顺应力。RCFile 与行存储比拟了数据导入速率和任务量的顺应力。RCFile 在表扫描经过防止没须要列值读取来优化读取,在大少数状况下优于其他构造。RCFile 是基于列存储的紧缩,因而,有很高的空间应用率。RCFile 已是 Facebook 的数据堆栈零碎默许选项,也已易发娱乐真人使用于由 Facebook 和雅虎开辟的数据剖析零碎 Hive 中。

  2011 年 SIGMOD 上宣布了新加坡国立大学黄铭钧传授和浙江大学陈纯传授的借助列存储技能完成 MapReduce 框架下可扩展衔接处置论文[35].设计了 Llama 这个在 MapReduce 框架下的列存储的数据办理原型零碎,在底层运用一个创新的文件存储款式: CFiles,如图 4 所示。在 CFile,每个块包括牢固数目的记载,称为 K 值。每个逻辑块的几多 n 差别,由于记载巨细可变的。块存储在缓冲区。缓冲区的巨细通常为 1 MB.当缓冲区巨细凌驾阈值或缓冲区中的记载数到达 k 个 ,缓冲区革新到 DFS.每块的肇始偏移量被记载上去。运用大块 chunk 代表在文件零碎的分区单元。在 HDFS 中的每个文件是切成块,每大块 chunk 在差别的数据节点复制。在 HDFS,默许 chunk 巨细为 64 MB.chunk 包括多个块,由记载 k 的值和每个记载的巨细而定。

  文献里还设计了并发衔接,如图 5 所示,将尽能够多的衔接操纵放在 MapReduce 框架 map 阶段,经过 Llama 零碎构建,完成了对大数据的疾速盘问,并发衔接初志是将尽能够多的衔接操纵放在 MapReduce 框架 map 阶段。根本头脑是应用稠密的盘问方案树和排序 PF 组,处理 MapReduce 义务中的多表衔接题目,防止重排昂贵的数据复制和增加 MapReduce 义务数。该算法可以加重在 HDFS 的 NameNode 节点坚持少量的两头后果的压力。别的,设计了数据归天和并发衔接本钱模子来剖析数据拜访本钱,从而对模子停止细节优化。

  2011 年 VLDB 上宣布了威斯康星麦迪逊大学和 IBM 研讨员结合研发的基于列存储技能的 MapReduce 框架论文[36],应用列存储技能对 DREMEL[25]的改良: 1) 将庞大范例作为一个独自的列存储,而不是像 DREMEL,将其剖析到差别的列中; 2) 零碎可以处置在 DREMEL 里无法处置 map 数据范例; 3) 重点是在 Hadoop 的 Java 的配景下对功能改进。起首,引见列存储款式兼容 Hadoop 复制和调理束缚机制,如图 6 所示,证明列存储款式在实践任务负载条件下能放慢 MapReduce 义务处置速率;其次、研讨怎样处置列存储遇到的庞大的数据范例,比方: 数组范例、MAP 范例和嵌套记载范例。这些都是 MapReduce 里罕见最初,文章引入腾跃列表列存储款式,如图 7 所示,和 lazy记载的构建算法,以防止不需求的记载做反序列化实行接纳从IBM 研讨中央 Intranet 上抓取的真实数据,实行表现列存储技能可以在 Hadoop Map 阶段完成高达两个数目级功能提拔。

  2011 年 SIGMOD 上宣布了 Teradata 研讨员和加州大学合作的基于 Hadoop 的并行数据堆栈加载办法[37]论文。运用 Hadoop来作为两头加载效劳器存储将要加载到 Teradata 企业级数据堆栈的数据。从 HDFS( Hadoop 散布式文件零碎) 取得了诸多长处: 1) 为要加载的文件的磁盘空间明显添加; 2) 一旦数据被写入到 HDFS,它是没有须要保管数据源的数据,乃至被加载到Teradata 企业级数据堆栈之前的文件; 3) MapReduce 顺序可用于改革和添加非构造化或半构造化数据构造; 4) 由于文件散布在 HDFS 中,以是零碎可以更敏捷地并行加载到 Teradata 企业级数据堆栈中。当 Hadoop 和 Teradata 企业级数据堆栈共存在统一硬件上平台,由于增加了硬件和零碎办理本钱,正越来越多地遭到客户的喜爱; 5) 另一个优化办法是将 HDFS 数据块相反的节点上间接加载到 Teradata 的并行节点上。由于 HDFS 固有的非平均数据散布特性,文章很难防止 HDFS 块转移到偏僻的Teradata 节点。因而,文章设计了一个多项式工夫最优算法和多项式工夫类似优化算法,HDFS 块平均分派到并行的 Teradata节点,并最大限制地增加了网络流量。

  在国际关于大数据剖析易发娱乐真人使用和 MapReduce 与数据库技能相联合技能研讨,绝对起步较晚。中国人民大学的覃雄派等宣布了“大数据剖析---RDBMS 与 MapReduce 的竞争与共生”[40]一文,指出头具名对大数据深度剖析的应战,干系数据库技能的扩展性遇到了史无前例的困难。同时,SQL 的表达才能缺乏以停止庞大深化的数据剖析。MapReduce 技能具有简便的模子、精良的扩展性、容错性和并行性,高功能。干系数据库技能和 Ma-pReduce 技能互相竞争、互相学习和互相浸透,促进了数据剖析重生态零碎的显现。在重生态零碎中,干系数据库技能和 Ma-pReduce 技能找到了本人的地位,发扬出各自的劣势,从大数据中剖析和发明有效的知识。干系数据库和 MapReduce 技能各有优缺陷,怎样交融干系数据库和 MapReduce 技能,设计同时具有两者长处的技能架构,既有 MapReduce 的高度扩展性和容错性,又有 RDBMS 的高功能,是大数据剖析技能的研讨趋向。

  西南大学于戈等[41]提出了基于 MapReduce 的干系型数据堆栈并行盘问办法,并设计了基于 MapReduce 的散布式干系数据库: ChunkDB.南京邮电大学李玲娟等[42]提出了基于 MapRe-duce 的频仍项集发掘办法,在数据发掘里取得较好的时效性。

  王婧等[43]在Hadoop 根底上提出了一种基于过滤器的多表衔接算法,增加不用要的元组复制与数据传输。在国际并行数据库研讨方面,2000 年,中国人民大学文继荣等在文献[39]上剖析了并行数据库零碎的盘问优化技能。

  该文引见作者自行研制的一个 Shared-nothing 并行数据库零碎PBASE /2 中共同的两阶段优化战略。为了缩减并行盘问优化巨大的搜刮空间,PBASE/2 将并行盘问优化分别为次序优化和并行化两个阶段。在次序优化阶段对并行化后的通讯价钱停止事后预算,将通讯开支参加次序优化的价钱模子,同时对静态计划搜刮算法停止了修正和扩展,包管了次序优化阶段失掉的最小价钱方案在并行化子女价依然最小。并行化阶段的优化目的是完成盘问任务量在零碎内多种资源上的负载均衡,提出了资源负载均衡因子的观点,而且经过启示式规矩、义务调理等机制包管了并行盘问实行方案的优化性。

  2 结 语

  经过以上剖析可以看出,当数据集和索引变大时,传统干系型数据库在对大范围数据停止操纵会形成零碎功能严峻降落,由于在处置数据时 SQL 恳求会占用少量的 CPU 周期,而且会招致少量的磁盘读写,功能会变慢得让人无法忍耐。

  随着对 MapReduce 并行盘算技能研讨的深化和 SMP、MPP等处置机技能的开展,MapReduce 散布式并行处置集群曾经成为了大数据研讨中最受存眷的热门。现在,MapReduce 与干系数据库技能相联合范畴次要有下列题目需求进一阵势研讨息争决。

  ( 1) 并行体系构造及零碎的物理设计

  为了到达并行处置的目标,到场并行处置的各个处置节点之间能否要共享资源、共享哪些资源、需求多大水平的共享,这些就需求研讨并行处置的体系构造及有关完成技能。次要是在并行处置的情况下,大数据散布的算法的研讨、数据库设计东西与办理东西的研讨。特殊是列存储技能在并行情况下完成的研讨。

  ( 2) 非干系型数据库

  非干系型数据库以键值对存储,它的构造不牢固,每一个元组可以有纷歧样的字段,每个元组可以依据需求添加一些本人的键值对,如许就实用大数据中的半构造和非构造化数据,但它的构造方便于表与表之间停止衔接等操纵,这是以后国际外此项研讨的难点之一。

  ( 3) 处置节点间通讯机制的研讨

  为了完成并行的高功能,并行处置节点要最大水平地协同处置数据库事件,因而,节点间必不行少地存在通讯题目,怎样支持少量节点之间音讯和数据的高效通讯,也成为了并行数据库零碎中一个紧张的研讨课题。

  ( 4) 并行操纵算法

  为进步并行处置的服从,需求在数据散布并行的研讨的根底上,深化研讨传统的衔接、聚集、统计、排序等详细的数据操纵在 MapReduce 节点上的并行操纵算法。这是以后国际外此项研讨的热门之一。

  ( 5) 并行操纵的盘问优化题目

  为取得高功能,怎样将一个数据库处置物理实行公道地剖析成绝对独立的并行操纵步调、怎样将这些步调以最优的方法在多个处置节点间停止分派、怎样在多个处置节点的统一个步调和差别步调之间停止音讯和数据的同步,这些题目都值得深化研讨。

  ( 6) 数据的加载和再构造技能

  为了包管高功能和高可用性,零碎中的处置节点能够需求停止扩大,这就需求思索怎样将传统 RDBMS 的数据加载办法高效地移植到 MapReduce 框架中来,以及怎样公道地在各个节点是重新构造数据。

  综上所述,干系数据库和 MapReduce 非干系型数据库技能相交融研讨是数据迷信、数据工程范畴的研讨趋向,我国相干研讨任务还处于起步阶段,外洋的研讨任务中也有许多要害题目有待处理。以后,国际外关于大数据 MapReduce 框架下的处置研讨还次要是会合在框架协议的设计方面[5 -43],还没有一套完好的处理方案和相干的国际规范零碎可以接纳。

  参 考 文 献

  [1] Dean J,Ghemawat S. MapReduce: Simplified Data Processing on LargeClusters[C]/ / Proc of 6th OSDI. San Francisco: USENIX Association,2004: 137-150.

  [2] Dean J,Ghemawat S. Experiences with MapReduce: an abstraction forlarge scale computation[C]/ / Proc 15th Inter-Conf on PACT. Washing-ton DC,2006: 1-2.

  [3] Dean J,Ghemawat S. MapReduce: a flexible data processing tool[J].Communications of the ACM,2010,53: 72-77.

  [4] DeWitt D J,Gerber R H,Graefe G,et al. GAMMA-A High PerformanceDataflow Database Machine[C]/ / VLDB '86,1986: 228-237.

  [5] Fushimi S,Kitsuregawa M,Tanaka H. An Overview of The System Soft-ware of A Parallel Relational Database Machine[C]/ / VLDB '86,1986: 209-219.

版权一切:上海论文网专业威望的论文代写、论文宣布的网站,承袭信誉至上、用户为首的效劳理念,效劳好每一位客户
本站局部论文搜集于网络,若有失慎进犯您的权柄,请您实时致电或写信见告,我们将第临时间处置,邮箱:gs@shlunwen.com