中国优秀硕士学位论文全文数据库
  关闭
连接操作在Spark框架上的实现与优化  
   在线阅读 整本下载 分章下载 分页下载本系统暂不支持迅雷或FlashGet等下载工具
【英文题名】 Implementation and Optimization for Join Operation in Spark
【作者】 张文虎;
【导师】 阳国贵;
【学位授予单位】 国防科学技术大学;
【学科专业名称】 软件工程(专业学位)
【学位年度】 2016
【论文级别】 硕士
【网络出版投稿人】 国防科学技术大学
【网络出版投稿时间】 2017-09-01
【关键词】 大数据; Spark; SQL; 连接;
【英文关键词】 big data; Spark; Spark SQL; JOIN;
【中文摘要】 近年来大量出现的智能手机、平板、可穿戴设备和物联网设备每时每刻都在产生大量的新数据,人们进入了一个大数据时代。如何有效快速处理这些大规模、复杂的数据集已经成为亟待解决的问题。大数据处理平台通常包含多个重要组件,如存储、集群调度、容错、数据处理引擎与计算算法等,其中数据处理引擎是核心组件之一。Spark于2009年诞生在AMPLab,与基于I/O的Hadoop相比,其基于内存的计算模型在性能上具有极大的优势,在迭代计算方面尤其如此。在Spark核心基础上形成的Spark Streaming、Spark SQL、MLlib、GraphX、SparkR等组件构成了良好的Spark生态系统。为了支持结构化数据处理,Spark SQL组件应运而生,它能够将SQL语句转化为以Spark为引擎的作业并兼容支持Hive。通过广泛的文献调研,在分析了Spark的相关背景、应用与架构的基础上,通过大量的源码阅读学习和上机实验对Spark SQL组件的详细实现做了深入研究,并选定连接操作算法研究作为主要研究内容。分析了现有内连接、半连接、外连接三类JOIN算法的不足,提出了更加适用于有小表参与的SelectedBroadcastH...
【英文摘要】 The emergence of smart phones,tablets,wearables,and IoT devices is generating a large scale of data,leading people enter into a big data era.How to deal with these large complex data efficiently has become a problem to be resolved.A platform for processing big data usually contains several import components,such as storage,cluster scheduler,fault tolerance,data processing engine and calculation algorithms.Among them,the data processing engine is the core component.Spark was born from AMPLab in 2009.Comparin...
【更新日期】 2017-11-29

【相同导师文献】

导师:阳国贵    导师单位:国防科学技术大学    学位授予单位:国防科学技术大学
[1] 李军.基于深度学习视觉机制的图像检索与标注技术研究[D]. 国防科学技术大学,2016
[2] 张文虎.连接操作在Spark框架上的实现与优化[D]. 国防科学技术大学,2016
[3] 刘晓杰.基于KITSUNE的动态软件更新及应用研究[D]. 国防科学技术大学,2014
[4] 郑虹晖.自动气象站数据图形化应用研究[D]. 国防科学技术大学,2010
[5] 余飞.操作系统调度器结构及算法研究[D]. 国防科学技术大学,2011
[6] 任浩明.长信政务系统中的XML数据交换技术研究与实现[D]. 国防科学技术大学,2007
[7] 吴坚.电信网络资源管理系统的研究与实现[D]. 国防科学技术大学,2007
[8] 陈霖.银行综合业务前置系统XY-GAPS的设计与实现[D]. 国防科学技术大学,2007
[9] 吴建民.银行国际金融反洗钱黑名单检索系统的设计与实现[D]. 国防科学技术大学,2007
[10] 魏环宇.一个集成桌面搜索的数据库文件系统的研究与实现[D]. 国防科学技术大学,2008

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机软件
     程序设计、软件工程
      程序设计
       数据库理论与系统
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号