• 工作汇报
  • 开题报告
  • 社会实践报告
  • 实习报告
  • 申请报告
  • 研究报告
  • 党政报告
  • 可行性报告
  • 情况报告
  • 事迹材料
  • 申报材料
  • 述廉报告
  • 调查报告
  • 实验报告
  • 整改措施
  • 整改报告
  • 整改方案
  • 辞职报告
  • 考察报告
  • 离职报告
  • 结题报告
  • 竞聘报告
  • 请示报告
  • 社会调查报告
  • 自查报告
  • 报告写作指导
  • 学习报告
  • 实习周记
  • 述职报告
  • 您现在的位置:书业网 > 范文 > 工作报告 > 开题报告 > 正文

    hadoop开题报告

    来源:书业网 时间:2016-03-12

    篇一:基于Hadoop的云计算平台搭建 毕业设计开题报告

    本科毕业设计(论文)开题报

    题目: 基于Hadoop的云计算平台搭建

    学生姓名

    教学院系

    专业年级 指导教师

    单 位

    学 号 计算机科学学院 职 称 计算机科学学院

    1 选题的目的和意义

    1.1 设计的背景

    Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。

    1.1 选题的现状

    1.1.1 海量数据时代的现状

    我们生活在数据的时代,很难估计全球的数据有多少,“数字宇宙”项目统计得出,2006年的数据总量为0.18zb,也就是10亿TB。

    问题1:数据处理速度不够,以100mb每秒计算,读取1tb的数据需要2个半小时。一个比较好的方案就是把数据放在100个磁盘中每个磁盘中存放1%的数据并行读取,不到2min就能读取所有数据。经过统计用户的分析工作会在不同的时间点进行,所以用户相互间的干扰不会太大。但是一旦硬件发生故障,用户的数据就会丢失,所以要准备多份。(HDFS)

    问题2:需要从100个磁盘中取出数据结合使用。Mapreduce将这个问题抽象,转化为对一个数据集合的计算。这个计算模型分为map和reduce两个阶段,只有这两个部分对外提供接口。

    举例 Rackspace的一个部门Mailtrust:mapreduce是一种比较蛮力的办法,每个查询几乎需要处理整个数据集,至少是数据集的很大一部分。在合理的时间内对整个数据集合的数据即时查询,是对数据的一种创新。rackspace的mailtrust部门,使用hadoop处理邮件日志,他们做用户地理分布查询。“这些数据非常有用,每个月运行一次决定哪些rackspace数据中心需要添加新的邮件服务器“。通过整合数百GB的数据,并分析,可以通过这些数据改善现有服务。

    1.1.2 Hadoop的发展史

    Hadoop起源于Nutch网络搜索引擎,Nutch是Lucene(一个文本搜索系统库)的一部分,创始人为Doug Cutting。

    Nutch项目开始于2002年

    2004年开始开发GFS的开源版本NDFS,谷歌发表论文向全世界介绍它的mapreduce系统。

    2005年实现了mapreduce的开源版本。

    2006年将hadoop移出Nutch独立成为一个项目,hadoop创始人进入雅虎

    2008年Hadoop成为apache顶级项目,证明了其成功。209S 完成1tb数据排序 2009年4月 59秒排序500GB 1400节点 173分钟排序100T的数据3400节点 典型案例 纽约时报 facebook last.fm

    1.1.3 Hadoop生态系统

    Common:IO组件于接口(序列化,javaRPC,持久化数据结构)

    Pig: 数据流语言和运行环境,检索非常大的数据集

    Hive: 管理HDFS中的数据,提供sql查询

    Hbase: 安列存储数据库,支持批量式计算和点查询

    ZooKeeper: 一个分布式、可用性高的协调系统。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

    Sqoop: 在数据库和HDFS之间高效传输的数据工具。

    Kerberos:实现的是机器级别的安全认证,也就是前面提到的服务到服务的认证问题。防止了用户伪装成Datanode,Tasktracker,去接受JobTracker,Namenode的任务指派。Kerberos对可信任的客户端提供认证,确保他们可以执行作业的相关操作。防止用户恶意冒充client提交作业的情况。用户无法伪装成其他用户入侵到一个HDFS或者MapReduce集群上。用户即使知道datanode的相关信息,也无法读取HDFS上的数据,用户无法发送对于作业的操作到JobTracker上。

    2 主要研究的内容

    2.1 系统概述

    2.1.1 功能与作用

    众所周知,现代社会的信息量增长速度极快,这些信息里又积累着大量的数据,其中包括个人数据和工业数据。预计到2020年,每年产生的数字信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理,以获取更多有价值的信息。那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?这时可以选用Hadoop系统,它在处理这类问题时,采用了分布式存储方式,提高了读写速度,并扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效。与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性。

    Hadoop中HDFS的高容错特性,以及它是基于Java语言开发的,这使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。

    2.1.2 具体任务

    对本系统分析后,系统的具体任务主要如下:

    1) 调研该项目的状况和成果。

    2) 对所选题目进行可行性分析,从技术和可操作性上进行分析

    3) 根据目前掌握和了解的技术选择最适合的开发工具和开发语言,对所用到的

    技术及语言相关知识进行学习巩固

    4) 配置,部署hadoop

    5) 测试,使用hadoop

    2.1.3 设备要求

    1) 操作系统

    CentOS6.2

    2) Hadoop-1.0.4-1

    3) JDK1.6.0_04

    2.2 系统设计

    2.2.1 体系结构

    Hadoop的核心框架包括两个部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的缩写)是分布式计算的基石,而Mapreduce是任务的分解和结果的汇总。简单的说,Map就是 将一个任务分解成 为多个任务,而Reduce就是将分解后多任务处理的结果汇总起来得出最后的结果;HDFS是一个与其它文件系统类似的,对于整个集群有单一的命名空间,文件被分割为多块分配存储到数据节点上的一个系统。

    图2.1 数据处理流程图

    3 设计的预期结果

    1) 部署和测试hadoop

    随时掌控工作的全面情况。

    2) 使用hadoop

    用来实现诸如统计单词出现次数的mapreduce程序

    篇二:基于hadoop的分布式存储平台的搭建与验证

    毕业设计(论文)

    中文题目:基于hadoop的分布式存储

    平台的搭建与验证

    英文题目: Setuping and verification distributed storage platform

    based on hadoop

    1

    学 院: 计算机与信息技术 专 业: 信息安全 学生姓名: 学 号: 指导教师:

    月 日

    2

    任务书

    题 目: 基于hadoop的分布式文件系统的实现与验证适合专业: 信息安全指导教师(签名): 提交日期: 2013 年 3 月 8 日

    学院:计算机与信息技术学院 专业:信息安全

    学生姓名:学号:

    毕业设计(论文)基本内容和要求:

    本项目的目的是要在单独的一台计算机上实现Hadoop多节点分布式

    计算系(转 载 于:wWw.zAIdian.cOM 在 点 网)统。

    基本原理及基本要求如下:

    1. 实现一个NameNode

    NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负

    责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将

    文件映射到 DataNode 上的复制块上。

    实际的 I/O 事务并没有经过 NameNode,只有表示 DataNode 和块的

    文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件

    时,NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为

    响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。

    2。实现若干个DataNode

    DataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。

    Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架

    的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假

    设是:机架内部节点之间的传输速度快于机架间节点的传输速度。

    DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自

    NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个

    DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告

    NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果

    - 3 -

    - 4 -

    - 5 -

    篇三:云计算开题报告

    科研训练开题报告

    题目:

    云计算以及hadoop的简单应用

    学 院 专 业 学 号 姓 名 指导老师

    数学与计算机学院 计算机科学与技术

    090501219 吴高福 李诗高 2012-05-25

    一. 课题名称

    云计算以及hadoop的简单应用 二.课题的背景

    当前,全球IT 产业正在经历着一场声势浩大的“云计算”浪潮。云计算秉承“按需服务”的理念,狭义的云计算指IT 基础设施(硬件、平台、软件)的交付和使用模式,广义的云计算指服务的交付和使用模式,即用户通过网络以按需、易扩展的方式获得所需的IT 基础设施/服务。云计算快速成为了一种广泛接受的计算模式。工业界和学术界对云计算的核心概念有了一定的共识,对云计算提供新的服务和消费商业模式有了基本认同。另外,云计算产业应用,需要满足服务质量需求、服务层协议和标准支撑,得到了普遍认同。云计算是商业模式的创新,主要实现形式包括软件即服务(SaaS)、平台即服务( PaaS)和基础设施即服务(IaaS)3个层次。

    云计算和移动化是互联网的两大发展趋势。云计算为移动互联网的发展注入了动力。IT 和电信企业将基于已有基础进行价值延伸,力求在“端”—“管”—“云”的产业链中占据有利位置甚至获得主导地位。电信运营商在数据中心、用户资源、网络管理经验和服务可靠性等方面具有优势,目前主要通过与IT 企业的合作逐步推出云计算服务。

    鉴于云计算有广阔应用前景,世界上许多国家都将它列为优先发展的战略产业,众多企业投入大量人力物力开发云应用产品。然而,云计算产业尚处于发展的起步阶段。云计算从理论基础、技术、服务模式和标准化工作等方面都不够成熟。云计算的发展需要政府、企业和科研机构投入人力和物力,进行研究和开发。国际组织积极推动云计算的标准化工作,包括中国在内的各国政府高度重视云计算并积极采取行动推动云计算的发展。云计算的市场潜力巨大,随着用户的信任感不断提高,未来几年将继续保持较快增长。

    三. 研究意义

    本文主要综述云计算相关技术,阐述云计算的基本概念,核心技术和标准化工作,并使用hadoop下的map/reduce写了个简单的应用程序wordcount来体现云计算的强大 四研究的进度安排

    第1周: 完成开题报告

    第2-6周:围绕云计算理论基础及应用情况,对云计算的研究机构以及提供云计算产品与服务的企业的云平台的使用或文献进行分析、比较、思考并提出有关设想。 第6-7周:中期检查

    第7-15周:论文的初稿,教师指导、学生修改和完善 第16周:论文的定稿、答辩

    五.纲要

    1.云计算概述

    1.1什么是云计算 1.2云计算的种类

    1.3云计算的前世今生 1.4云计算机的趋势

    1.5为什么需要云计算机

    2 云计算的实现

    2.1 云资源调度 2.2 负载均衡算法

    3 云计算的基本应用

    3.1 hadoop简介 3.2 Map/Reduce

    3.3 Hadoop上的Map/Reduce程序

    七.参考资料

    ○1《实战hadoop-开启通向云计算的捷径》刘鹏 电子工业出版社 ○2维基百科条目—云计算:

    http://zh.wikipedia.org/zh-cn/%E4%BA%91%E8%AE%A1%E7%AE%97

    3 《云计算实现、管理与安全》,(美)John W.Rittinghouse,James F.Ransome著 田思源、赵学锋译。机械○

    工业出版社

    4《云计算—资源调度管理》 田文洪、赵勇。国防工业出版社 ○

    5《虚拟化与云计算》黄建波,丁扬,方芳 ○

    6《云计算及其历史与发展》 ○

    7《科技创新导报》2009 NO.28 <浅析云计算的安全策略>高云 ○

    8 中国比特网:○

    9A View of Cloud Computing ○

    10Above the Clouds: A Berkeley View of Cloud Computing ○

    11《虚拟化与云计算》北京:电子工业出版社,2009.10 ○