临近放假之前,本来打算把一个软件著作权完成的,然后再利用假期准备一下找工作的东西,可是突然冒出一个Hadoop项目来,只能顺着导师的意思,完成这个项目了,一眨眼功夫,一个多月过去了,项目马马虎虎算是凑合着过去了。
现在想想,其实也是挺闹眼子的,Hadoop项目看起来挺牛挺神奇的东西,被我们这么一用也不见得有啥的,搞几台电脑主机,而且还不是服务器,通过hadoop环境部署连接起来,分布式的处理任务,总体用起来不见得有多快,甚至有些地方还没有之前的好~
整个工作就是将之前的一个网站功能重新部署到Hadoop平台上去,网站信息的下载处理还是按老方法,用java实现,后面的统计词频和聚类分类换
成了hadoop的mapreduce来实现了,不过实现起来效果不是很理想,聚类和分类都是用了Mahout里面已有的方法来做的,最后的页面展示部
分,主要从HBase里面读取数据显示到页面上,读取效率太低了,主要是源于Hbase没有自己的索引功能,还要自己根据需要建立模拟索引表来提高效率。
整个项目在真正去做的时候才发现也不见得有多么的神奇,不见的有多么的了不起。
大致了解了Hadoop的单机环境配置,运行原理,知道了MapReduce的一个执行方式,了解了HBase的存储方法,优缺点,真正用的最多的
是HBase的过滤机制,通过过滤对信息进行筛选,通过Get方法对信息进行提取。还有HDFS的一些远程命令,文件操作命令等的使用,实战经验还是掌握
的不多,只能说是一个大致的了解而已,使得这个东西对我来说不再是那么神秘了。
整个项目由于项目管理者没能很好的发挥作用,使得各个小组在进行功能组合的时候发生了很多的不一致,在调节不一致这个点上又浪费了好多时间,同时也
由于需求是不明确,不精确,整个项目是想改就改,实在是很纠结人,这时想想,一个项目的需求分析实在是太重要了,文档的细致更是重要至极啊!
不管怎么样,算是跟各位同学一同经历了一段共同努力的日子,一起进步,一起学习,每天都有收获的感觉还是非常好的!
分享到:
相关推荐
Hadoop 相关项目简介,hadoop生态体系涉及到的组件的大概介绍
【Hadoop项目】全国各省市酒店数据的分析与处理
这个是课本上的项目,很早以前做的,数据文件(没放在代码里)得自己下载,你们得在自己电脑上做修改才能不报错,至于怎么修改,我也不知道。或许是改ip地址,版本信息,数据库配置之类的......这个主要是一个参考...
网上很难找的hadoop代码,很适合初学或想从事大数据方向的程序猿,心动者赶紧下载。
Hadoop项目实战
基于Hadoop的JAVA简易网盘项目源码+数据库.zip基于java的简易网盘项目 hdfs为 192.168.31.10:8020/Mycould 采用mysql本地 panuser 基于Hadoop的JAVA简易网盘项目源码+数据库.zip基于java的简易网盘项目 hdfs为 192....
Eclipse开发Hadoop相关项目本地配置插件,本地Eclipse相关配置插件和本地电脑部署Hadoop的相关插件
Hadoop项目的成功公式,will be helpful for Hadoop project. this is from Hadoop Summit 2013.
1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,...
《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf《Hadoop系统搭建及项目实践》课程标准.pdf...
Hadoop大数据开发案例教程与项目实战
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用、Hive简单操作等
《Hadoop系统搭建及项目实践》课件05Hadoop IO操作.pdf《Hadoop系统搭建及项目实践》课件05Hadoop IO操作.pdf《Hadoop系统搭建及项目实践》课件05Hadoop IO操作.pdf《Hadoop系统搭建及项目实践》课件05Hadoop IO操作...
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
在网站流量日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,需要注意的是结合语境明白是何种含义的数据采集。
人工智能-hadoop
hadoop web项目的改进版,新增ajax技术。ajax主要是在浏览器中输入hdfs路径时的后台检查和在监控任务执行状态时使用ajax去和后台交互,获取job信息。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File ...
基于Hadoop生态系统的大数据解决方案,贯穿案例,音乐排行榜,是最好的项目实战案例