怎样进行大数据的入门级学习

发布网友发布时间：2022-04-18 07:47

我来回答

共9个回答

懂视网时间：2022-04-18 12:08

进行大数据的入门级学习的分析如下：

　　1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；

　　2、要看看数据“长什么样”，有什么特点和规律；

　　3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。

热心网友时间：2022-04-18 09:16

如今大数据发展得可谓是如日中天，各行各业对于大数据分析和大数据处理的需求也是与日俱增，越来越多的决策、建议、规划和报告，都要依靠大数据的支撑，学习大数据成了不少人提升或转行的机会。因此，入门大数据开始成为很多人的第一步，下面给大家讲讲，究竟大数据入门，首要掌握的知识点有哪些，如何一步一步进阶呢？

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。楼主是JAVA毕业的，这无疑是极好的开头和奠基啊，可谓是赢在了起跑线上，接收和吸收大数据领域的知识会比一般人更加得心应手。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据。基础

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

热心网友时间：2022-04-18 10:34

加米谷认为零基础小白，如果真对大数据感兴趣，对大数据行业有了一定了解后，可以这样进行大数据的入门学习：

1、学习计算机知识

推荐书籍：《计算机基础知识入门》、《计算机组成原理》

2、学习Linux操作系统

推荐学习资源：Linux 基金会关于 Linux 的介绍、《Linux 新手终极指南》、《Linux 基础》、《Linux 命令行》

3、学习Java编程

书籍推荐：《Java编程思想》、《Effective Java》

4、大数据平台

Hadoop，Scala，spark专业课程必须精通，网络上这些资源质量参差不齐，注意选择。

热心网友时间：2022-04-18 12:09

经常有初学者问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。。。。。。。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。

其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。

先扯一下大数据的4V特征：

l 数据量大，TB->PB
l 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；
l 商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；
l 处理时效性高，海量数据的处理需求不再局限在离线计算当中。
现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：

文件存储：Hadoop HDFS、Tachyon、KFS
离线计算：Hadoop MapRece、Spark
流式、实时计算：Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库：HBase、Redis、MongoDB
资源管理：YARN、Mesos
日志收集：Flume、Scribe、Logstash、Kibana
消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务：Zookeeper
集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习：Mahout、Spark MLLib
数据同步：Sqoop
任务调度：Oozie
……

眼花了吧，上面的有30多种吧，别说精通了，全部都会使用的，估计也没几个。

下面我主要说一下第二个方向（开发/设计/架构）

第一章：初识Hadoop

1.1 学会百度与Google
不论遇到什么问题，先试试搜索并自己解决。
Google首选，翻不过去的，就用百度吧。
1.2 参考资料首选官方文档
特别是对于入门来说，官方文档永远是首选文档。
相信搞这块的大多是文化人，英文凑合就行，实在看不下去的，请参考第一步。
1.3 先让Hadoop跑起来
Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

关于Hadoop,你至少需要搞清楚以下是什么：
l Hadoop 1.0、Hadoop 2.0
l MapRece、HDFS
l NameNode、DataNode
l JobTracker、TaskTracker
l Yarn、ResourceManager、NodeManager

自己搭建Hadoop，请使用第一步和第二步，能让它跑起来就行。

建议先使用安装包命令行安装，不要使用管理工具安装。

另外：Hadoop1.0知道它就行了，现在都用Hadoop 2.0.
1.4 试试使用Hadoop

HDFS目录操作命令；
上传、下载文件命令；
提交运行MapRece示例程序；

打开Hadoop WEB界面，查看Job运行状态，查看Job运行日志。

知道Hadoop的系统日志在哪里。

1.5 你该了解它们的原理了

MapRece：如何分而治之；
HDFS：数据到底在哪里，什么是副本；
Yarn到底是什么，它能干什么；
NameNode到底在干些什么；
ResourceManager到底在干些什么；

1.6 自己写一个MapRece程序

请仿照WordCount例子，自己写一个（照抄也行）WordCount程序，
打包并提交到Hadoop运行。

热心网友时间：2022-04-18 14:00

1R programming

如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：
R in action：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的 R basics
2Python

Think Python，Think
Stats，Think Bayes：这是Allen B. Downey写的著名的Think X
series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。
3Exploratory Data Analysis 和 Data Visualization
Exploratory Data
Analysis：John
Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。
4Machine Learning & Data Mining

这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep

learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep
learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep
learning这两块就不荐书了。

热心网友时间：2022-04-18 16:08

目前可以先学习HADOOP，如果学数据挖掘和机器算法，推荐先看数据挖掘导论，统计分析原理。

热心网友时间：2022-04-18 18:33

先了解自己想往那些方面去发展，然后再跟是市场目前所需要的市场岗位选择，看自己适合那个岗位，是大数据开发，还是大数据可视化，或者其他的。
目前针对0基础这块的大数据培训，市场口碑最好的还是光环大数据和飞马训练营，两个都还不错，市场口碑非常好！学员就业率也不错

热心网友时间：2022-04-18 21:14

经常有初学者问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。。。。。。。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么

热心网友时间：2022-04-19 00:12

我们都知道现在大数据很火，很多小伙伴也在学习大数据的方法，比如说：怎样进行大数据的入门学习？
对于大数据的入门学习，基础不一样，起点就会不一样，今天先来说说，对于零基础的同学想要学习大数据的方式方法吧！很多人可能感到不可思议，零基础怎么可能学习大数据，没有编程基础怎么能入门呢？其实这个观点是很正确的，对于大数据的开发而言，是需要一定的编程基础的，所以我们的大数据入门级课程就落在了编程语言的学习。

现在一般的大数据入门课程，都是从编程语言开始教授的，但请你一定要认清一个问题，编程语言只是大数据课程的一小部分，如果整个大数据的课程一大部分都是编程语言的教授，你就要小心了，这真的不是真正的大数据课程。还有一些“戏精”机构以HTML5、Java、大数据可视化等擦边知识，混淆真实大数据授课标准课程，蒙蔽学员，发现时才追悔莫及。我们总结以下假课，避免学员入坑。
不靠谱的大数据学习课程总结如下：
1、大数据偏HTML5
课程偏重HTML5、css、HTMl、AJAX、jQuery、AngleJs、Js等内容讲解。
2、大数据偏Java
课程偏重Java、JavaWeb、Spring、SpringMVC、MyBatis、HTCargo项目实战。
3、大数据偏大数据可视化
课程偏重Photoshop、Javascript及可视化工具，就职大数据运维工程师。薪资低、就业慢，岗位少。
4、大数据偏测试课程
课程偏重数据库管理系统（DBMS）、VBScript脚本语言等。
靠谱的大数据学习课程如下：
靠谱的大数据学习课程，要让学生掌握计算机技术、hadoop 、spark、storm开发、hive 数据库、Linux 操作系统等知识，具备分布式存储、分布式计算框架等技术，熟悉大数据处理和分析技术。
其中，大数据生态体系的各个模块的功能和开发技术，包括 Hadoop 体系中的 HDFS， Hbase 进行数据操作，MapRece 进行数据开发，YARN 进行资源配置，Hive 完成数据仓库，Pig进行数据分析，以及 Oozie，Zookeeper，Sqoop 和 Flume 等模块。还有Spark 生态体系的学习，及其 Scala 基础和 SparkSQL 开发。
话不多说了，想要学习大数据的，快开始行动吧！

首页

文章

怎样进行大数据的入门级学习