hadoop

Linux干货

Hadoop伪分布式模型

# java -version # vim /etc/profile.d/java.sh export JAVA_HOME=/usr # yum install java-1.8.0-openjdk-devel # mkdir /bdapps # tar xf hadoop-2.7.4.tar.gz -C /bdapps/ # cd /bdapps # ln…

2017-12-08

Linux干货

Hadoop hdfs分布式文件系统

一、MapReduce理论基础每个MapReduce job都是Hadoop客户端想要执行的一个工作单元，它一般由输入数据、MapReduce程序和配置信息组成，而Hadoop会把每个job分隔成两类任务(task)：map任务和reduce任务。在Hadoop集群中有两类节点来执行两类job进程的执行 1.1 大数据处理任何基础业务包含了收集、分析、监…

2017-12-08

Hadoop简介

Hadoop的概要介绍 Hadoop，是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的，具有良好的可移植性。 Hadoop的发展历史 &nbsp…

Linux干货 2015-04-13

Hadoop实战实例

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器…

Linux干货 2015-04-13

用PHP编写Hadoop的MapReduce程序

Hadoop流虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且可以把数据写入标准输出流中，那么就可以通过Hadoop流使…

Linux干货 2015-04-13

hadoop安全模式

hadoop安全模式在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文…

Linux干货 2015-04-13

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapredu…

Linux干货 2015-04-13

Hadoop Hive与Hbase整合+thrift

1. 简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive与HBas…

Linux干货 2015-04-13

Hadoop HDFS分布式文件系统设计要点与架构

Hadoop简介：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件…

Linux干货 2015-04-13

使用Storm实现实时大数据分析

摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了，Storm让大数据分析变得轻松加愉快。当今世界，公司的日常运营经常会生成TB级别的数据。数据来源…

Linux干货 2015-04-04

你的数据根本不够大，别老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio@gmail.co…

Linux干货 2015-04-04

zabbix监控Hadoop的实现

Hadoop日常运行过程中一些参数需要进行实时监控，如：Map、Reduce任务数量，HDFS磁盘使用情况，namenode、datanode在线数量及健康情况，以便更好的掌握整个Hadoop集群架构的运行情况。下面结合最近工作中的一些…

Linux干货 2015-03-08

数据分析≠Hadoop+NoSQL，不妨先看完善现有技术的10条捷径

让业务搭乘大数据技术确实是件非常有吸引力的事情，而Apache Hadoop让这个诱惑来的更加的猛烈。Hadoop是个大规模可扩展数据存储平台，构成了大多数大数据项目基础。Hadoop是强大的，然而却需要公司投入大量的学习精力及其它的资源。如果得到正确的应用，Hadoop确实能从根本上提升你公司的业务，然而这条Hadoop的应用之路却充满了荆棘。另一个方面…

Linux干货 2015-02-25