分布式文件系统

搜索引擎-网络爬虫

通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。 1. 网络爬虫本质就是浏览器http请求。浏览器和网络爬虫是两种不同的网络客户端，都以相同的方式来获取网…

Linux干货 2015-11-18

MogileFS基于Nginx反向代理实现分布式存储与访问

前言随着信息社会的发展，越来越多的信息被数据化，尤其是伴随着大数据时代的来临，数据呈爆炸式增长。传统存储在面对海量数据存储表现出的力不从心已经是不争的事实，例如：纵向扩展受阵列空间限制，横向扩展受交换设备限制，节点受文件系统限制等。而分布式存储的出现在一定程度上有效的缓解了这一问题，目前比较流行的分布式文件系统有：GFS、HDFS、GlusterFS、Mo…

Linux干货 2015-07-08

Hadoop集群配置（最全面总结）

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\ 官方地址：(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.ht…

Linux干货 2015-04-13

谷歌三大核心技术（二）Google MapReduce中文版

摘要 MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子，本论文将详细描…

Linux干货 2015-04-13

谷歌三大核心技术（一）The Google File System中文版

摘要我们设计并实现了Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的能力，为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处，但是，我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的，不管现在还是…

Linux干货 2015-04-13

Hadoop实战实例

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器…

Linux干货 2015-04-13

Hadoop简介

Hadoop的概要介绍 Hadoop，是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的，具有良好的可移植性。 Hadoop的发展历史 &nbsp…

Linux干货 2015-04-13

hadoop安全模式

hadoop安全模式在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文…

Linux干货 2015-04-13

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapredu…

Linux干货 2015-04-13

谷歌三大核心技术（三）Google BigTable中文版

摘要 Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大，无论是在数据量上（从URL到网页到卫星图像）还是在响应速度上…

Linux干货 2015-04-13

Hadoop HDFS分布式文件系统设计要点与架构

Hadoop简介：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件…

Linux干货 2015-04-13