大数据运维

Linux干货

免费翻墙 [精]

本人在hostus上买了一个国外的vps，花了一上午把Google给做好，可以访问g.abcdocker.com进行搜索，因为是使用nginx代理进行翻墙。网上的文章也很乱，很不好整理。可以可以使用g.abcdocker.com上Google查阅资料。（无法观看视频） www.abcdocker.com

2017-06-17

linux入门学习动手部分

linux入门学习了几天，各种命令跟选项如果靠记忆很容易忘记，通过下面随堂实验加深记忆实验操作部分 enable 命令使用禁用内部命令 enable -n echo 禁用echo命令重新启用echo命令 enable echo type 命令使用 type -a echo 列出所有echo的内部命令外部命令 type -p cd 显出cd外部命令的路径…

Linux干货 2017-05-20

优云软件数据专家最佳实践：数据挖掘与运维分析

这份研究报告，作者是优云软件数据专家陈是维，在耗时1年时间制作的一份最佳实践，今天和大家分享下，关于《数据采矿和运维分析》，共同探讨~ 数据挖掘（Data Mining）是从大量数据中提取或“挖掘”知识。广义数据挖掘：数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。数据挖掘技术侧重：1）概率与数理统计 2）数据库技术 3）人…

大数据运维 2016-07-16

Nginx代理MogileFS并实现负载均衡和高可用

Nginx代理MogileFS并实现负载均衡和高可用 MogileFS nginx 负载均衡前言实验拓扑实验环境实验步骤配置MogileFS 配置Nginx 总结前言上篇文章我们了解分布式系统和MogileFS的基本使用, 但是那样的架构是有问题的, 本篇文章我们来了解一下如何使用nginx-mogilefs-module-…

大数据运维 2016-05-05

分布式系统介绍及MogileFS安装、基本配置

分布式系统介绍及MogileFS安装、基本配置分布式 MogileFS 前言: 什么是分布式? 分布式存在的意义? 分布式的难点及CAP、BASE、2PC、X/Open XA介绍分布式存储和分布式文件系统: MogileFS实现原理: MogileFS编译安装和配置总结前言: 不知不觉中我们就进入大数据时代, 什么是大数据? 什么是分布式?…

Linux干货 2016-05-04

分布式文件系统Mogilefs介绍与安装

一、分布式文件系统简介：什么是分布式存储：分布式存储系统，是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储…

Linux干货 2016-05-04

NFS(Network File System)介绍与应用（双httpd + php-fpm + nfs + mysql 搭建discuz论坛）

NFS相关介绍一、NFS简介 1. NFS（Network File System）: NFS是一个文件共享协议，也是是在类Unix系统中在内核中实现的文件系统。 2. 起源：最早是由SUN公司研发，非常古老，只是实现文件共享，安全控制方面比较简…

Linux干货 2015-07-21

链接分析算法之：SALSA算法

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点，既可以利用HITS算法与查询相关的特点，也可以采纳PageRank的“随机游走模型”，这是SALSA算法提出的背景。由此可见，SALSA算法融合了PageRank和HITS算法的基本思想，从实际效果来说，很多实验数据表明，SALSA的搜索效果也都优于前两个算…

大数据运维 2015-07-21

Hadoop集群配置（最全面总结）

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\ 官方地址：(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.ht…

Linux干货 2015-04-13

谷歌三大核心技术（二）Google MapReduce中文版

摘要 MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子，本论文将详细描…

Linux干货 2015-04-13

谷歌三大核心技术（一）The Google File System中文版

摘要我们设计并实现了Google GFS文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的能力，为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处，但是，我们的设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的，不管现在还是…

Linux干货 2015-04-13

hbase安装配置（整合到hadoop）

1. 快速单击安装在单机安装Hbase的方法。会引导你通过shell创建一个表，插入一行，然后删除它，最后停止Hbase。只要10分钟就可以完成以下的操作。 1.1下载解压最新版本选择一个 Apache 下载镜像：http://www.apache.org/dyn/closer.cgi/hbase/，下载 HBase Re…

Linux干货 2015-04-13

Hadoop实战实例

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器…

Linux干货 2015-04-13

Hadoop简介

Hadoop的概要介绍 Hadoop，是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的，具有良好的可移植性。 Hadoop的发展历史 &nbsp…

Linux干货 2015-04-13

用PHP编写Hadoop的MapReduce程序

Hadoop流虽然Hadoop是用java写的，但是Hadoop提供了Hadoop流，Hadoop流提供一个API, 允许用户使用任何语言编写map函数和reduce函数.Hadoop流动关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据，并且可以把数据写入标准输出流中，那么就可以通过Hadoop流使…

Linux干货 2015-04-13