s19930811

信息论的熵

1. 前言熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看，应叫不确定性。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。在信息世界，熵越…

Linux干货 2016-03-27

Hive深入浅出

1. Hive是什么 1) Hive是什么？这里引用 Hive wiki 上的介绍： Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put stru…

Linux干货 2016-03-22

Redis应用场景

1. MySql+Memcached架构的问题　　实际MySQL是适合进行海量数据存储的，通过Memcached将热点数据加载到cache，加速访问，很多公司都曾经使用过这样的架构，但随着业务数据量的不断增加，和访问量的持续增长，我们遇到了很多问题：　　1.MySQL需要不断进行拆库拆表，Memcached也需不断跟着扩容，扩容和维护工作占据…

Linux干货 2016-03-22

Flex Ant自动构建

1. Flex SDK Ant Flex开发者会遇到很多，比如自动构建，在一个有着N多模块，N处源码，构建过程复杂的Flex项目开发中，依赖人力手工构建项目非常不现实（机械重复且枯燥无味的过程，相信哪位开发人员都会避之唯恐不及，而且对于人力是非常大的浪费），而通过使用Ant，我们可以将这些工作…

Linux干货 2016-03-22

如何成为一名软件架构师

Daniel Mohl是一名专业的软件工程师/架构师，他的兴趣包括理解各种复杂的编程语言、企业应用架构以及如何搭建业务与技术，他通晓F#、C#、CoffeeScript、JavaScript、Erlang、ASP.NET、MVC、WPF、WCF、Sliverlight、SQL Server等技术。有着多年的软件开发经验。他经常会被一些有潜力和有前途的程序员…

Linux干货 2016-03-22

谁说C语言很简单？

前两天，Neo写了一篇《语言的歧义》其使用C语言讨论了一些语言的歧义。大家应该也顺便了解了一下C语言中的很多不可思异的东西，可能也是你从未注意到的东西。是的，C语言并不简单，让我们来看看下面这些示例：为什么下面的代码会返回0？(这题应该很简单吧) int x; return x == (1&…

Linux干货 2016-03-20

TIME_WAIT引起Cannot assign requested address报错

1. 问题描述有时候用redis客户端（php或者java客户端）连接Redis服务器，报错：“Cannot assign requested address。” 原因是客户端频繁的连接服务器，由于每次连接都在很短时间内结束，导致很多的TIME_WAIT。所以新的连…

Linux干货 2016-03-09

链接分析算法之：主题敏感PageRank

前面的讨论提到。PageRank忽略了主题相关性，导致结果的相关性和主题性降低，对于不同的用户，甚至有很大的差别。例如，当搜索“苹果”时，一个数码爱好者可能是想要看 iphone 的信息，一个果农可能是想看苹果的价格走势和种植技巧，而一个小朋友可能在找苹果的简笔画。理想情况下，应该为每个用户维护一套专用向量，但面对海量用户这种方法显然不可行。所…

Linux干货 2016-02-17

PageRank算法

1. PageRank算法概述 PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的…

Linux干货 2015-12-15

机器学习排序

从使用的数据类型，以及相关的机器学习技术的观点来看，互联网搜索经历了三代的发展历程。第一代技术，将互联网网页看作文本，主要采用传统信息检索的方法。第二代技术，利用互联网的超文本结构，有效…

Linux干货 2015-12-15

Linux干货

信息论的熵

Hive深入浅出

Redis应用场景

Flex Ant自动构建

如何成为一名软件架构师

谁说C语言很简单？

TIME_WAIT引起Cannot assign requested address报错

链接分析算法之：主题敏感PageRank

PageRank算法

机器学习排序

搜索引擎的检索模型-查询与文档的相关度计算

搜索引擎-处理查询

倒排索引-搜索引擎的基石

搜索引擎-倒排索引基础知识

搜索引擎-网络爬虫