搜索引擎 | Linux运维部落

链接分析算法之：主题敏感PageRank

前面的讨论提到。PageRank忽略了主题相关性，导致结果的相关性和主题性降低，对于不同的用户，甚至有很大的差别。例如，当搜索“苹果”时，一个数码爱好者可能是想要看 iphone 的信息，一个果农可能是想看苹果的价格走势和种植技巧，而一个小朋友可能在找苹果的简笔画。理想情况下，应该为每个用户维护一套专用向量，但面对海量用户这种方法显然不可行。所…

Linux干货 2016-02-17

机器学习排序

从使用的数据类型，以及相关的机器学习技术的观点来看，互联网搜索经历了三代的发展历程。第一代技术，将互联网网页看作文本，主要采用传统信息检索的方法。第二代技术，利用互联网的超文本结构，有效…

Linux干货 2015-12-15

Linux干货

搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述搜索结果排序时搜索引擎最核心的部分，很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多，但最主要的两个因素是用户查询和网页内容的相关度，以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。 &nbsp…

2015-12-10

搜索引擎-处理查询

我们从用户的角度来看，用户不关心什么索引结构是倒排还是签名文件，也不需要知道相关排序算法。用户提交了查询，就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。 1.查询流程查询流程图： 1）用户提交查询 2）分析查询查询预处理： …

Linux干货 2015-12-10

倒排索引-搜索引擎的基石

1.概述在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引起，他它并不能满足其特殊要求： 1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量，面对…

Linux干货 2015-12-10

搜索引擎-倒排索引基础知识

1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。 …

Linux干货 2015-12-10

搜索引擎-网络爬虫

通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。 1. 网络爬虫本质就是浏览器http请求。浏览器和网络爬虫是两种不同的网络客户端，都以相同的方式来获取网…

Linux干货 2015-11-18

搜索引擎的技术架构

1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种：分别是全文搜索引擎（Full Text Search Engine）目录索引类搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。 ■ 全文搜索引擎　　全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Fast/Al…

Linux干货 2015-11-18

链接分析算法之：SALSA算法

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点，既可以利用HITS算法与查询相关的特点，也可以采纳PageRank的“随机游走模型”，这是SALSA算法提出的背景。由此可见，SALSA算法融合了PageRank和HITS算法的基本思想，从实际效果来说，很多实验数据表明，SALSA的搜索效果也都优于前两个算…

大数据运维 2015-07-21

链接分析算法之：HITS算法

HITS（HITS(Hyperlink – Induced Topic Search) ）算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究…

开发运维 2015-07-20

操作系统文件管理

在现代计算机系统中，要用到大量的程序和数据，因内存容量有限，且不能长期保存，故而平时总是把它们以文件的形式存放在外存中，需要时再随时将它们调入内存。如果由用户直接管理外存上的文件，不仅要求用户熟悉外存特性，了解各种文件的属性，以及它们在外存上的位置，而且在多用户环境下，还必须能保持数据的安全性和一致性。显然，这是用户所不能胜任、也不愿…

Linux干货 2015-04-13

链接分析算法之：HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申请专利，但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师，然后授权给Google使用的。 &nbsp…

大数据运维 2015-04-08

Trie树：应用于统计和排序

1. 什么是trie树 1.Trie树（特例结构树） Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少…

Linux干货 2015-04-08

深入解析：分布式系统的事务处理经典问题及模型(转载分享)

摘要：分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型，如：Master-Slave，Master-Master，2PC/3PC，经典的将军问题，Paxos，以及Dynamo的NRW和VectorClock的模型。编者按：数据服务的高可用是所有企业都想拥有的，但是要想让数据有高可用性，就需要冗余数据写多份。写多份…

Linux干货 2015-04-04