需要极大的数据运算量,对于这样的搜索工作。一般说来,对于某个搜索,要有超过 500 台的服务器协同工作以求得最佳匹配的结果,当然,结果会在半秒内返回用户。

谷歌怎样收录及搜索网页排序问题

需要极大的数据运算量,对于这样的搜索工作。一般说来,对于某个搜索,要有超过 500 台的服务器协同工作以求得最佳匹配的结果,当然,结果会在半秒内返回用户。

遇到最常见的问题之一是 Googl 如何判定哪个结果呈现在搜索结果的前茅 ? Matt Cutt 给我简单地揭示了如何抓取、收录和给网页评级。

抓取和收录

Googl 后台已经做了许多步骤。 Googl 第一步是抓取和收录互联网上的数十亿的网页,当你看到呈现在 Googl 搜索结果的那个网页之前。这个工作时由 Googl 机器人 Googlebot 来完成的浏览网络服务器抓取文件。抓取的顺序并不是漫无目的地在互联网上瞎逛,访问服务器的特定的网页,然后扫描网页上的超文本链接,如果有新的文件也是这样抓取得 ; 蜘蛛程序给每个得到网页一个号码,这个号码指向它抓取的网页。

但这些网页还不是便于搜索的如果没有一个索引,蜘蛛程序抓取了很多的网页。要查询一个词,比方 “ 国内战争 ” Googl 服务器每次都要读取每一个文件的所有内容。

第二步就是建立索引。不是去扫描每一个文件的所有内容,因此。巧妙地进行数据的转换 ” 列出每一个文件所包含的特定的词,例如,国内 ” 这个词可能出现在文件 3 8 22 56 68 和 92 当中,而 “ 战争 ” 这个词出现在文件 2 8 15 22 68 和 77 中。

就可以开始对网页进行评级,建立好索引之后。决定网页的相关水平。假设有人在 Googl 搜索栏输入 “ 国内战争 ” 进行查询,为了提交搜索结果和对结果进行评分,要做两件事:

1. 找到包括用户查询的词的网页

2. 给符合的网页依照相关水平进行评级

而是用千百个计算机来存储这些信息。因为任务被分解到许多的计算机,Googl 开发出一个有趣的技巧来加速第一步: Googl 不是把整个索引存储在一台功能强大的计算机上。可以更快地找到所需的答案。详细解释一下,假设一本书的目录有 30 页,如果一个人要在目录中查寻资料,每次查询都要花几秒钟 ; 如果用 30 个人每人查询一页目录,显然要比一个人查询的速度快很多。同样的 Googl 将数据分别存储在许多计算机上,这样搜索的速度会大大加快。

国内 ” 这个词出现在文件 3 8 22 56 68 和 92; 战争 ” 呈现在文件 2 8 15 22 68 和 77 记下同时出现这两个词的文件。 如何找到那些包括用户搜索的词的网页呢 ? 回到国内战争 ” 例子。

国内  3 8 22 56 68 92

战争  2 8 15 22 68 77

国内 战争 8 22 68

这叫做交叉搜索位置列表。较快的交叉搜索的方法是同时进行搜索,如果一个搜索列表 , 这样我可以清楚地发现 “ 国内 ” 战争 ” 这两个词同时出现的三个文件里 8, 22, 和 68 含有这几个字的列表叫做 “ 位置列表 ” 搜索文件包括这两个字。22 68 那另一个就可以开始搜索其他

搜索关键词:谷歌优化

对结果进行评级

要对它相关水平进行评级。 Googl 用许多参数进行评级。这当中 PR 算法是众所周知的 PageRank 评估两个因素:有多少个网页链接到这个网页,现在已经有了一些包含用户搜索的关键词的网页。这些链接网页的网站的质量如何。通过 PageRank 五六个高质量的站点的链接,比方 www.300mh.comwww.wulin999.cn 比其他较差的网站的链接要有价值的多。

如果一个文件包含 “ 国内 ” 和 “ 战争 ” 这两个词排在一起,但是除了 PageRank 还用许多其它参数来进行评级。例如。这个文件可能比一个讨论革命战争的文件 ( 文件的某个地方使用 “ 国内 ” 相关水平高。还比如假设一个网页的标题是国内战争 ” 比另一个标题为 “ 19 世纪美国服装 ” 网页相关度高得多。同样的如果 “ 国内战争 ” 网页中出现多次的网页比只出现一个的网页相关的水平也要高。假设你搜索引擎,选择一个词查询,比方:国内战争或回收, Googl 上查询,从结果中挑选三到四页打印出来。从每一张打印的页面上找出你搜索语句的每一个字然后用荧光笔标出来,然后把这几页贴在墙上,退后几步眯着眼看,当你不知道页面的内容,仅仅能看到那些有颜色的方块,认为那一页是最相关的呢 ? 不是有着大的标题和多次重复出现的颜色代表了较高的相关水平 ? 喜欢这些字出现在顶端还是底部 ? 这些字出现的频率如何 ? 这也是搜索引擎如何判断网页的相关水平。

Googl 总是试图找出可靠的和相关的网页。如果两个网页按照查询的语句大致有相同的信息,原则上。 Googl 通常选择比较信得过的网站的网页。当然,如果有一些因素表明这个网站的网页相关度更高, Googl 经常也选择 PageRank 较低的网站。

就给出得分最高的网页。 Googl 同时从网页中摘录一小段包含查询的关键词的句子 ; 给出网页的链接。 一旦 Googl 完成了文件的列表和它评分。

信息来源:东莞SEO

 

热点信息

 

网站优化

SEO/搜索引擎优化

网站推广