初步学习SEO优化笔记(一)

SEO 是指在了解搜索引擎自然排名机制基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多的流量,从而达成网站销售及品牌建设目标。

简单概括一下搜索引擎工作及原理

搜索引擎工作过程中非常复杂,我简单介绍搜索引擎是怎样实现网页排名的。这里介绍的内容相对真正的搜索引擎技术来说只是皮毛,不过对大部分SEO优化人员已经够用了。
搜索引擎的工作过程中大体上可以分成三个阶段。
(1)爬取和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取 页面HTML代码,存入数据库。
(2)预处理:索引程序对爬取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理。以备排名调用。
(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后一定格式生成搜索结果界面。
以上就是搜索引擎工作及原理概念,下面简单说一下预处理和排名 。

SEO预处理

在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的内容。

搜索引擎蜘蛛爬取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索关键词后,靠排名程序实时对这么多页面分析相关性,计算量太大。不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

和爬行一样,预处理也是在后台提前完成的。用户搜索时感觉不到这个过程。

1.提取文字

现在的搜索引擎还是以文字内容为基础。蜘蛛爬取到的页面HTML代码,除了用户在浏览器上可以看到可见的文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先还要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。

比如在这段HTML代码中:

<div id = "post-1100" class="post-1100 post hentry category-seo">
    <div class="posttitle">
        <h2><a href="http://www.seozac.com/seo/fools-day" rel="bookmak" title="Permanent Lint to 昨天是寒露">昨天是寒露</a></h2>

除去HTML后,剩下的用于排名的文字只有一行:

昨天是寒露

除了可见的文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片代替文字、Flash 文件的代替文字、链接锚文字等。

2.去重原理

搜索引擎还需要对页面进行去重处理。

同一篇文章经常经常会重复出现在不同的网站及一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到都是来自不同网站的同一篇文章。用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就是去重。

“去重”的基本方法是针对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词上、去停止词、消噪之后。实验表明,通常选取10个特征词就可以达到比较高的计算准确性,再选取更多的词对重准确性提高的贡献也就不大了。

典型的指纹计算方法MD5算法(信息摘要算法第五版)。这类指纹算法的特点是,输入(特征关键词及七顺序)有任何微小的改变,都会导致计算出的指纹有很大差距。

了解了搜索引擎的去重算法,SEO人员就应该知道简单的增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词,也就无法改变指纹。而且搜索引擎的去重算法很可能不止于页面级别,而是进行段落级别,混合不同的文章、交叉调换段落顺序也不能使转载和抄袭编程原创。

3.网页排名

搜索引擎蜘蛛爬取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入查询词后,排名程序调用索引库数据,计算排名显示用户,排名过程中是与用户直接互动的。

搜索引擎接收的用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程中。搜索词处理包括如下几方面。
(1)中文分词。与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。
(2)去停止词。和索引时一样,搜索引擎也需要把搜索词中的停止的词去掉,最大限度提高排名相关性及效率性。
(3)指令处理。查询词完成分词后,搜索引擎的默认处理方式时在关键词之间使用“与”逻辑。也就说用户搜索“减肥方法”时,程序分词为“减肥”和“方法”两个词,搜索引擎排序时默认认为,用户寻找的是即包含“方法”不包含“减肥”页面,被认为是不符合搜索条件。当然,这只是极为简化的为了说明原理的方法,实际上我们还是会看到只包含一部分关键词的搜索结果。
另外用户输入的查询还可能包含一些高级搜索指令,如加号、减号等,搜索引擎都需要做出识别和相应处理。
(4)拼写错误矫正。用户输入了明显错误的字或者英文单词拼错,搜索引擎会提示用户正确的用字或拼法。
(5)整合搜索触发。某些搜索词会触发整合搜索,比如明显姓名就能经常触发图片视频内容,当前的热门话题又容易触发咨询内容。那些词触发那些整合搜索,也学要在搜索词处理阶段计算。
(6)搜索框提示。用户在搜索框填写过程中,搜索引擎就根据热门搜索数据给出更多组合的查询词。减少用户输入时间。

高级搜索指令组合变化多端,功能强大。一个合格SEO必须熟练掌握这几个常用指令的意义及组合方式,才能更有效地找到更多的竞争对手和链接资源。


已发布

分类

来自

标签:

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注