Google搜索引擎習慣
Google作爲全球最大(dà)的多語言搜索引擎在發展曆史過程中(zhōng)形成了自己的網頁收錄習慣,也建立起自己的一(yī)套标準.研究Goolge收錄網頁的習慣有利于更好迎合Google搜索引擎的口味,達到提高網頁收錄量和收錄排名的目的.
我(wǒ)們暫且不研究Google對其他語言的收錄,就漢語而言,Google收錄有以下(xià)特點:
1、敏感度較高,反應較快
Google 對新建的網站具有較高的查知(zhī)性,當然,新建的網站必須要有外(wài)部鏈接或者向 Google遞交過網站登錄信息.否則,即使Google的搜索技術再厲害,一(yī)個隻有站長一(yī)個人看得見的網站是很難被Google發現的.Google收錄新建網站的兩個途徑是:第一(yī),通過網站的外(wài)部鏈接;第二,通過向Google提交網站登錄數據.一(yī)般而言,後者的收錄速度相對較快,而前者則要視 Google對新建網站的外(wài)部鏈接網站的收錄頻(pín)率而定.如果Google對外(wài)部鏈接網站的評價高、收錄頻(pín)率高那麽其發現新站的速度也相應地高,新建網站被收錄的日期就會被提前.
2、并重相關性和重要性
Google 使用 PageRank 技術檢查整個網絡鏈接結構,并确定哪些網頁重要性最高.然後進行超文本匹配分(fēn)析,以确定哪些網頁與正在執行的特定搜索相關.在綜合考慮整體(tǐ)重要性以及與特定查詢的相關性之後,Google 才将最相關最可靠的搜索結果放(fàng)在首位.這也是Google收錄網頁的特點之一(yī).
3、變化較快、機動性較高
Google 漫遊器會定期抓取 Web,将大(dà)量網頁列入索引.稍後完成的下(xià)一(yī)次抓取會注意到新網站、對現有網站的更改以及失效的鏈接,并對内容的變化在搜索結果中(zhōng)加以調整.
4、較重視鏈接的文字描述
Google會将鏈接的文字描述作爲關鍵詞加以索引,所以我(wǒ)們在作友情鏈接時千萬要仔細設計鏈接的文字描述,使之既符合網站的定位又(yòu)不失相關性,以此博得Google的信任.
5、較重視網頁Meta标記的描述
大(dà)多數時候Google顯示搜索結果時會把網頁的Description顯示出來,并占有較重的篇幅.
Google使用的技術:
PageRank 技術:PageRank 能夠對網頁的重要性做出客觀的評價.PageRank 并不計算直接鏈接的數量,而是将從網頁 A 指向網頁 B 的鏈接解釋爲由網頁 A 對網頁 B 所投的一(yī)票.這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性.
超文本匹配分(fēn)析:Google 的搜索引擎同時也分(fēn)析網頁内容.然而,Google 的技術并不采用單純掃描基于網頁的文本(網站發布商(shāng)可以通過元标記控制這類文本)的方式,而是分(fēn)析網頁的全部内容以及字體(tǐ)、分(fēn)區及每個文字精确位置等因素.Google 同時還會分(fēn)析相鄰網頁的内容,以确保返回與用戶查詢最相關的結果.
百度搜索引擎收錄習慣
百度是全球最大(dà)的中(zhōng)文搜索引擎,對中(zhōng)文網頁的搜索技術在某種程度上領先于Google,百度在某些方面與Google有相同或相似之處外(wài)它還有以下(xià)特點:
1、較重視第一(yī)次收錄印象
網站給百度的第一(yī)印象比較重要,相對Google而言,百度搜索引擎的人爲參與度較高,也就是說在某些層面上可能由人來決定是否收錄網頁而不是由機器來決定.所以,網站在登錄百度搜索引擎之前最好把内容做得豐富點、原創内容多一(yī)點、網頁關鍵詞與内容的相關度高一(yī)點,這樣才能給百度較好的初次印象.
2、對網頁的更新較敏感
百度對網頁的更新相對Google而言更加敏感,可能這與百度的本土性格有關.百度搜索引擎每周更新,網頁視重要性有不同的更新率,頻(pín)率在幾天至一(yī)月之間.所以在百度的搜索結果中(zhōng)基本上都标明了收錄時間.
3、較重視首頁
百度對首頁的重視程度要比Google高得多,這與上面提到的“較重視第一(yī)次收錄印象”一(yī)脈相承.百度在顯示搜索結果時也常常把網站首頁顯示出來,而不具體(tǐ)到某個内容頁(當其認爲不夠重要時).相對而言,其用戶體(tǐ)驗打了折扣,而增加了其“百度快照”的用戶量.
4、較重視絕對地址的鏈接
百度在收錄網頁時比較重視絕對地址的收錄,百度提供的網頁快照功能也沒有解析相對地址的絕對路徑,不知(zhī)這是百度技術的疏忽還是其偏好的一(yī)大(dà)體(tǐ)現.
5、較重視收錄日期
百度對網頁的收錄日期非常看重,也是其搜索結果排名的參考點,被收錄得越早排名會較高,有時甚至不考慮相關性地把它認爲比較重要的内容放(fàng)在首位,而點擊進入之後才發現是早已過時的信息或者垃圾信息.這是百度需要改進的技術.
百度使用的技術
百度使用以下(xià)技術:“一(yī)種互聯網上鏡像和準鏡像網站的識别方法”,這個方法解決了搜索引擎對雷同信息的重複獲取,節省網絡資(zī)源和本地資(zī)源,提高系統服務的質量和效率;“一(yī)種基于詞彙的計算機索引和檢索方法”,該方法對一(yī)段連續的文字信息,經過詞彙分(fēn)析處理後,通過添加隐形詞彙的手段,實現對基于詞彙索引和檢索系統的檢索質量提升,使用戶獲得更加準确的檢索結果;“一(yī)種使用快照的方式實現對網上信息進行記錄和分(fēn)析的方法”,該方法是通過對互聯網上一(yī)個特定信息,多次進行快照的方式,将信息當時的狀态進行保留.并通過對一(yī)系列快照信息的分(fēn)析,得到有效數據,方便地得到網上信息的變動情況.
|