Google搜索引擎習(xí)慣
Google作為全球最大的多語言搜索引擎在發(fā)展歷史過程中形成了自己的網(wǎng)頁收錄習(xí)慣,也建立起自己的一套標(biāo)準(zhǔn).研究Goolge收錄網(wǎng)頁的習(xí)慣有利于更好迎合Google搜索引擎的口味,達(dá)到提高網(wǎng)頁收錄量和收錄排名的目的.
我們暫且不研究Google對(duì)其他語言的收錄,就漢語而言,Google收錄有以下特點(diǎn):
1、敏感度較高,反應(yīng)較快
Google 對(duì)新建的網(wǎng)站具有較高的查知性,當(dāng)然,新建的網(wǎng)站必須要有外部鏈接或者向 Google遞交過網(wǎng)站登錄信息.否則,即使Google的搜索技術(shù)再厲害,一個(gè)只有站長(zhǎng)一個(gè)人看得見的網(wǎng)站是很難被Google發(fā)現(xiàn)的.Google收錄新建網(wǎng)站的兩個(gè)途徑是:第一,通過網(wǎng)站的外部鏈接;第二,通過向Google提交網(wǎng)站登錄數(shù)據(jù).一般而言,后者的收錄速度相對(duì)較快,而前者則要視 Google對(duì)新建網(wǎng)站的外部鏈接網(wǎng)站的收錄頻率而定.如果Google對(duì)外部鏈接網(wǎng)站的評(píng)價(jià)高、收錄頻率高那么其發(fā)現(xiàn)新站的速度也相應(yīng)地高,新建網(wǎng)站被收錄的日期就會(huì)被提前.
2、并重相關(guān)性和重要性
Google 使用 PageRank 技術(shù)檢查整個(gè)網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高.然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān).在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google 才將最相關(guān)最可靠的搜索結(jié)果放在首位.這也是Google收錄網(wǎng)頁的特點(diǎn)之一.
3、變化較快、機(jī)動(dòng)性較高
Google 漫游器會(huì)定期抓取 Web,將大量網(wǎng)頁列入索引.稍后完成的下一次抓取會(huì)注意到新網(wǎng)站、對(duì)現(xiàn)有網(wǎng)站的更改以及失效的鏈接,并對(duì)內(nèi)容的變化在搜索結(jié)果中加以調(diào)整.
4、較重視鏈接的文字描述
Google會(huì)將鏈接的文字描述作為關(guān)鍵詞加以索引,所以我們?cè)谧饔亚殒溄訒r(shí)千萬要仔細(xì)設(shè)計(jì)鏈接的文字描述,使之既符合網(wǎng)站的定位又不失相關(guān)性,以此博得Google的信任.
5、較重視網(wǎng)頁Meta標(biāo)記的描述
大多數(shù)時(shí)候Google顯示搜索結(jié)果時(shí)會(huì)把網(wǎng)頁的Description顯示出來,并占有較重的篇幅.
Google使用的技術(shù):
PageRank 技術(shù):PageRank 能夠?qū)W(wǎng)頁的重要性做出客觀的評(píng)價(jià).PageRank 并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對(duì)網(wǎng)頁 B 所投的一票.這樣,PageRank 會(huì)根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評(píng)估該頁的重要性.
超文本匹配分析:Google 的搜索引擎同時(shí)也分析網(wǎng)頁內(nèi)容.然而,Google 的技術(shù)并不采用單純掃描基于網(wǎng)頁的文本(網(wǎng)站發(fā)布商可以通過元標(biāo)記控制這類文本)的方式,而是分析網(wǎng)頁的全部?jī)?nèi)容以及字體、分區(qū)及每個(gè)文字精確位置等因素.Google 同時(shí)還會(huì)分析相鄰網(wǎng)頁的內(nèi)容,以確保返回與用戶查詢最相關(guān)的結(jié)果.
百度搜索引擎收錄習(xí)慣
百度是全球最大的中文搜索引擎,對(duì)中文網(wǎng)頁的搜索技術(shù)在某種程度上領(lǐng)先于Google,百度在某些方面與Google有相同或相似之處外它還有以下特點(diǎn):
1、較重視第一次收錄印象
網(wǎng)站給百度的第一印象比較重要,相對(duì)Google而言,百度搜索引擎的人為參與度較高,也就是說在某些層面上可能由人來決定是否收錄網(wǎng)頁而不是由機(jī)器來決定.所以,網(wǎng)站在登錄百度搜索引擎之前最好把內(nèi)容做得豐富點(diǎn)、原創(chuàng)內(nèi)容多一點(diǎn)、網(wǎng)頁關(guān)鍵詞與內(nèi)容的相關(guān)度高一點(diǎn),這樣才能給百度較好的初次印象.
2、對(duì)網(wǎng)頁的更新較敏感
百度對(duì)網(wǎng)頁的更新相對(duì)Google而言更加敏感,可能這與百度的本土性格有關(guān).百度搜索引擎每周更新,網(wǎng)頁視重要性有不同的更新率,頻率在幾天至一月之間.所以在百度的搜索結(jié)果中基本上都標(biāo)明了收錄時(shí)間.
3、較重視首頁
百度對(duì)首頁的重視程度要比Google高得多,這與上面提到的“較重視第一次收錄印象”一脈相承.百度在顯示搜索結(jié)果時(shí)也常常把網(wǎng)站首頁顯示出來,而不具體到某個(gè)內(nèi)容頁(當(dāng)其認(rèn)為不夠重要時(shí)).相對(duì)而言,其用戶體驗(yàn)打了折扣,而增加了其“百度快照”的用戶量.
4、較重視絕對(duì)地址的鏈接
百度在收錄網(wǎng)頁時(shí)比較重視絕對(duì)地址的收錄,百度提供的網(wǎng)頁快照功能也沒有解析相對(duì)地址的絕對(duì)路徑,不知這是百度技術(shù)的疏忽還是其偏好的一大體現(xiàn).
5、較重視收錄日期
百度對(duì)網(wǎng)頁的收錄日期非?粗,也是其搜索結(jié)果排名的參考點(diǎn),被收錄得越早排名會(huì)較高,有時(shí)甚至不考慮相關(guān)性地把它認(rèn)為比較重要的內(nèi)容放在首位,而點(diǎn)擊進(jìn)入之后才發(fā)現(xiàn)是早已過時(shí)的信息或者垃圾信息.這是百度需要改進(jìn)的技術(shù).
百度使用的技術(shù)
百度使用以下技術(shù):“一種互聯(lián)網(wǎng)上鏡像和準(zhǔn)鏡像網(wǎng)站的識(shí)別方法”,這個(gè)方法解決了搜索引擎對(duì)雷同信息的重復(fù)獲取,節(jié)省網(wǎng)絡(luò)資源和本地資源,提高系統(tǒng)服務(wù)的質(zhì)量和效率;“一種基于詞匯的計(jì)算機(jī)索引和檢索方法”,該方法對(duì)一段連續(xù)的文字信息,經(jīng)過詞匯分析處理后,通過添加隱形詞匯的手段,實(shí)現(xiàn)對(duì)基于詞匯索引和檢索系統(tǒng)的檢索質(zhì)量提升,使用戶獲得更加準(zhǔn)確的檢索結(jié)果;“一種使用快照的方式實(shí)現(xiàn)對(duì)網(wǎng)上信息進(jìn)行記錄和分析的方法”,該方法是通過對(duì)互聯(lián)網(wǎng)上一個(gè)特定信息,多次進(jìn)行快照的方式,將信息當(dāng)時(shí)的狀態(tài)進(jìn)行保留.并通過對(duì)一系列快照信息的分析,得到有效數(shù)據(jù),方便地得到網(wǎng)上信息的變動(dòng)情況.
|