百度搜索引擎爬行是指百度搜索引擎的程序蜘蛛在頁(yè)面上沿著鏈接發(fā)現(xiàn)新頁(yè)面,然后“爬”過(guò)去抓取新頁(yè)面。抓取是指蜘蛛發(fā)現(xiàn)新頁(yè)面后,像瀏覽器一樣打開(kāi)頁(yè)面,把頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。兩個(gè)概念在英文中通常都是用crawl或spider(這里是動(dòng)詞)表示,視上下文才能分出是指哪個(gè)。
顯然,爬行和抓取是相互交織的。抓取是實(shí)際發(fā)生的我們能夠觀察到的過(guò)程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時(shí)間、狀態(tài)碼、抓取的文件是哪個(gè)、抓取了多大文件等等。蜘蛛對(duì)頁(yè)面的抓取就和瀏覽器讀取文件是完全一樣的。
而百度爬行只是一個(gè)形象的比喻,實(shí)際上并不存在蜘蛛抓取文件時(shí)發(fā)現(xiàn)鏈接然后立即跟蹤過(guò)去這樣一個(gè)過(guò)程。蜘蛛抓取文件后存入數(shù)據(jù)庫(kù),程序解析出文件中的鏈接后將URL存入頁(yè)面地址庫(kù),然后蜘蛛從地址庫(kù)中按一定規(guī)則選取URL進(jìn)行抓取。蜘蛛不是真的訪問(wèn)頁(yè)面時(shí)看到一個(gè)URL就爬過(guò)去。
索引指的是將一個(gè)URL的信息進(jìn)行各種整理,如去重、分詞等等,然后將關(guān)于這個(gè)URL的信息存入數(shù)據(jù)庫(kù),被稱(chēng)為索引庫(kù)。真正用于搜索的是倒排索引,以后有機(jī)會(huì)再細(xì)說(shuō)。要注意的是,索引庫(kù)中關(guān)于URL的信息不僅是組成頁(yè)面內(nèi)容的關(guān)鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個(gè)詞是index。
收錄是SEO們最關(guān)心也最常用的詞,其實(shí)也是4個(gè)概念中最不明確的。被收錄指的是我們能查到頁(yè)面被搜索引擎存入了索引庫(kù)。但后面我們會(huì)看到,進(jìn)入索引庫(kù)的URL并不一定被抓取過(guò),這和SEO們的直覺(jué)可能是不一樣的。
當(dāng)然,精準(zhǔn)掌握概念不是為了咬文嚼字,而是對(duì)很多SEO問(wèn)題的理解和處理有影響。下面舉幾個(gè)例子。
收錄不全是什么原因?
頁(yè)面不收錄是SEO們最頭疼的問(wèn)題之一,不收錄就談不上排名、流量了。太多人在博客、論壇里問(wèn)頁(yè)面不被收錄是什么原因,也給出了域名,但這種問(wèn)題是沒(méi)法回答的,即使愿意花時(shí)間去診斷也不能回答(除非列出所有可能的原因,等于沒(méi)回答),因?yàn)槿绷艘粋(gè)關(guān)鍵信息:頁(yè)面被抓取了沒(méi)有?這只有查原始日志才能知道,看網(wǎng)站是看不出來(lái)的,查流量也是查不出來(lái)的。了解前面的概念就知道,被抓取不一定被收錄,沒(méi)被收錄也不一定意味著沒(méi)被抓取。
如果頁(yè)面被抓取過(guò)卻沒(méi)被索引和收錄,應(yīng)該往內(nèi)容是否有問(wèn)題(原創(chuàng)?采集?所謂偽原創(chuàng)?敏感內(nèi)容或產(chǎn)品?復(fù)制內(nèi)容?)方向去找原因。網(wǎng)站結(jié)構(gòu)應(yīng)該沒(méi)有大問(wèn)題,搜索引擎是看了內(nèi)容之后覺(jué)得不適合收錄的。如果頁(yè)面壓根就沒(méi)被抓取過(guò),則應(yīng)該往網(wǎng)站和鏈接結(jié)構(gòu)、搜索引擎不友好的技術(shù)障礙、域名權(quán)重等方面去找。