圖片來源:跨境男孩
眼中腳下路,心中要有宏圖。大家好,我是Riven@跨境男孩。歡迎來到雨果跨境男孩Riven頻道,這里主要分享獨立站、SEO相關知識。本文共計1800余字,預計閱讀耗時3min。
實際上Google搜索引擎技術的工作過程是非常復雜的,我在這里簡單介紹下Google搜索引擎是怎樣實現網頁在SERP排名的,幫助做獨立站SEO及從事互聯網的朋友理解。
Google搜索引擎原理,最重要的三步: ●蜘蛛爬行&抓取●預處理&收錄(建立索引)●算法排序(提供搜索結果)
圖片來源:跨境男孩一:蜘蛛爬行&抓取
爬行和抓取是Google搜索引擎工作的第一步,完成對網絡上存在的網站頁面數據的采集任務。Google官方解釋是 —— "抓取" 是指Google 使用稱為抓取工具的自動化程序從其在互聯網上找到的頁面下載文本、圖像和視頻。
執行抓取的程序稱為Googlebot (也稱為機器人或蜘蛛)。Googlebot 使用算法過程來確定要抓取哪些網站、抓取頻率以及從每個網站抓取多少頁面。
Googlebot 會遵循Robots.txt文件中的協議,某些頁面可能被網站所有者禁止抓取,蜘蛛就不會抓取。比如無法在不登錄狀訪問的頁面(如購物車頁、結賬頁等)、重復頁面等(如許多網站都可以通過域名的 www(www.domain.com)和非 www(domain.com) 版本訪問)
(圖片來源:Google網站的Robots.txt文件)
Google可以通過對已知的頁面實行深度和廣度的遍歷策略,去跟蹤發現新頁面和新內容,比如博客文章內發現產品鏈接(Inboud Links)等。
圖片來源:跨境男孩-SEO實戰密碼或者通過站長提交站點地圖(Sitemap)到GSC(Google Search Console), Google 會參考Sitemap進行抓取,這也會發現到其他頁面。
Googlebot抓取還會涉及其他知識方面:
● Robots.xtx文件 ●跟蹤鏈接 ●地址庫 ●吸引蜘蛛 ●文件存儲 ●爬行時檢測重復內容 ●抓取預算等
二:預處理&收錄(建立索引)
預處理就是分析及處理抓取的網站數據內容;收錄就是搜索引擎把頁面存儲到數據庫的結果,也叫索引(Index)。
Google 的官方解釋是—— "抓取頁面后,Google 會嘗試分析該頁面的內容。這個階段稱為索引,它包括處理和分析文本內容和關鍵內容標簽和屬性,例如meta title、meta description、alt 屬性、圖像、視頻等。"
Google會對抓取的原內容經過文字提取、分詞、消噪、去重等后,得到獨特、反映頁面主要內容的、以詞為單位的字符串。接下來就是搜索引擎索引程序就可以提取文件中的關鍵詞,將URLs頁面轉換成一個關鍵詞的集合。
正向索引示例見下方:
圖片來源:跨境男孩接下來,搜索引擎會將正向索引數據庫重新構造成為倒排索引,把URLs(或理解為URLs中內容文件)對應到關鍵詞的映射關系轉換為:關鍵詞到URLs的映射。
在下面的倒排索引中,關鍵詞是主鍵,每個關鍵詞都對應著一些類文件或URLs,這些文件中都出現了這個關鍵詞。這些數據會在下一階段提供排名搜索結果中使用到。
倒排索引示例見下方:
圖片來源:跨境男孩Google收錄還會涉及其他知識方面:
●鏈接關系計算●特殊文件處理●質量判斷等
三:排名(提供搜索結果)
在上一步GoogleBot收錄了你的內容到Google 自己的搜索引擎數據庫,收錄了不代表立馬有排名,Google對于新網站有個考察期,考察期內網站內容更新節奏比較穩定,沒有惡意垃圾外鏈操作,Google開始慢慢放開給你排名。
當用戶輸入查詢時,Google搜索引擎會在索引中搜索匹配頁面,并返回Google認為質量最高且與用戶最相關的結果。
這個過程就會用到第二點索引部分提到的倒排索引,使得文件匹配能夠快速完成。
文件匹配(倒排索引快速匹配關鍵詞對應的URL)見下圖:
圖片來源:跨境男孩舉個例子:若用戶搜索"關鍵詞3",就會在SERP(搜索結果頁面)展示URL-8,URL-9,URL-10,URL-19,...,URL-E。
若用戶搜索"關鍵詞1 and 關鍵詞3",排名程序只要在倒排索引中找到"關鍵詞1 "和 "關鍵詞3"這兩個詞,就能找到分別含有這兩個關鍵詞的所有頁面,經過簡單求頁面交集即:URL-8和URL-9
但其實Google搜索引擎Rank的相關性由數百個因素決定,其中可能包括用戶的位置、語言和設備(桌面或電話)、搜索意圖等信息。
搜索引擎排名這塊內容還涉及:
●搜索詞處理●初始子集的選擇●相關性計算●排名過濾及調整●搜索緩存●查詢及點擊日志等
這里簡單解釋了Google搜索的工作原理,但Google一直在改進算法。建議可以關注Google Search Central 博客來了解Google更新內容 ,也感興趣推薦閱讀《SEO實戰密碼》、《SEO的藝術》、國外SEO博客站等。
(來源:跨境男孩)
以上內容屬作者個人觀點,不代表雨果跨境立場!本文經原作者授權轉載,轉載需經原作者授權同意。?