如同程序員,有那些培訓機構教出來且不再精進,總是百度一下來復制粘貼現成代碼,連英文文檔都不會去看的;也有在世界最前沿領域攻克人工智能難題,可能會引領時代的。許多行業的上下限差距極大,同樣,不該以可以粗略了解到的SEO從業者平均水平,來設法度量這個領域所可能達到的上限。下面具體詳解從最初的學習到后續研究所會經歷的階段。
基礎夯實的主要步驟
百度及Google官方網站指南 -> 搜索引擎原理 推薦《走進搜索引擎》與《這就是搜索引擎》 -> 百度專利 早期申請人為李彥宏或姚旭等人的基礎架構部分,以及近期的
無論官網指南還是專利這般生澀文檔,一切由翻閱現成資料可獲得的知識,似乎都只應歸入新手入門的學習階段——行業頭部不少人大約在十多年已經完成這些進度。即便早年我與人合著過《SEO深度解析》,但回頭看來,唯有從搜索引擎側入手學習才是值得推薦的方向。
進階探索的主要步驟
程序技術 非程序員寫代碼最常使用Python -> 數據分析 統計學為主
國外SEOMOZ在十年前組織用Pearson相關系數(后轉為使用Spearman)在已知可能有效的排序規則之中,設法量化出各項的重要性,便是典型一例。
后續研究的主要步驟
機器學習 深度學習為主 -> 抓取全網數據 -> 溯因推理 基礎的如穆勒五法
因為如今搜索引擎的大多規則都由深度學習等手段而得出,若沒親身寫過相關代碼,就沒法切實了解到特征抽取、樣本歸納、過擬合等的關鍵原理,以及因果倒置、特征穿越等機器學習的天生缺陷。若缺乏這些知識,就無從想象哪些網頁特征(有一部分特征表面看來非常奇怪)可能會大幅影響排名表現。
由海量的已知排名「結果」,批量去反向推導出其「原因」也即已知/潛在的排序因素,并盡可能進行因果推斷,有時需要些邏輯學基礎來支撐。
邏輯規則放諸四海都是不變的,因此有個別足夠聰明的人,無需專業學習也一樣能得到類似的成效,有時同樣做好得到巨大的流量效果。但顯然系統的學習,對于不同人具有普適性,并且成效會更穩定。
再更進一步的,由于搜索引擎規則過于繁雜,逐步推理的手段只能解決一小部分重要問題,卻難以廣泛覆蓋到所有情境。目前百度的策略已經非常依賴于其自行訓練的語言模型,想搞明白一個AI模型具體做了什么的最佳方法,就是訓練另一個專門反解它的AI模型,諸如OpenAI就用GPT4去搞清楚GPT2的內部特定神經元到底做了什么。
盡管非專業做技術,但在十余年的時間中,我保持著幾乎每天寫代碼來獲取、分析、監控各式數據的習慣,有充足的代碼經驗積累,以此再花了額外約三個月的時間訓練了一些AI模型。即便它們不可能解決所有的SEO問題,但仍在個別特定的排名規則研究上,得到了遠遠超越我過去多年研究的成果。
除了AI生成文章內容以外,像是根據對百度模型的排序規則的精細理解,結合具體正文內容,來針對修改網站原有文章的標題等等方式,可以利用起一部分網站原有的多年深厚基礎,這類操作的效果其實才是真正容易讓流量一下暴漲的。像是提到的改title,誰都知道只要title上面沒寫關鍵詞就幾乎沒法有排名,其實它也正是提升空間最大的地方之一,只改它往往就能在一個大型站點直接帶來許多人不可想象的幾倍日均UV增長。在頁面所引用的知乎上發布的文章中有提到一些早年稍微相關的案例。
這些就是我在十余年的時間里面做過的詳細探索的原理方向,其實際成效便體現在了本站官網以及其它無數令同行可望不可及的案例之中。然而,業內有許多人至今都未完成上述的第一個學習階段,一共做出過的流量提升實效可能也就幾千幾萬的日均IP,卻常斷言「SEO是一個簡單的事情,不存在什么深奧操作」,久而久之導致其它業內業外人士也往往都這么想,就相當不合適。