淺談Google搜尋與關鍵字:告訴你平常Google大神怎麼幫你找資料

▲5分鐘帶你瞭解Google Search。(影片/取自YouTube)

特約記者洪聖壹/綜合報導

針對近日多名Google搜尋的用戶官網搜尋資料時,出現不相關的「陳菊 善款預測字串民衆認爲可能是九合一選舉過程中,對手陣營刻意操作的結果。對此,Google公司第一時間便迴應已經進行修改,目前已經陸續進行修改。本篇想要針對Google搜尋的運作方式進行一個概略介紹。

在PC風行的時代,Google Search以非常精簡形式,取代當時Yahoo搜尋,成爲百度騰訊「參考」對象,原因別無其他,當然是因爲能夠在非常短的時間之內幫助用戶找到他們想要找的內容

這中間有個基本問題:「找到用戶想要的。」

Google的解決方式很暴力(也因此無可取代):從零開始打造資料庫,然後用各種複雜的方式解決搜尋需求。前者的資料庫叫做GFS(Google File System),後者的方式最初叫做「蜘蛛」(spider)。Google一方面不斷翻新資料庫內容,蜘蛛們不斷的去學習怎麼去挖掘網頁當中索引,這種索引最多的就是「關鍵字」。以此爲基礎,當用戶到Google 首頁進行搜尋,搜尋的其實是Google的資料庫並非搜尋整個網路世界

有空可以查詢相關資料,其實Google每隔一段時間就會更新雲端資料庫、升級超級電腦效能,當用戶在搜尋字串之前,Google 就會先彙整搜尋索引中的網頁資訊

當然啦!這只是一個簡單的概念,爲了去「猜對」用戶真的所想要的內容(包括拼錯字),現在的Google Search導入 AI 演算法,透過機器學習的形式瞭解用戶需求,用戶只要打第一個字、第二個字即使拼錯,Google Search也可以幫助你找到想要的資訊,其背後依賴的是所謂的「知識圖譜」。

還有一個情況就是:我大概知道是什麼歌,但不知道歌名,甚至不知道歌詞。這種情況你甚至可以把你知道的打入搜尋去找看看,相信也能在「選項」當中找到概略答案,然後再針對初步答案去尋找,相信最終一定可以找到自己想要的。

這邊提到的「選項」,就是Google Search的「排名系統」,排名系統的判斷非常複雜,這包括「分析」、「比對」、「理解」、「背景資訊」、「資料完整性」,還有很重要的「品質評分」等等。簡而言之,搜尋結果會去判斷用戶的需求,提供最爲正確、完整的選項。題外話,當網站經營者本身如果很認真的去更新網站內容,而這些內容又是可信的,那麼就很容易成爲相對的Google搜尋用戶的搜尋結果,這也是新聞網站經營者非常努力的在生產可信任的原創內容、優化SEO,乃至於比較容易成爲時事資訊搜尋結果的原因。

至於關鍵字廣告,通常會在Google或Google搜尋網頁中呈現,用戶會發現在某些搜尋的結果當中,看到「廣告」字樣,這些就是搜尋廣告。廣告的形式很多種,基本上不在本篇贅述,但是內容通常會出現在網頁的右邊、中間或者上方,相關內容的出現,主要會根據用戶在搜尋的時候輸入的關鍵字做相對應的廣告推送。

換句話說,排名系統其實是非常複雜而且無法輕易更動的,簡單判斷此次部分用戶對於Google搜尋結果是人爲操作的爭議,基本是不存在的。

完美的搜尋引擎應能完全理解使用者的意思,提供恰如所需的資訊-Larry Page

這邊順帶一提,最早最早的排名系統判斷基礎稱爲“Page Rank”,姑且稱爲網頁信任值。開發“Page Rank”的人之一,正是鼎鼎大名的 Larry Page,也就是 Google 創辦人

如今的搜尋結果更偏向平臺整合服務,Google Search 本身就是一個AI的存在。Google Search 的機器學習,不只學習找到資料的結果、學習問題本身、學習用戶怎麼問問題,也會去學習解決問題的形式。舉例來說,當用戶想要知道今天天氣如何,系統會先判斷用戶的所在地,然後直接在搜尋結果提供天氣狀況。當用戶想要知道怎麼去臺北101,系統將會問你要不要開啓地圖服務,接着點選Google地圖,不需要任何操作就進入導航服務。大家沒事可以試着拿起手機說:「導航到101」,不管你在世界的哪個地方,都可以很快的做出正確的結果。

最後談到資安問題,記者曾在2014年訪問到Google使用者政策資深專員 Patrick Thomas,根據他的迴應,Google內部除了本身的網頁資安防護之外,其實還有跟全球超過250個資安社羣(也就是駭客)合作,同時也舉辦各種形式的駭客大賽與懸賞,藉此專門找到可能的攻擊漏洞以進行修復。換言之,如果能夠輕易入侵 Google Search、修改搜尋結果,這個人或者團隊將會獲得 Google 公司的獎勵

本篇剛好就這個機會,結合時事讓大家簡單瞭解 Google 搜尋引擎。概略來說,目前要用人爲的形式影響Google Search結果,基本上是不可能的。

*相關參考資料:Google Search