搜索引擎基礎(chǔ)篇,了解搜索引擎是如何進(jìn)行排序。在2011年的一篇文章當(dāng)中,Google的官方文章曾經(jīng)說道:
“給搜索結(jié)果排序是非常困難的,比大多數(shù)人認(rèn)為的要困難得多。其中一方面原因在于語言本身就具有模糊性,容易產(chǎn)生歧義。而網(wǎng)頁本身的規(guī)則也不一樣。如何表達(dá)信息著實(shí)沒有標(biāo)準(zhǔn),因此我們需要理解所有的網(wǎng)頁,不管是誰寫的,是什么目的創(chuàng)作出這些文件。而這樣做也僅僅能解決一部分問題。我們還需要了解人們所使用的查詢關(guān)鍵詞,通常少于三個(gè)字,并將其映射到我們對(duì)所有文件的理解上。況且不同的人有不同的需求,這一點(diǎn)更不用提了。我們需要在幾毫秒內(nèi)做的所有事情就是……據(jù)估計(jì),編程員/科學(xué)家對(duì)搜索引擎已經(jīng)研究了很長的時(shí)間。盡管如此,創(chuàng)新的速度還沒有減慢。”
“谷歌搜索的時(shí)間通常只持續(xù)不到半秒鐘,然而其中卻涉及很多個(gè)不同的步驟。這些步驟在查詢信息的人得到搜索結(jié)果之前必須完成。”
搜索引擎根據(jù)多種因素來決定如何排列網(wǎng)站內(nèi)容。在較高層面上,搜索引擎將各類內(nèi)容和它們認(rèn)為和內(nèi)容相關(guān)的一系列關(guān)鍵詞聯(lián)系起來。
搜索者在進(jìn)行查詢時(shí),搜索引擎會(huì)搜集和該查詢相關(guān)的所有網(wǎng)頁,并按照相關(guān)度和有用性對(duì)其進(jìn)行排序(基于以下因素:指向這些網(wǎng)頁的外部相關(guān)鏈接數(shù)目、外部鏈接文本以及意圖估測等——例如,如果搜索者打算購買某個(gè)東西,那么搜索引擎會(huì)盡量提供更多的電子商務(wù)網(wǎng)站),然后確保得到的網(wǎng)頁比較多樣化(這并不包括復(fù)制網(wǎng)站,也不只包含單一類型的網(wǎng)站)。
例如當(dāng)用戶搜索一款手機(jī)的時(shí)候,搜索引擎需要知道用戶是想了解這方面的信息還是想找到賣這款手機(jī)的網(wǎng)站。由于要猜測搜索者的意圖,才能給用戶返回最相關(guān)的結(jié)果。所以,搜索引擎的技術(shù)當(dāng)中有語義分析,搜索分詞,不斷索引各種網(wǎng)站等。
搜索引擎工作流程圖:
Copyright@ 2011-2016 版權(quán)所有:大連千億科技有限公司 遼ICP備11013762-3號(hào) google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區(qū)中山路692號(hào)辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利! 隱私權(quán)政策聲明