百度算法怎么變也不能脫離的基礎(chǔ)算法

時(shí)間：2012-06-06 06:48 次來(lái)源：未知

百度作為中文搜索引擎的先驅(qū)，它的核心地位可以說(shuō)在短時(shí)期是沒(méi)有任何搜索引擎可以超越的，百度的卓越成就在于它對(duì)博大精深的中國(guó)文化的領(lǐng)悟和對(duì)中文分詞的的超強(qiáng)功底。百度受歡迎的主要原因除了用戶習(xí)慣的原因，在較大程度上得益于百度算法的精準(zhǔn)率，搜索結(jié)果值更貼近用戶的想獲得的資訊。用一句廣告詞 “正是我想要的”來(lái)形容百度最恰當(dāng)不過(guò)了。

正因?yàn)榘俣葘?duì)中國(guó)搜索引擎市場(chǎng)的統(tǒng)治地位，企業(yè)想在網(wǎng)上賺取大量的鈔票，就不得不依靠百度。所以做搜索引擎的優(yōu)化實(shí)際上就是百度優(yōu)化。但百度強(qiáng)大的反優(yōu)化能力和人工干預(yù)機(jī)制，使得眾多的優(yōu)化者以失敗以失敗告終。對(duì)于大多數(shù)優(yōu)化者來(lái)說(shuō)，百度成了洪水猛獸。果真如此嗎？網(wǎng)絡(luò)行銷大師鄧友成認(rèn)為不盡然。只要是搜索引擎就離不開(kāi)算法，任何算法都是有規(guī)律可循的。下面我們深入淺出的探討一下百度的算法吧。

一. 搜索信息響應(yīng)

當(dāng)用戶向百度提出搜索請(qǐng)求后百度會(huì)迅速根據(jù)用戶的請(qǐng)求提供比較精準(zhǔn)的結(jié)果值。

1. 比喻當(dāng)用戶提交“搜索引擎優(yōu)化技術(shù)”這個(gè)查詢文字串.百度會(huì)將文字串分割成若干子文字串,用空格，標(biāo)點(diǎn)符等做細(xì)分處理。那么這個(gè)文字串就可以分成“搜索引擎，優(yōu)化，技術(shù)”。

2. 如果用戶提交的請(qǐng)求有重復(fù)的文字符,例如”優(yōu)化技術(shù) 優(yōu)化”,百度會(huì)將重復(fù)的文字符看成一個(gè)。而字符的出現(xiàn)順序就忽略。

3. 當(dāng)用戶提交請(qǐng)求中出現(xiàn)英文字符，百度一般會(huì)將英文字符當(dāng)作一個(gè)整體來(lái)看,并和中文詞分割開(kāi)來(lái),如果中文出現(xiàn)數(shù)字也是這樣處理的。

百度通過(guò)切割、重組、歸并、減負(fù)等手段對(duì)用戶請(qǐng)求進(jìn)行精準(zhǔn)響應(yīng)，使搜索結(jié)果符合用戶的想法，以節(jié)省用戶的查詢時(shí)間，提高查詢效率。

二. 中文核心分詞

中文分詞是百度算法的核心要素。按中文語(yǔ)法習(xí)慣，三個(gè)字（含三個(gè)字）以下的文字符是獨(dú)立精準(zhǔn)的詞匯，沒(méi)有重組的必要，所以百度對(duì)三個(gè)字（含三個(gè)字）以下的文字符不考慮細(xì)分。這也是百度核心算法的第一層，也是響應(yīng)數(shù)量最多的部分。一般這些文字符更新的時(shí)間比較慢一些，一周或兩周的時(shí)間。屬于大更新的范疇。

四個(gè)字符的百度就會(huì)毫不客氣的大卸十八塊比如，網(wǎng)絡(luò)工具這個(gè)文字串，當(dāng)用戶發(fā)出搜索請(qǐng)求后，會(huì)發(fā)現(xiàn)在搜索結(jié)果里面出現(xiàn)了紅色的標(biāo)記，已經(jīng)把這個(gè)文字符分成了“網(wǎng)絡(luò)，工具”。當(dāng)然如果是四個(gè)字以上的文字串就更不用說(shuō)了。會(huì)分成更多的分詞。

三、字詞匹配

大概了解了百度的分詞原理后，我們要了解的一個(gè)重要方面就是字詞的匹配問(wèn)題。如果不知道字詞的匹配，做優(yōu)化就是空談了。

百度算法之：最大匹配法

最大匹配法亦稱MM法。假設(shè)自動(dòng)分詞詞典（或詞庫(kù)）中的最長(zhǎng)詞條是y個(gè)字，則取被處理材料當(dāng)前字符串序列中的前y個(gè)字作為匹配字段，查找詞典，若詞典中存在這樣的一個(gè)y字詞，則匹配成功，匹配字段被作為一個(gè)詞切分出來(lái)；如果在詞典中找不到這樣一個(gè)y字詞，則匹配失敗，匹配字段去掉最后一個(gè)字，剩下的字段重新進(jìn)行匹配，如此進(jìn)行下去，直到匹配成功，也就是完成一輪匹配，切分出一個(gè)詞為止。

百度算法之：正向最大匹配算法

正向最大匹配法（由左到右的方向）。首先粗分，按照句子把文本切成一個(gè)一個(gè)句子。然后把每個(gè)句子切成單字。字典按照樹(shù)形結(jié)構(gòu)存儲(chǔ)，比如這句話“春天還會(huì)遠(yuǎn)嗎”首先查找“春”字開(kāi)頭的詞，然后按照字典樹(shù)形結(jié)構(gòu)往下走一個(gè)節(jié)點(diǎn)，查找“春”后面一個(gè)字是“天”的詞，然后又下沉一個(gè)節(jié)點(diǎn)，找“還”下面是 “會(huì)”的詞，找不到了，查找就結(jié)束。

百度算法之：反向最大匹配算法

逆向最大匹配法（由右到左的方向）；就是朝相反的方向發(fā)掘可以匹配的文字，比如網(wǎng)上商城這個(gè)文字串，那么會(huì)向左延伸在王上的前面會(huì)出現(xiàn)的結(jié)果是區(qū)域性的文字，不如上�；蛘弑本┑�，在商城的前面會(huì)出現(xiàn)更精準(zhǔn)的定義文字符，不如愛(ài)家，女人等專屬性強(qiáng)的文字符。

百度算法之：雙向最大匹配算法

正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。就是向左右縱深挖掘比較匹配的結(jié)果值。

熟悉了百度分詞的方法后，我們就要在優(yōu)化的過(guò)程充分的考慮相關(guān)聯(lián)的因素，合理的對(duì)你所要向用戶推薦的文字串做合理的規(guī)范和謀劃。軟優(yōu)化歡迎優(yōu)化者們和我們一道加強(qiáng)交流共同進(jìn)步。

寶雞網(wǎng)站建設(shè)公司

0917 3876090

百度算法怎么變也不能脫離的基礎(chǔ)算法