首頁(yè) > SEO專(zhuān)欄
互諾觀(guān)點(diǎn) 網(wǎng)絡(luò )營(yíng)銷(xiāo) SEO專(zhuān)欄 行業(yè)資訊

百度工程師披露原創(chuàng )識別起源算法的具體細節

昨日,百度搜索團隊工程師發(fā)布文章表示,百度已經(jīng)抽調大量人員組成原創(chuàng )項目組,致力構建原創(chuàng )環(huán)境,推動(dòng)中文互聯(lián)網(wǎng)的前進(jìn)。同時(shí),百度披露了原創(chuàng )識別系統-“起源”算法的部分細節。

據百度工程師稱(chēng),百度原創(chuàng )識別系統,在百度大數據的云計算平臺上開(kāi)展,能夠快速實(shí)現對全部中文互聯(lián)網(wǎng)網(wǎng)頁(yè)的重復聚合和鏈接指向關(guān)系分析。首先,通過(guò)內容相似程度來(lái)聚合采集和原創(chuàng ),將相似網(wǎng)頁(yè)聚合在一起作為原創(chuàng )識別的候選集合;其次,對原創(chuàng )候選集合,通過(guò)作者、發(fā)布時(shí)間、鏈接指向、用戶(hù)評論、作者和站點(diǎn)的歷史原創(chuàng )情況、轉發(fā)軌跡等上百種因素來(lái)識別判斷出原創(chuàng )網(wǎng)頁(yè);最后,通過(guò)價(jià)值分析系統判斷該原創(chuàng )內容的價(jià)值高低進(jìn)而適當的指導最終排序。

同時(shí)LEE表示,通過(guò)實(shí)驗以及真實(shí)線(xiàn)上數據,百度原創(chuàng )識別“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問(wèn)題。

百度站長(cháng)平臺發(fā)布的全文內容如下:談?wù)勗瓌?chuàng )項目那點(diǎn)事

一、搜索引擎為什么要重視原創(chuàng )

 1.1 采集泛濫化

來(lái)自百度的一項調查顯示,超過(guò)80%的新聞和資訊等都在被人工轉載或機器采集,從傳統媒體的報紙到娛樂(lè )網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評測,甚至高校圖書(shū)館發(fā)的催還通知都有站點(diǎn)在做機器采集??梢哉f(shuō),優(yōu)質(zhì)原創(chuàng )內容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰性的事情。

 1.2 提高搜索用戶(hù)體驗

數字化降低了傳播成本,工具化降低了采集成本,機器采集行為混淆內容來(lái)源降低內容質(zhì)量。采集過(guò)程中,出于無(wú)意或有意,導致采集網(wǎng)頁(yè)內容殘缺不全,格式錯亂或附加垃圾等問(wèn)題層出不窮,這已經(jīng)嚴重影響了搜索結果的質(zhì)量和用戶(hù)體驗。搜索引擎重視原創(chuàng )的根本原因是為了提高用戶(hù)體驗,這里講的原創(chuàng )為優(yōu)質(zhì)原創(chuàng )內容。

 1.3 鼓勵原創(chuàng )作者和文章

轉載和采集,分流了優(yōu)質(zhì)原創(chuàng )站點(diǎn)的流量,不再具屬原創(chuàng )作者的名稱(chēng),會(huì )直接影響到優(yōu)質(zhì)原創(chuàng )站長(cháng)和作者的收益。長(cháng)期看會(huì )影響原創(chuàng )者的積極性,不利于創(chuàng )新,不利于新的優(yōu)質(zhì)內容產(chǎn)生。鼓勵優(yōu)質(zhì)原創(chuàng ),鼓勵創(chuàng )新,給予原創(chuàng )站點(diǎn)和作者合理的流量,從而促進(jìn)互聯(lián)網(wǎng)內容的繁榮,理應是搜索引擎的一個(gè)重要任務(wù)。

二、采集很狡詐,識別原創(chuàng )很艱難

 2.1 采集冒充原創(chuàng ),篡改關(guān)鍵信息

當前,大量的網(wǎng)站批量采集原創(chuàng )內容后,用人工或機器的方法,篡改作者、發(fā)布時(shí)間和來(lái)源等關(guān)鍵信息,冒充原創(chuàng )。此類(lèi)冒充原創(chuàng )是需要搜索引擎識別出來(lái)予以適當調整的。

 2.2 內容生成器,制造偽原創(chuàng )

利用自動(dòng)文章生成器等工具,“獨創(chuàng )”一篇文章,然后安一個(gè)吸引眼球的title,現在的成本也低得很,而且一定具有獨創(chuàng )性。然而,原創(chuàng )是要具有社會(huì )共識價(jià)值的,而不是胡亂制造一篇根本不通的垃圾就能算做有價(jià)值的優(yōu)質(zhì)原創(chuàng )內容。內容雖然獨特,但是不具社會(huì )共識價(jià)值,此類(lèi)偽原創(chuàng )是搜索引擎需要重點(diǎn)識別出來(lái)并予以打擊的。

 2.3 網(wǎng)頁(yè)差異化,結構化信息提取困難

不同的站點(diǎn)結構化差異比較大,html標簽的含義和分布也不同,因此提取關(guān)鍵信息如標題、作者和時(shí)間的難易程度差別也比較大。做到既提得全,又提得準,還要最及時(shí),在當前的中文互聯(lián)網(wǎng)規模下實(shí)屬不易,這部分將需要搜索引擎與站長(cháng)配合好才會(huì )更順暢的運行,站長(cháng)們如果用更清晰的結構告知搜索引擎網(wǎng)頁(yè)的布局,將使搜索引擎高效地提取原創(chuàng )相關(guān)的信息。

三、百度識別原創(chuàng )之路如何走?

 3.1 成立原創(chuàng )項目組,打持久戰

面對挑戰,為了提高搜索引擎用戶(hù)體驗、為了使優(yōu)質(zhì)原創(chuàng )者原創(chuàng )網(wǎng)站得到應有的收益、為了推動(dòng)中文互聯(lián)網(wǎng)的前進(jìn),我們抽調大量人員組成原創(chuàng )項目組:技術(shù)、產(chǎn)品、運營(yíng)、法務(wù)等等,這不是臨時(shí)組織不是1個(gè)月2個(gè)月的項目,我們做好了打持久戰的準備。

 3.2 原創(chuàng )識別“起源”算法

互聯(lián)網(wǎng)動(dòng)輒上百億、上千億的網(wǎng)頁(yè),從中挖掘原創(chuàng )內容,可以說(shuō)是大海撈針,千頭萬(wàn)緒。我們的原創(chuàng )識別系統,在百度大數據的云計算平臺上開(kāi)展,能夠快速實(shí)現對全部中文互聯(lián)網(wǎng)網(wǎng)頁(yè)的重復聚合和鏈接指向關(guān)系分析。首先,通過(guò)內容相似程度來(lái)聚合采集和原創(chuàng ),將相似網(wǎng)頁(yè)聚合在一起作為原創(chuàng )識別的候選集合;其次,對原創(chuàng )候選集合,通過(guò)作者、發(fā)布時(shí)間、鏈接指向、用戶(hù)評論、作者和站點(diǎn)的歷史原創(chuàng )情況、轉發(fā)軌跡等上百種因素來(lái)識別判斷出原創(chuàng )網(wǎng)頁(yè);最后,通過(guò)價(jià)值分析系統判斷該原創(chuàng )內容的價(jià)值高低進(jìn)而適當的指導最終排序。

目前,通過(guò)我們的實(shí)驗以及真實(shí)線(xiàn)上數據,“起源”算法已經(jīng)取得了一定的進(jìn)展,在新聞、資訊等領(lǐng)域解決了絕大部分問(wèn)題。當然,其他領(lǐng)域還有更多的原創(chuàng )問(wèn)題等待“起源”去解決,我們堅定的走著(zhù)。

 3.3 原創(chuàng )星火計劃

我們一直致力于原創(chuàng )內容的識別和排序算法調整,但在當前互聯(lián)網(wǎng)環(huán)境下,快速識別原創(chuàng )解決原創(chuàng )問(wèn)題確實(shí)面臨著(zhù)很大的挑戰,計算數據規模龐大,面對的采集方式層出不窮,不同站點(diǎn)的建站方式和模版差異巨大,內容提取復雜等等問(wèn)題。這些因素都會(huì )影響原創(chuàng )算法識別,甚至導致判斷出錯。這時(shí)候就需要百度和站長(cháng)共同努力來(lái)維護互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長(cháng)推薦原創(chuàng )內容,搜索引擎通過(guò)一定的判斷后優(yōu)待原創(chuàng )內容,共同推進(jìn)生態(tài)的改善,鼓勵原創(chuàng ),這就是“原創(chuàng )星火計劃”,旨在快速解決當前面臨的嚴重問(wèn)題。另外,站長(cháng)對原創(chuàng )內容的推薦,將應用于“起源”算法,進(jìn)而幫助百度發(fā)現算法的不足,不斷改進(jìn),用更加智能的識別算法自動(dòng)識別原創(chuàng )內容。

目前,原創(chuàng )星火計劃也取得了初步的效果,作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原創(chuàng )是生態(tài)問(wèn)題,需要長(cháng)期的改善,我們將持續投入,與站長(cháng)攜手推動(dòng)互聯(lián)網(wǎng)生態(tài)的進(jìn)步;原創(chuàng )是環(huán)境問(wèn)題,需要大家來(lái)共同維護,站長(cháng)們多做原創(chuàng ),多推薦原創(chuàng ),百度將持續努力改進(jìn)排序算法,鼓勵原創(chuàng )內容,為原創(chuàng )作者、原創(chuàng )站點(diǎn)提供合理的排序和流量。


客服QQ :270425077
客服電話(huà) : 13751222800

掃描關(guān)注微信號

周一至周六 9:00~18:00

非工作時(shí)間,請您QQ留言,我們會(huì )及時(shí)回復

返回頂部
服務(wù)熱線(xiàn):137 5122 2800

售前咨詢(xún)

售前咨詢(xún)

售前咨詢(xún)

售前咨詢(xún)

亚洲精品国产综合久久一线|欧美日韩无砖专区影音先锋|国产黄片无马赛克在线观看|日日狠狠久久偷偷色综合免费|亚洲欧美中文字幕第五十二