<ins id="dh1l3"></ins>

    <output id="dh1l3"><big id="dh1l3"><ol id="dh1l3"></ol></big></output>

        <ins id="dh1l3"></ins>
        <b id="dh1l3"></b>

        BaiduSpider升級了3.0抓取速度提升80%

        • 編輯時間:2016-12-06
        • 瀏覽量:
        • 作者:新鄉SEO

        BaiduSpider3.0升級了,抓取速度提升80%,帶大家一起來看看吧。

        BaiduSpider3.0

        BaiduSpider升級到3.0,抓取速度提升80%

        Baidu Spider上一次升級還要追溯到2010年。

        那個時候,中國互聯網資源急劇擴張,從百億擴大到千億規模,因而spider系統進行了重構,從單機互聯轉變為分布式計算系統。

        但是有一個很大的缺點:延時嚴重!

        而此次重構是把當前離線、全量計算為主的系統,改造成實時、增量計算的全實時調度系統,萬億規模的數據進行實時讀寫,可以收錄90%的網頁,速度提升80%!

        一張圖以蔽之:

         
        Baidu Spider3.0

        Baidu Spider3.0

         

        一、鏈接發現方面

        如今sipder每天發現的新鏈接在500億左右的量級,而在百度站長平臺提交鏈接是其中最為高效的,特此,工程師提醒站長不要過度提交鏈接,尤其是低質鏈接,這樣才能達到更好更及時的收錄效果。

        二、鏈接抓取方面

        策略上,開發了更強大的機器學習模型,來進行鏈接的質量預測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高95%!

        架構上,計算性能的強勁提升,對每天新增的數百億模塊的鏈接,完成實時計算,延時不到1秒;開發了更強大的存儲系統,面對萬億規模的數據做到實時讀寫。

        三、時效性頁面方面

        中長尾站的福音!針對時效性資源,從原來的優先對新浪、網易等大新聞站進行抓取,擴大到覆蓋全網的新聞、博客、論壇等站點進行快速抓取,大小站都能優待。

        打破老的平穩抓取模型,采用按需抓取機制,對有時效性新資源,做到秒級抓取。

        目前,每天收錄的時效性資源規模,擴大到原來的3倍,達到近1億量級!

        四、死鏈方面

        全新的死鏈識別模型,能識別各種協議死鏈、內容死鏈、跳轉死鏈等低質網頁。

        其中無效低質網頁(如被黑),通過百度站長平臺提交,可加快檢索屏蔽的過程。

        五、建庫方面

        索引展現時效性提升,原來是10天左右,現在提升40%~80%不等!

        最后總結一下原文中的植入廣告:

        Spider3.0時代

        站長平臺鏈接提交工具,可以讓抓取快上加快!

        站長平臺死鏈提交工具,可以讓檢索屏蔽過程快上加快!

        請問,你的網站驗證了嗎?

        來源:百度站長平臺

        -------------------------------------------------------------------------------------------
        -------------------------------------------------------------------------------------------
        性刺激的欧美三级视频中文字幕,黄漫画网站在线观看,五月婷婷久久,九九热这里只有精品,体育生小鲜肉gay自慰白袜,人人妻人人澡人人爽视频,日本三级在线播放线观看视频,亚洲毛片