如何配置自動采集、自動更新網站數據

簡數采集平臺通過設置 “定時采集” + “重復數據跳過” + “自動發布” 功能可實現同步更新數據,即定時檢測采集源網站是否有內容更新,采集并發布新內容。

定時采集功能詳情:定時采集配置;

自動發布功能詳情:采集后自動發布配置;


基本流程:

1. 采集已有的全部數據

先設置采集已有的全部列表頁中的數據;(下面以 “大眾養生-飲食” 模板為例,假設共100頁)


2. 采集更新數據

待已有的全部數據采集完成后,現只需定時采集更新的內容,用戶一般會在 “啟動 | 定時采集“ 處設置重復數據跳過來實現。

上述操作可行,但有個技巧可大幅提高同步更新采集效率:

判斷是否重復數據,系統是遍歷配置采集的列表頁中的文章與已采集入庫的文章中有無相同標題,如果數據量多會影響采集速度。

用戶可通過觀察采集源網站的內容更新頻率和數量,估算新內容會顯示在列表頁的前幾頁,并在 “采集起始網址” 處設置只采集前幾頁的內容,減少系統遍歷列表頁頁數來提高采集效率。

如下例網站新內容12小時更新一次,且一般顯示在列表頁的前兩頁,則可配置只采集前兩頁列表的文章。

(如果沒有這一步,按原來的設置,系統要遍歷100頁列表頁判斷是否有重復數據,現只需遍歷2頁列表頁)






青海快3电子走势图