火車頭采集器多頁規則怎么寫 _采集器

1.如何寫火車頭采集器的采集規則,采集頁面上圖片內的文字不得不說火車頭是有一定用處，但是個人覺得不怎么好用，光是寫那些采集規則，設定什么的就一大堆不明不白的東西。拿錢購買嘛，一開始那客服還很熱情的為你解答，一交完錢買下來了，寫規則，好了，有問題要找客服解決，結果一拖再拖，弄了一個多月還沒弄好，整個網站的工作進程全拖慢了，還不如自己辛苦點自己手動寫文章，還采集啥啊~
言歸正傳，火車頭使用：新建站點—>；新建任務—>；填寫你要采集的網站文章列表—>；點下面的開始測試網址—>；如果有采集到很多文章，看各個地址相同部分（如system/2012/03/07），點返回修改，把system/2012/03/07這部分加到“文章內容必須包含”那里，再測試一下，就可以采集到3月7日的文章地址了—>；前面準備好網址后接下來就是第二步的采集內容規則了，點第二步，設定標簽，一般采集包括標題<title></title>；、關鍵字<meta name=keyword 。>；、內容<div> 。</div>；，這些設置從你要采集的網站代碼上可以找到相應的——>；采集頁面上的圖片，在第四步，“文件保存及高級設置”，選擇所有文件本地保存文件夾（這里是從頁面下載圖片存放的位置），然后下面有個FTP同步文件上傳的，填好服務器、用戶名、密碼什么的，文件上傳根目錄就是你網站服務器放置圖片的文件夾位置，你可以在服務器新建一個文件夾試試看，OK！到此為止，不過有一些網站寫了反采集代碼，有可能會被封IP，整體來說，個人不提倡使用火車頭采集器，還不如個人手動來得實在，就算一天少發點也行，只要保證每天更新量、偽原創和原創，一樣有很大效果。
2.飛飛火車頭采集器怎么寫發布規則1 首先講一講網站結構，通常網站結構為樹形結構，一個網站主要包以下幾種頁面：首頁、欄目頁、文章頁，其結構如下圖。
其次講一講火車頭采集原理，火車頭的運行需要一套規則來指定該如何采集所需數據，即需要編寫火車頭采集規則，編寫采集規則也是新手最頭痛的問題。火車頭采集器通常通過網址抓取網站返回的源代碼，然后在源代碼中提取需要的信息。
因此，采集數據需要先采集網址，然后再采集數據。2 下面開始編寫采集規則：運行LocoyPlatform.exe3 在左側“任務列表樹”選擇一個分組點擊右鍵，選擇“新建任務”彈出新建任務對話框。
填寫任務名，網站編碼一般選擇自動即可。添加起始網址填寫“第一步：采集網址規則”這里需要按照網站的樹形結構逐級獲取下一級結構的網址，直至獲取到內容頁的網址。
先填寫起始網址，通常為目標站首頁地址。點擊“添加”，在單條網址處填上火車頭博客的首頁地址，然后依次點擊“添加” ->“完成” 。
編寫“多級網址獲取”規則這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區域，先查看起始頁地址的源碼，找到如圖所示代碼區域：點擊右側“添加”按鈕打開“添加多級網址采集規則”，選擇“從頁面自動分析得到地址鏈接”單選按鈕，在下面“從該選定區域中提取網址”，“從”（左側）文本框填上欄目地址代碼區域開始之前的標志性代碼（要保證其在該頁的唯一性），“到”右側文本框填上欄目地址代碼區域結束之后的標志性代碼，在“結果網址過濾”的“必須包含”和“不得包含”文本框填上相應代碼，如果該區域沒有多余的鏈接不需要過濾，可以不填，這里的欄目頁網址必須包含“category-” 。然后點擊“保存”返回。
現在需要獲取內容頁的地址。先打開欄目頁查看源碼，查找內容頁地址存在的區域及地址規律。