火車頭采集器多頁規則怎么寫

1.如何寫火車頭采集器的采集規則,采集頁面上圖片內的文字不得不說火車頭是有一定用處,但是個人覺得不怎么好用,光是寫那些采集規則,設定什么的就一大堆不明不白的東西 。拿錢購買嘛,一開始那客服還很熱情的為你解答,一交完錢買下來了,寫規則,好了,有問題要找客服解決,結果一拖再拖,弄了一個多月還沒弄好,整個網站的工作進程全拖慢了,還不如自己辛苦點自己手動寫文章,還采集啥啊~
言歸正傳,火車頭使用:新建站點—>;新建任務—>;填寫你要采集的網站文章列表—>;點下面的開始測試網址—>;如果有采集到很多文章,看各個地址相同部分(如system/2012/03/07),點返回修改,把system/2012/03/07這部分加到“文章內容必須包含”那里,再測試一下,就可以采集到3月7日的文章地址了—>;前面準備好網址后接下來就是第二步的采集內容規則了,點第二步,設定標簽,一般采集包括標題<title></title>;、關鍵字<meta name=keyword 。>;、內容<div> 。</div>;,這些設置從你要采集的網站代碼上可以找到相應的——>;采集頁面上的圖片,在第四步,“文件保存及高級設置”,選擇所有文件本地保存文件夾(這里是從頁面下載圖片存放的位置),然后下面有個FTP同步文件上傳的,填好服務器、用戶名、密碼什么的,文件上傳根目錄就是你網站服務器放置圖片的文件夾位置,你可以在服務器新建一個文件夾試試看,OK!到此為止,不過有一些網站寫了反采集代碼,有可能會被封IP,整體來說,個人不提倡使用火車頭采集器,還不如個人手動來得實在,就算一天少發點也行,只要保證每天更新量、偽原創和原創,一樣有很大效果 。
2.飛飛火車頭采集器怎么寫發布規則1 首先講一講網站結構,通常網站結構為樹形結構,一個網站主要包以下幾種頁面:首頁、欄目頁、文章頁,其結構如下圖 。
其次講一講火車頭采集原理,火車頭的運行需要一套規則來指定該如何采集所需數據,即需要編寫火車頭采集規則,編寫采集規則也是新手最頭痛的問題 。火車頭采集器通常通過網址抓取網站返回的源代碼,然后在源代碼中提取需要的信息 。
因此,采集數據需要先采集網址,然后再采集數據 。2 下面開始編寫采集規則:運行LocoyPlatform.exe3 在左側“任務列表樹”選擇一個分組點擊右鍵,選擇“新建任務”彈出新建任務對話框 。
填寫任務名,網站編碼一般選擇自動即可 。添加起始網址 填寫“第一步:采集網址規則”這里需要按照網站的樹形結構逐級獲取下一級結構的網址,直至獲取到內容頁的網址 。
先填寫起始網址,通常為目標站首頁地址 。點擊“添加”,在單條網址處填上火車頭博客的首頁地址,然后依次點擊“添加” ->“完成” 。
編寫“多級網址獲取”規則 這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區域,先查看起始頁地址的源碼,找到如圖所示代碼區域:點擊右側“添加”按鈕打開“添加多級網址采集規則”,選擇“從頁面自動分析得到地址鏈接”單選按鈕,在下面“從該選定區域中提取網址”,“從”(左側)文本框填上欄目地址代碼區域開始之前的標志性代碼(要保證其在該頁的唯一性),“到”右側文本框填上欄目地址代碼區域結束之后的標志性代碼,在“結果網址過濾”的“必須包含”和“不得包含”文本框填上相應代碼,如果該區域沒有多余的鏈接不需要過濾,可以不填,這里的欄目頁網址必須包含“category-” 。然后點擊“保存”返回 。
現在需要獲取內容頁的地址 。先打開欄目頁查看源碼,查找內容頁地址存在的區域及地址規律 。