[問題] Scrapy 蜘蛛程式無法爬超過3個網頁 allen511081 PTT批踢踢實業坊

[問題] Scrapy 蜘蛛程式無法爬超過3個網頁

作者: allen511081 (藍) 2014-12-04 13:04:49

小弟是python 新手，最近想要抓一個鳥會的DataBase，但這個DataBase的頁面沒有其他
連結，於是自己以程式產出連結，並丟給爬蟲程式去爬，
程式可以正常執行，無奈程式只要爬超過三個網頁，
抓下來的資料順序就會出錯，請教各位大大，我該如何解決??
下面附上程式碼
import scrapy
import string
from scrapy.http import Request
from Birdtest.items import BirdItem
class BirdSpider(scrapy.Spider):
name = "bird"
allowed_domains = ["webdata.bird.org.tw"]
start_urls = ["http://webdata.bird.org.tw/contents.php?key=000001"]
def parse(self, response):
for sel in response.xpath('//tr/td[@colspan]'):
item = BirdItem()
item['desc'] = sel.xpath('text()').extract()
yield item
for i in xrange(2,5,1):
url="http://webdata.bird.org.tw/contents.php?key=" + str(i)
yield Request(url,self.parse)

作者: goldflower (金色小黃花) 2014-12-05 15:42:00

順序出錯的具體狀況是@@?

作者: allen511081 (藍) 2014-12-05 19:24:00

例如：第一頁有25筆資料，第二頁有30筆資料，第三頁有35筆資料，第4頁有40筆資料，程式會先抓page1的10筆資料後，繼續去page2抓幾筆資料，依此類推，但是最後檢查資料，資料卻是一筆都不少的抓下來

繼續閱讀

Re: scrapy xpath extraction 以及其編碼的問題panpass scrapy xpath extraction 以及其編碼的問題stevec [問題] 變數範圍Arim Re: [問題]如何讓os.system執行多筆指令uranusjr [問題]如何讓os.system執行多筆指令arnold0613 [問題] 如何將照片使用介面讓user切割成方形sobonbon [問題] 安裝gensim包出現問題OoShiunoO [問題] 請教區網開啟和停用 ?Love1019 Re: [問題] Django POST部份資料呈現在redirect pagewalelile Re: [問題]Django Transaction error MacPerson