[問題] 爬蟲問題

作者: xm3fu0 (呂喝喝)   2018-09-29 00:27:09
狀況是這樣的
有一個csv裡面有n個網址
這幾個網址的格式類似 我目標都是要求出其中的table
那應該要如何寫呢?
我自己寫的程式碼如下
import requests
from bs4 import BeautifulSoup
f = open(r"C:\python\scripts\xxx.csv","r")
lines=f.readlines()
lens=len(lines)
list = []
for index in range(lens):
temp = lines[index]
res = requests.get(temp)
soup = BeautifulSoup(res.text)
list.append(soup.select('table')[0])
我試著把I+=1擺進迴圈
發現temp = lines[index]沒辦法執行完畢
註:xxx.csv檔案的資料都是網址,只有一個column的資料
資料類型都是http:\\......
麻煩各路高手了(跪
作者: s860134 (s860134)   2018-09-29 03:11:00
for 迴圈改成 for url in lines 比較直接res = requests.get(url) 這行沒問題,問題是後面保證毎一個 url 都是有效的? 毎而且都有一個 table ?沒辦法執行完畢你也要說一下錯在哪
作者: sherees (ShaunTheSheep)   2018-09-29 07:06:00
try
作者: xm3fu0 (呂喝喝)   2018-09-29 10:13:00
好! 感謝你們 我試試看等等把errorcode奉上最後方向他的網址後面會有跨行\n的字去干擾讀取 改成xlrd就可以了 感謝各位
作者: s860134 (s860134)   2018-09-29 22:32:00
... 所以是多了個 '\n'?

Links booklink

Contact Us: admin [ a t ] ucptt.com