[問題] 卷商資料爬蟲 unknown PTT批踢踢實業坊

[問題] 卷商資料爬蟲

作者: unknown (ya) 2022-07-25 11:05:15

爬蟲網址:
https://fubon-ebrokerdj.fbs.com.tw/z/zg/zgb/zgb0.djhtm?a=1160&b=1163&c=E&d=1
使用下面語法爬蟲 (語法自己摸索可能寫的不是很好,也可以指正)
def get_NBA(url):
r = requests.get(url=url)
r.encoding = 'big5'
if r.status_code == requests.codes.ok:
soup = BeautifulSoup(r.text, 'html.parser')
for tr in soup.find_all('tr'):
for td in tr.findAll('td'):
text = '#'+td.getText()
file.write(text)
file.write('#EENNDD\n')
#file.write('\n')
結果遇到他在主要股號股名那邊我就抓不到了
<tr>
<td class="t4t1" nowrap id="oAddCheckbox">
<SCRIPT LANGUAGE=javascript>
<!

作者: niceguy (niceguy) 2022-07-25 11:34:00

這三行被註解掉了，只能用re了吧？

作者: sleepeye (sl? ? ) 2022-07-25 15:51:00

可否多加指導一下

作者: razer (還是一個人) 2022-07-25 17:20:00

regular expression，PTT有版

作者: lycantrope (阿寬) 2022-07-25 17:25:00

可以用findall("script")抓吧？還是都複製貼上沒在想

作者: razer (還是一個人) 2022-07-26 09:26:00

findall 就已經是re的函式了，他應該真的沒用過re

繼續閱讀

[問題] 多筆list 迴圈執行david1329 [問題] 請問df的篩選strekm [家教] partial convolutional nnpatrick0302 [問題] csv選取資料後如何存檔？DKnex [討論] 誠徵python / mysql 解題sandrahuang Re: [問題] pyautogui編譯成exe圖片無法定位LaughPoint [問題] pyautogui編譯成exe圖片無法定位LaughPoint [資訊] 微開發者寫作松活動分享alansyue 請教請問有懂日文的程式員嗎？weechia [問題] list裡的字串可以改成變數嗎yy2218