[問題] aspx爬蟲翻頁問題 jimmy5104 PTT批踢踢實業坊

[問題] aspx爬蟲翻頁問題

作者: jimmy5104 (tsoo182791) 2018-12-13 11:00:42

https://www.mittw.org.tw/products/manufacturer.aspx
想要將這個網頁的公司名稱爬蟲下來，但發現有翻頁問題
已經在stackoverflow等等網站找尋資訊，還是無法解決，
想請問各位py神有沒有方法可以解決這個問題。
以下是程式碼
from bs4 import BeautifulSoup
import requests
url = 'https://www.mittw.org.tw/products/manufacturer.aspx'
url_get = requests.get(url)
soup = BeautifulSoup(url_get.content, 'lxml')
col = soup.find_all('div',{'class': "name"})
for ix in col:
print(ix.get_text())

作者: CodingMan (程式俠) 2018-12-13 11:17:00

Selenium

作者: cody880528 (Summon) 2018-12-13 12:18:00

大概像這樣吧 https://pastebin.com/mpB8RNirASP都比較麻煩一點

作者: jimmy5104 (tsoo182791) 2018-12-13 13:13:00

謝謝cody880528你的code可以順利爬下來但是我有的看不懂其中的含意可以幫我解釋一下嗎？另一個問題就是假如說main()爬取下來後怎麼將他也順利寫入csv擋

作者: jason860421 (jason) 2018-12-13 15:30:00

開開發者工具看網頁做了什麼就知道了

作者: jimmy5104 (tsoo182791) 2018-12-13 16:53:00

aspx背後程式碼有點看不懂cody打在def裡面有幾個網頁原始檔的code不知道為什麼是這樣打我比較想知道原因為什麼是挑選那幾個下去原始碼後就可以翻頁爬蟲

繼續閱讀

[問題] Youbike資料視覺化請教aaron880221 [問題] 請教如何不用sudo執行pip3silverarrow [問題] NumPy 反矩陣計算soupbone [問題] pandas中 .agg()與.apply()的差別sssh [問題] 有辦法脫離父程序嗎?phoenixcx [問題] class.__new__ 使用疑問papple23g [問題] def 內呼叫其他py檔defleoone [問題] 不影響迴圈效率情況下倒數XperiaZ6C [問題] 新手問ptt政黑版爬蟲askdrlin [問題] print畫面資料寫出一個檔newdas