[問題] 爬蟲出網站中所有的內文

作者: tosakashiron (翰)   2017-09-01 22:42:37
大家好
小弟目前爬蟲初學者
在目前的專案中需要用到爬蟲
但是是不知道會去爬哪個網站
應該說目標是丟入任意網址都要可以丟出該網站的內文
有點像是google搜尋引擎中
搜尋完的網站下方會出現預覽內文一樣
不知道有沒有辦法可以做到
或是github上面有神人已經寫出相關的API可以使用
因為不知道用什麼關鍵字搜尋比較好
所以找到的大部分都是只能爬出特定網站
或是只能爬出網址中的網址
跟我所想要的不太一樣
拜託各位神人大大了
謝謝!!!
作者: ptt0720 (濕濕)   2017-09-01 23:18:00
beautifulsoup 你有點懶惰哦
作者: vi000246 (Vi)   2017-09-02 00:11:00
首先你要定義內文
作者: karta0910489 (coyote)   2017-09-02 03:20:00
請定義內文
作者: tosakashiron (翰)   2017-09-02 14:11:00
謝謝樓上大大們的回應我想要的內文就是網站的所有文字內容只有會給使用者看得到的內容小弟我會使用beautifulsoup但是一定要定義tag才能find並解析有沒有辦法是不需要定義tag就可以爬出來因為每一個網址的tag都不一樣不知道有沒有辦法先在此謝謝大家!!
作者: blc (Anemos)   2017-09-02 15:47:00
urllib.open(url).read()
作者: coeric ( )   2017-09-03 11:28:00
網頁頁面是人寫的,沒人規定tag要怎麼用 頁面要怎麼排簡單一句話:case by case
作者: zerof (貓橘毛發呆雕像)   2017-09-03 14:33:00
search engine crawler
作者: yulin0619 (來自中國北方的一隻鵝)   2017-09-04 23:38:00
上網查都是英文的,看不懂可以買中文書啊,又不是說沒書可買

Links booklink

Contact Us: admin [ a t ] ucptt.com