[問題] 爬新聞html5抓不到內文

作者: jasonfun44 (kk123)   2022-10-16 06:19:00
想請教版上的專家,有先搜尋資料了,但還是爬不了新聞內文,故想請教
目前想要把新聞內文爬進來
https://reading.udn.com/read/story/122749/6680114
網頁程式如下
https://i.imgur.com/eYufIAY.png
目前程式到這一步卡住,一直抓不到內文,故要請教各位專家該怎麼調整
,謝謝。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
貼程式碼不要用圖片 貼圖片還貼成相簿 又要再點進去然後你選擇器應該打錯了 你檢查一下
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
貼程式碼不要用圖片 貼圖片還貼成相簿 又要再點進去然後你選擇器應該打錯了 你檢查一下
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
貼程式碼不要用圖片 貼圖片還貼成相簿 又要再點進去然後你選擇器應該打錯了 你檢查一下
作者: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道選擇器怎麼改,我試了好幾次
作者: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道選擇器怎麼改,我試了好幾次
作者: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道選擇器怎麼改,我試了好幾次
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾 留給你自己濾
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾 留給你自己濾
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾 留給你自己濾
作者: jasonfun44 (kk123)   2022-10-16 21:13:00
謝謝!
作者: jasonfun44 (kk123)   2022-10-16 21:13:00
謝謝!
作者: jasonfun44 (kk123)   2022-10-16 21:13:00
謝謝!
作者: GQward   2022-10-21 01:06:00
使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式 所以就爬不到內文
作者: GQward   2022-10-21 01:06:00
使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式 所以就爬不到內文
作者: jasonfun44 (kk123)   2022-10-21 06:58:00
原來如此!!!
作者: jasonfun44 (kk123)   2022-10-21 06:58:00
原來如此!!!
作者: jasonfun44 (kk123)   2022-10-21 06:58:00
原來如此!!!
作者: tzouandy2818 (Naked Bear)   2022-10-15 22:36:00
貼程式碼不要用圖片 貼圖片還貼成相簿 又要再點進去然後你選擇器應該打錯了 你檢查一下
作者: jasonfun44 (kk123)   2022-10-15 22:53:00
已修正,抱歉,但我不知道選擇器怎麼改,我試了好幾次
作者: tzouandy2818 (Naked Bear)   2022-10-16 00:10:00
你先把選擇器最後的 div.inline-ads 刪掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最後印出來的結果裡面還有一些垃圾 留給你自己濾
作者: jasonfun44 (kk123)   2022-10-16 13:13:00
謝謝!
作者: GQward   2022-10-20 17:06:00
使用html.parser解析器爬下來的html可能會將原本在網頁上是 - -的原始碼變成!- 造成變註解形式 所以就爬不到內文
作者: jasonfun44 (kk123)   2022-10-20 22:58:00
原來如此!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com