[問題] BS無法辨認之前已出現過的的中文字。 ansem PTT批踢踢實業坊

[問題] BS無法辨認之前已出現過的的中文字。

作者: ansem (DoubleA) 2016-07-07 14:07:23

小弟我在網頁抓資料時發現假如出現過的文字，再次出現時似乎無法被辨認。
import urllib
from bs4 import BeautifulSoup
#url
='http://mops.twse.com.tw/mops/web/ajax_t164sb04?encodeURIComponent=1&step=1&firstin=1&off=1&keyword4=&code1=&TYPEK2=&checkbtn=&queryName=co_id&TYPEK=all&isnew=false&co_id=2330&year=102&season=01'
url='http://mops.twse.com.tw/server-java/t164sb01?step=1&CO_ID=2330&SYEAR=2013&SSEASON=1&REPORT_ID=C'
response = urllib.urlopen(url)
html= response.read()
sp = BeautifulSoup(html,"lxml") #cp950
trs=sp.find_all('tr',attrs={'class':["odd","even"]})
for tr in trs: #只要前面的字有重複就會認不出來
tds=tr.find_all('td')
for td in tds:
if (td.get_text().strip().encode('utf8')=="營業收入合計"):
if (tds[1].get_text().strip()!=''):
print('Earning','102','1',tds[1].get_text().strip().encode('utf8'))
print('Earning','102','1',tds[2].get_text().strip().encode('utf8'))
if (td.get_text().strip().encode('utf8')=="基本每股盈餘合計"):
if (tds[1].get_text().strip()!=''):
print('EPS','102','1',tds[1].get_text().strip().encode('utf8'))
print('EPS','102','1',tds[2].get_text().strip().encode('utf8'))
程式在抓取第一個營業收入合計時完全沒有問題，而在抓取基本每股盈餘時就完全沒反應
而由於之前已經有出現過"基本每股盈餘"這個字串(不過少了合計)，請問這部分是程式的Bug
還是我的程式碼本身就有問題？
還請各位賜教。

作者: s860134 (s860134) 2016-07-07 19:13:00

tds index寫死？

作者: ansem (DoubleA) 2016-07-07 22:57:00

寫死的意思是??

作者: s860134 (s860134) 2016-07-08 08:04:00

我誤解了，實際跑下去應該是網頁中 tag 判斷有問題把 'lxml' parser 換成　'html.parser' 會好一點但是　ＤＯＭ　的結構感覺還是和預想的有差距print(sp.find_all('table')[1]) 看一下尾端內容原本的　parser 爬得並不完整程式碼中的　sp 就已經沒抓到　"淨利（損）歸屬於："後的所有　<tr> tag 所以你在抓的時候抓不到可能 bs 本身有問題，直接拿 lxml.etree 來做是可以的https://goo.gl/fGJCYt 這是改寫過的版本

作者: ansem (DoubleA) 2016-07-08 11:40:00

其實當初我也發現BS似乎沒有抓到，但是以為發現的規則是有出現過的字無法重複判定，有點像是搜尋時假如重複出現兩個相同字串時就會讓BS無法讀取，總之感謝大大囉。

作者: buganini (霸格尼尼) 2016-07-12 14:01:00

把lxml換成html5lib 容錯能力會好一點

繼續閱讀

[徵求] Python 入門書籍徵求 Ubitch [問題] 字串解法Aungk [問題] Numpy has no attribute 'dtype'masalid [問題] ValueError: substring not foundPHONm [問題] python做deep learning套件proud [問題] py2exe 打包exeaa12twtwaa [問題] python找html值aa12twtwaa [問題] python3.5安裝pyinstaller失敗sunshinehope [問題] 如何在objects.create裡使用for迴圈BlgAtlfans [問題] pyenv察看以安裝的python versiondarkhcv