我寫了一支爬蟲用來爬A網址
要從A網址回傳的HTML裡濾出圖床網址
程式要從圖床網址來取得大圖
每個圖床取大圖的邏輯都不一樣
我目前寫的邏輯如下
1.先取得A網址的HTML
2.過濾不要的區塊 因為圖床網址出現的地方不固定
我沒辨法先濾出
![]()
的連結再判斷圖床
3.為各網址寫REGEX過濾出網址再執行各自的取大圖邏輯
REGEX語法如下
(?<url>https?://
[\d\w_.]*
(?:imgdream|imgblank|img.yt|dimtus|imgstudio|damimage|imgseed|55888|imageteam|imagedecode|hentai|tinypic|pics.dmm)
(?:[\d\w-_./]*)[\d\w-_.]*.jpe?g)
(?<url>https?://[\d\w-_.]*(?:imgchili)(?:[\d\w-_./]*)[\d\w-_.]*.jpe?g)
(?<url>https?://1dl.biz(?:[\d\w-_./\?]*)[\d\w-_.]*)
我覺得這樣做效率滿低的
一個頁面要重覆判斷好幾次
想問有沒有辨法一次判斷是屬於哪個圖床
再執行各自取大圖邏輯?
我怕寫在一起 REGEX會越寫越長 很不好維護