[請益] crawler and API?

作者: njpp (正妹真難找)   2014-06-26 17:49:58
想問下各位前輩
目前要開發擷取網頁的技術
一個是有API 直接讓C#去讀取XML資料
一個是不提供 API 直接用crawler方式 去抓
但是crawler方式 似乎無法跟讀取 XML節點一樣
有效整理我所要的擷取內容
crawler似乎只能傳一堆網站資料進來
但我如何用crawler技術有效擷取我所要的資訊
謝謝!
作者: pig22022 (宏)   2014-06-26 17:57:00
Crawler應該可以照你想要抓的tag來撈資料 只是撈回來自己要再parse
作者: StupidGaGa (笨嘎嘎)   2014-06-26 18:00:00
你這問題應該要在C#板上問我可以給你一個關鍵字,Html Agility Pack我自己也開發過爬蟲專案,這東西不錯用
作者: wakaw (哇靠)   2014-06-26 19:36:00
推HAP
作者: kiii210 (HelloWorld!)   2014-06-26 20:35:00
xpath..regular expression都可以啊
作者: StupidGaGa (笨嘎嘎)   2014-06-27 02:28:00
樓上,你別鬧了,正規表示法根本不好用。xpath…請問你是用什麼東西搭配xpath?
作者: up9cloud (九天)   2014-06-27 03:57:00
推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料那你說的很對,但若不是。我只能ㄏㄏ了...
作者: leeheng (LHMa)   2014-06-27 09:28:00
正規表示法不好用?可是你用的parser跟compiler都是用正規表示法再爬抓回來的網頁和你的程式耶
作者: chatnoir (對不起)   2014-06-27 12:10:00
正規表示法不好用....
作者: StupidGaGa (笨嘎嘎)   2014-06-27 16:03:00
請用HAP,用正規表示法的我只能說,根本自爽我用過單純字串處理、正規表事法、HAP,相信我HAP第三方的dll真的好用太多了,尤其是解析網頁而且HAP也是用xpath去解析,不僅靈活度高,易讀性也高PTT C#版人多,不過大多都學生,有時候業界人的話會無法認同如果樓主無法決定用哪個,你就兩個都用,你就知道差異另外C#抓XML沒人再用HAP也沒用正規,是用class去轉up9cloud真的寫過C#嗎?我很懷疑你的經驗
作者: gary62107 (Felix)   2014-06-28 01:41:00
兩個都用過,正規表示式學習曲線高,但彈性 powerfullHAP方便,但過於依賴也不太好...
作者: iceonly (只有冰)   2014-06-28 15:36:00
順便問問有沒有java的,然後完美解決ajax的htmlunit不穩定
作者: coronach (...)   2014-06-28 22:42:00
要完美解決ajax要做的事太多了 htmlunit已經不錯了...
作者: HYL (@EVERYWHERE)   2014-06-28 23:47:00
Google花了 15 年才解決 AJAX 的問題,這問題不好解阿~

Links booklink

Contact Us: admin [ a t ] ucptt.com