[請益] crawler and API? njpp PTT批踢踢實業坊

[請益] crawler and API?

作者: njpp (正妹真難找) 2014-06-26 17:49:58

想問下各位前輩
目前要開發擷取網頁的技術
一個是有API 直接讓C#去讀取XML資料
一個是不提供 API 直接用crawler方式去抓
但是crawler方式似乎無法跟讀取 XML節點一樣
有效整理我所要的擷取內容
crawler似乎只能傳一堆網站資料進來
但我如何用crawler技術有效擷取我所要的資訊
謝謝!

作者: pig22022 (宏) 2014-06-26 17:57:00

Crawler應該可以照你想要抓的tag來撈資料只是撈回來自己要再parse

作者: StupidGaGa (笨嘎嘎) 2014-06-26 18:00:00

你這問題應該要在C#板上問我可以給你一個關鍵字，Html Agility Pack我自己也開發過爬蟲專案，這東西不錯用

作者: wakaw (哇靠) 2014-06-26 19:36:00

推HAP

作者: kiii210 (HelloWorld!) 2014-06-26 20:35:00

xpath..regular expression都可以啊

作者: StupidGaGa (笨嘎嘎) 2014-06-27 02:28:00

樓上，你別鬧了，正規表示法根本不好用。xpath…請問你是用什麼東西搭配xpath？

作者: up9cloud (九天) 2014-06-27 03:57:00

推kiii210的regex,至於樓上.如果njpp是限定c#抓XML資料那你說的很對，但若不是。我只能ㄏㄏ了...

作者: leeheng (LHMa) 2014-06-27 09:28:00

正規表示法不好用？可是你用的parser跟compiler都是用正規表示法再爬抓回來的網頁和你的程式耶

作者: chatnoir (對不起) 2014-06-27 12:10:00

正規表示法不好用....

作者: StupidGaGa (笨嘎嘎) 2014-06-27 16:03:00

請用HAP，用正規表示法的我只能說，根本自爽我用過單純字串處理、正規表事法、HAP，相信我HAP第三方的dll真的好用太多了，尤其是解析網頁而且HAP也是用xpath去解析，不僅靈活度高，易讀性也高PTT C#版人多，不過大多都學生，有時候業界人的話會無法認同如果樓主無法決定用哪個，你就兩個都用，你就知道差異另外C#抓XML沒人再用HAP也沒用正規，是用class去轉up9cloud真的寫過C#嗎？我很懷疑你的經驗

作者: gary62107 (Felix) 2014-06-28 01:41:00

兩個都用過，正規表示式學習曲線高，但彈性 powerfullHAP方便，但過於依賴也不太好...

作者: iceonly (只有冰) 2014-06-28 15:36:00

順便問問有沒有java的，然後完美解決ajax的htmlunit不穩定

作者: coronach (...) 2014-06-28 22:42:00

要完美解決ajax要做的事太多了 htmlunit已經不錯了...

作者: HYL (@EVERYWHERE) 2014-06-28 23:47:00

Google花了 15 年才解決 AJAX 的問題，這問題不好解阿～

繼續閱讀

[請益] 該如何切入軟體產業?kage01 Re: [請益] 小弟目前非資工系大三，未來方向請益StupidGaGa [徵才] 海外工作機會，誠徵PHP/iOS/android程式peric053 [心得] iOS 面試心得 Pchome,CSI,FlyFit....Boska Re: [請益] 小弟目前非資工系大三，未來方向請益SirChen [URL] 華山論劍 - 程式，架構，開發論壇。qrtt1 Fw: [請益] 台灣yahoo工程師的薪水Angil [請益] 寫財經相關軟體的工作bubba [請益] Offer選擇marquee801 [徵才] 長期工讀生 (協助軟體開發)LoveCl