[問題] robots.txt處理 walelile PTT批踢踢實業坊

[問題] robots.txt處理

作者: walelile (wakaka) 2014-10-20 12:30:01

在robots.txt中，會有許多Disallow或Allow path的設定
e.g.
Disallow: /dir/myfile.html
Allow: /dir/
(在/dir/目錄下只允許存取/dir/myfile.html)
我現在處理robots.txt的方式是逐條將Disallow或Allow的設定轉成regex,
並分別存在Disallow與Allow的array中。
每次有URL需要進行處理時，先逐條比對Disallow中的regex然後在比對Allow中的regex
想請問是否有其他比較妥當的處理方式？
我目前看到規定最多的是維基百科的robots.txt, 約有700條設定
還不確定這對fetch url效能上的影響有多大...
謝謝指教

繼續閱讀

[問題] 關於多執行緒疑問tas72732002 Re: [問題] Golang iterate callbackhSATAC Re: [問題]用遞迴寫一個PowerSet,求解釋yauhh [問題] VC++寫UI美化(貼圖),有沒有專門的書??newidl23 [問題]用遞迴寫一個PowerSet,求解釋billy20510 [問題] 雙向佇列zxcv12 Re: [問題] 請問圖形化介面建議始用哪種語言?s0310388 [問題] 在BCB6.0使用ChartDirector的DLLDIE755127 Re: [問題] Golang iterate callbackyauhh Re: [問題] 請問圖形化介面建議始用哪種語言?bjiyxo