Fw: 網路爬蟲簡易教學

作者: airyptt (跌宕不羈)   2020-01-08 17:12:32
※ [本文轉錄自 Gossiping 看板 #1TeGbHF_ ]
作者: airyptt (跌宕不羈) 看板: Gossiping
標題: Re: [新聞] 財經網美踢爆柯文哲還債攏係假 姚文智也
時間: Sat Oct 12 06:59:11 2019
原文43
現在打這篇有點遲, 但是我想現在現在八卦版人為操作真的太明顯, 所以我拋磚引玉...
打一篇簡易爬蟲教學, 真的很簡單.
1. 請先註冊
https://grabbly.io/
圖說 https://ibb.co/zHng2hZ
可以使用電子郵件帳號罐頭網站註冊, 如下
https://temp-mail.org/
圖說 https://ibb.co/vJwBmJW
然後用上面的罐頭電子郵件註冊grabbly網站
會收到認證信件, 認證以後
2. 安裝plug-in
目前我看到只有支援 Chrome
https://grabbly.io/#download
圖說 https://ibb.co/0BfXHFg
安裝完成以後
Chrome 網址欄旁邊會多出一個G的圖案
圖說 https://ibb.co/8g37202
3.
進入
https://www.ptt.cc/bbs/Gossiping/index.html
以此篇公告文當範例
https://www.ptt.cc/bbs/Gossiping/M.1570679043.A.C0B.html
進入到文章以後
點選Grabbly插件
圖說 https://ibb.co/Sr5jdMj
選取public jobs
圖說 https://ibb.co/ydg0QKW
會有我已經設定好的範本, 歡迎各位先進修改
圖說 https://ibb.co/WxtryfR
點選 Run in this tab
圖說 https://ibb.co/fMY7Fch
之後會開始抓資料, 抓完以後點選download
圖說 https://ibb.co/xfjvwTc
在ptt.cc crawler 右邊有download, 點擊download開始下載檔案
圖說 https://ibb.co/ZSYMGVL
4. 後續分析
下載以後的檔案如下
https://gofile.io/?c=Ch0IHw
這邊最基本就是使用Excel做分析... 我想比我強的人多得是, 我就不獻醜了
此外, 另外一個ptt網站也已經有一個範本, 操作方式一樣
目前範本只有在
ptt.cc/bbs
pttweb.tw
這兩個網站有用, 原因在於上面兩個網站都有提供IP資料.
大家有空可以玩一下, RedMango最初提供的名單真的只有準, 可惜她被搞死了. 默哀
對了, 下載以後的推噓箭頭會是亂碼, 不過相對應的亂碼都是固定的, 可以直接
搜尋取代.
===========更新=========
現在用
https://www.plytic.com
查詢使用者以後, 點選IP紀錄(以RedMango為例)
圖說 https://ibb.co/Bc89p0f
開啟grabbly plug-in以後, 選取Public jobs, 在Plytic Crawler裡點選run in this tab
, 下載檔案如下
https://gofile.io/?c=dS8sZc
裡面可以爬 共用過IP的帳號與該共用IP及該被查詢使用者的IP歷史紀錄(僅限於在Plytic.com
上的紀錄)
======
有很多人質疑RedMango的清單, 我上面所說最初的清單網址如下
https://bit.ly/2OJhzFx
請在該清單裡面搜尋Slow, 會找到共用IP的帳號, 以下以其中一帳號 AsanoSugi 為例
進入google.com 搜尋 "asanosugi site:ptt.cc" 結果如下
https://bit.ly/2M6OYIw
點選 "[檢舉] 超過五個帳號- 看板ID_Multi - 批踢踢實業坊"
可以查看到此帳號被送多重
到此, 此清單鑑於IP共用的方式來判定十分準確, 說不準的請從該清單裡面找出反例

Links booklink

Contact Us: admin [ a t ] ucptt.com