[討論] 新手請教 爬蟲拋出資料比對

作者: cloverlover (cloverlover)   2021-02-11 09:06:37
概念描述 :
定時爬ptt八卦板,收尋特定字符後拋出line訊息
問題:
若定時爬出的資料為相同的,要如何建立確認機制?等到有不同的再拋出。
目前作法是將數據存成list,再拋出
但第二次跑時不知道如何前後資料比對
先謝謝各位指導
補充程式概述:
while True :
def getdata(url):
return 數據
Y = [ ]
Y. append(數據)
Line bot 拋出 Y
我想讓拋出的Y有辦法做前後比對,有差別後再拋line bot
主要卡在Y再跑第二次時會覆蓋第一次就無法比對
作者: supremebboy (1234)   2021-02-11 09:38:00
搜尋
作者: penut85420 (PenutGGorz)   2021-02-11 10:23:00
考慮看看hash
作者: aidansky0989 (alta)   2021-02-11 11:02:00
用set存,當set長度增加時跳出通知
作者: TitanEric (泰坦)   2021-02-11 12:36:00
hash checksum用另一個set存之前抓下來的文件checksum 存之前先用in set判斷
作者: vi000246 (Vi)   2021-02-13 17:45:00
我會直接抓編輯紀錄的時間 這樣最省效能

Links booklink

Contact Us: admin [ a t ] ucptt.com