[問題] CSV資料可以依據column多筆配對嗎?

作者: DKnex (DK)   2022-07-27 17:07:27
大家好,小弟想再次求救
我有個表格,如圖一
圖一https://imgur.com/a/5r5SwNr
我根據K欄位count出重複值如L欄位
但這不完全是我要的結果
我要的結果如圖二
圖二https://imgur.com/a/Bmw8f0o
我在Excel做的邏輯是:
1.首先從K欄位count出重複出現的url_hash,接著將重複的url_hash當中keyword_id
用vlookup去找重複出現的keyword_id
2.當找到這些重複keyword_id後,又將這些連帶出現的url_hash
用vlookup再找重複的url_hash
3.重複上述1和2直到整個資料找完找不到為止,就形成圖二這樣的結果
目前因為資料很多,需要用python做完比較快
但小弟不知道從何下手,根據EXCEL用的函數也就countifs 還有 Vlookup
不知道在python是要用IF ELSE?
還是有其他可以funtion可以幫到我呢?
任何意見都歡迎大家提供給我參考,謝謝。
作者: lycantrope (阿寬)   2022-07-27 17:21:00
你沒解釋輸出要什麼啊 是同組的數值還是只要算個數https://pastebin.com/NS44Qfgs
作者: chang1248w (彩棠)   2022-07-28 10:13:00
groupby ?
作者: heavyking02 (皮諾丘)   2022-07-28 14:58:00
真滴有點難懂你的問題,不確定這樣對不對,先新增一個空的column,然後df.groupby([‘count’,’url_hash’,’keyword_id’])[‘新增的空欄位‘].sum()
作者: lambo (Lambo)   2022-07-28 19:11:00
所以您是要分別數keyword_id跟url_hash之後,再依url_hash排列而已嗎
作者: lycantrope (阿寬)   2022-07-28 21:28:00
grouping,keyword url有相關就分成一組uuid只是用來產生測試資料,靠union_find把資料配對
作者: refusekkk (另類3k)   2022-07-29 20:51:00
我想讀成dict

Links booklink

Contact Us: admin [ a t ] ucptt.com