Re: [新聞] 蘋果將偵測兒童色情影像 用戶上傳iCloud

作者: s25g5d4 (function(){})()   2021-08-08 01:09:05
: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: 為了要避免他們儲存太多重複的檔案
: 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)
用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同
我覺得蘋果不會做這種智障系統,否則這系統根本沒用
所以去翻了一下相關文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起來是用蘋果自己開發的新演算法 NeuralHash
看名字就知道一定跟神經網路有關
大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵
最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值
LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化
以避免相似的資料產生一樣的 hash
LSH 則否,越相似的資料產生相同 hash 的機率越高
以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash
是很厲害的技術
作者: jason2641668 (鋼球智者)   2021-08-08 01:13:00
https://i.imgur.com/Iyu9H9B.png樓上 他有一個 threshold number基本上你要iCloud裡面有一堆這種類型的照片超過那個 threshold number 他才會轉人工檢測一張兩張 有可能是誤判 可是你有100張都被確診那就合理懷疑你是有問題的100只是我隨便設一個 threshold number白皮書裡面有說 他們不會去學習不在那個資料庫內的特徵很大程度要去降誤差帶來的問題你的兒童色情圖片不在 CSAM 資料庫中在蘋果這套偵測機制下 是不會被抓出來的白皮書裡面有寫 誤判率大概是 1 in 1 trillion他有說不會訓練 CSAM 提供以外的CSAM 資料庫基本上就是一個兒童色情犯罪的檔案庫你女兒的裸照並不會無緣無故被拿去訓練除非你兒女的裸照曾經被用於犯罪用途才有機會被列進去 CSAM 資料庫更正是 NCMEC 資料庫然後 NCMEC 提供的貌似也只有 hashes 值而已所以很有可能 Apple 也碰不到原始圖片using a database of known CSAM image hashes provided by NCMEC and other child-safety organizatio

Links booklink

Contact Us: admin [ a t ] ucptt.com