Re: [情報] 蘋果新的照片審查機制

作者: PopeVic (ㄅㄧ)   2021-08-08 23:40:04
原文恕刪
因為覺得兒童色情及用戶隱私是相當重要的議題,但使用者對於其技術的誤解容易造成議
題失焦,所以希望透過這篇回文拋磚引玉吸引更多人的討論,也懇請各位大神對於我說錯
的地方不吝指教QQ。
在討論運作方式前,先來看看幾個技術文件提到的大前提XD
1. 蘋果不會知道任何 unmatched 照片的任何資訊。
2. 除非到達一定的閥值,蘋果不會取得任何 matched 照片的 metadata 或視覺資訊。
3. 系統誤判的機率非常的低(文件下方說誤判帳號的機率是一兆分之一),且每個被點
名的嫌疑帳號都會被人工審核後才回報給 NCMEC。
首先,先從官方的技術文件來了解系統的大致的運作方式。蘋果並不是單純的用
AI 影像辨識的方式偵測,而是在先本機取得圖片的 NeuralHash 值後跟資料庫中已知
的雜湊值比對,且比對的動作是在本機執行。比對的結果也會經過加密後才上傳到
iCloud,故在解密之前連蘋果也不知道比對的結果與內容,要直到達到一定的閥值後蘋果
才會將 matched 的照片解密並將帳戶回報給 NCMEC。其步驟可以參考下方圖片。
https://imgur.com/Cwn2828
那麼,這個做法跟單純的 AI 影像辨識究竟有何不同?有人會誤以為蘋果是運用大量的兒
童色情圖片訓練出一個分類模型來判斷照片是否屬於兒童色情。然而,蘋果並不是用這樣
的方式來判斷圖片「像不像」兒童色情,其技術中的神經網路只是用來提取圖片的特徵值
(描述符 descriptor),特徵值經過雜湊後再與「已知的」非法圖片進行比對,而匹配與
否是看有無與已知的圖片「近乎相同」(nearly identical)。所以它的概念比較
類似以圖搜圖,而不是 google 相簿的場景/人物辨識。故重點在於已知的資料庫內容
,理論上要明確被列入資料庫的非法照片才有可能 match。
至於到底什麼樣的照片叫做「近乎相同」?根據蘋果的技術文件,原始圖片即使
經過輕度的裁切、變形、灰階化、改變解析度,甚至轉檔,都會被視為與原圖近乎相同
,換句話說,修改後的圖片會與原圖產生相同或相似的雜湊值。下圖即是技術文件內
的例子。
https://imgur.com/nRmh7z5
但是,即便兩張圖片視覺上看起來相同,它們依舊是不同的兩張圖片,怎麼會產生相同或
相似的雜湊值?這有兩個關鍵的地方,其一是提取圖片描述符(descriptor)所使用的神經
網路。從文件可以得知,蘋果使用自監督學習(self-supervised training)的方式來訓練
模型。模型的 input data 非常簡單,共有兩種組合,第一種是由原圖與稍微修改的原圖
形成的組合(original/perturbed pair);第二種是由原圖以及一張與原圖不相同的圖片
形成的組合(original/distractor pair)。而模型的目標是遇到相似的圖片組合時產生相
似的描述符,反之在遇到不相似的圖片組合時要產生不同的描述符。總之,這個神經網路
被訓練成在遇到近乎相似的圖片時會產生相似的描述符。
然而,有相似的描述符還不夠,第二個關鍵是取得描述符後會使用 LSH (Locality-
sensitive hashing) 算法進行雜湊,這部分請參考此篇 #1X3huscy (MobileComm) ,
簡單來說相似的輸入值會有高機率被 hash 到相同的 bucket,這就是為什麼近乎相同的
圖片會產生相同的 NeuralHash。
以下是幾個我覺得很有趣問題,也附上我的看法,如有說錯請大大多多指教
Q1: 蘋果要怎麼判斷照片是未成年的?如果自拍小 GG 會不會被誤判?
A1: 如第一段所述,蘋果並不是用 AI 來判斷圖片「像不像」未成年,所以圖片看起來像
不像未成年並不重要,重要的是有無與資料庫匹配。
Q2: 家長拍攝自家小孩的照片會不會被誤判持有兒童色情?
A2: 其判斷的重點在於已知的資料庫內容,除非家長拍的照片被列入資料庫,不然理論上
不會因此誤判。
Q3: 那麼二次元的部分呢?
A2: 如同Q2,除非哪天 NCMEC 把二次元視為兒童色情並將圖片列入資料庫中,不然不會
因此誤判。
Q4: 廢話這麼多?所以蘋果到底有沒有掃描且看過我的相簿?
A4: Well..yes, but actually no。蘋果確實在「本機」掃描了圖片,但是掃描得到的描
述符、NeuralHash,與判斷結果都會以加密的方式上傳到 iCloud,所以除非是超過閥值
而被解密的照片,不然蘋果不會知道任何 unmatched 圖片的 metadata 或視覺上的訊,
也就是說,蘋果並沒有「看過」你的照片。
Q5: 這樣看來蘋果有解密照片的能力,那加密不就是唬爛的嗎?
A5: 該加密技術是採用 PSI 加密協議(原理好複雜我也還沒完全看懂XD),但就我的理
解,蘋果解密圖片需要兩把鑰匙,其中一把鑰匙為伺服器持有,而另一把在本機計算
NeuralHash 時產生,然而,本機所產生的鑰匙只有在圖片 matched 時才是有效的鑰匙,
換句話說,圖片在 unmatched 的情況下本機產生的鑰匙是無效的,所以蘋果沒辦法單方
面解密照片。
總結來說,我覺得蘋果這個做法在保護未成年的部分是立意良善,也儘可能做到維護使用
者的隱私,但仍有幾個需要探討的點:
1. 蘋果如何保證這個機制只會用來偵測兒童色情?這整個機制最重要的部分就是資料庫
的內容,只要放入資料庫的照片就能夠被偵測到。也就是說,如果有政府單位或是其他組
織要求在資料庫放入其他照片,那麼這個機制便可能淪為政府內容審查的工具,蘋果要如
何保證這點?
2. 繼然被點名的帳戶會經過蘋果的人工審查,那麼蘋果是否會保證審查人員的心理健康
?且人工審核時審查人員是否知道照片與帳戶持有人之間的關聯?
3. 所有機制都會有誤判的時候,那麼遇到 false positive 時會如何處理?
作者: PopeVic (ㄅㄧ)   2021-08-08 23:43:00
第一次發長文,排版有點混亂,敬請見諒QQ
作者: IMISSA (空中ブランコ)   2021-08-09 00:17:00
推一個
作者: ZnOnZ (最亮的星)   2021-08-09 00:17:00
先推推再看
作者: tomap41017 (絕夢)   2021-08-09 00:21:00
作者: jaytt (悠悠)   2021-08-09 00:24:00
作者: azbx1271 (azbx1271)   2021-08-09 00:25:00
作者: Two4   2021-08-09 00:50:00
Reddit 有在討論蘋果這做法確實是掃瞄 iPhone 本機的圖片,這跟蘋果是不是真的「看過」是兩個問題。有看法認為今天你蘋果可以因為美國法案而監控使用者手機內的內容,那蘋果以往強調的 Privacy 將成為笑話。加上蘋果說會依不同國家的法律規定來調整做法,那在中國會發生什麼事情?
作者: zxc654033 (啦啦啦)   2021-08-09 01:02:00
專業推
作者: georgeyan2 (是慎平不是甚平)   2021-08-09 01:03:00
專業推,不過覺得兒童色情監管已經整個歪掉了本來是立意良善,現在是扣個帽子就直接吃光你人權
作者: ishuen (小小宇)   2021-08-09 01:28:00
跟台灣有關係嗎?也是覺得為了極少數犯罪者監控全使用者不妥
作者: Subscript9 (暱稱什麼的好難取)   2021-08-09 01:40:00
專業推,我覺得這個技術好神奇喔,經過後製的圖片Hash值還能跟原本的相同而且完全不經手AI,無法想像
作者: Lin725 (傘蜥)   2021-08-09 02:08:00
推 專業
作者: YanYain (炎魔幻武 燄)   2021-08-09 02:32:00
純噓蘋果自己號稱最保障客戶隱私卻自打臉
作者: yotama12005 (amigo128)   2021-08-09 02:41:00
專業推,不過變態犯罪根本不會因為有審查就能減少
作者: tinyrain ( )   2021-08-09 02:56:00
作者: gonna01 (Six)   2021-08-09 02:58:00
還在噓蘋果保護隱私的只能說偉哉
作者: YanYain (炎魔幻武 燄)   2021-08-09 03:26:00
樓上這麼不介意建議以後你家門都不要關,攘別人有事沒事都進去檢查不用搜索令
作者: LonyIce (小龍)   2021-08-09 04:45:00
我有疑問,你雖然說是用已知資料去做特徵值比對,但這樣已知資料裡面還不是一樣要有兒童色情圖片才行嗎?沒有一開始的兒童色情圖片,要怎麼繼續抓出後續的資料?結果不是跟原本一樣,只是換個說法。二來是,你說用特徵值比對,但google搜尋除非有一樣的圖片,基本上搜尋的圖片常常出入很大,而大家的照片又不可能一樣,你說這樣失誤率會很低,我抱持的疑問?同上,如果失誤的時候,一樣還不是要人工審核,這樣不就一樣侵犯了隱私?基本上,不管再怎樣強調沒有主動去瀏覽,但監控跟有能力去調閱,還是侵犯他人隱私啦。以Google那種失誤率來看這技術,我覺得應該沒有家長願意自己小孩的照片有可能被調閱吧?
作者: whatzup1124 (我是幹嘛)   2021-08-09 05:10:00
好奇討論一下,我有個想法是使用GAN來產生兒色圖的特徵值,然後再用此來跟客戶hash值進行比對,這樣有搞頭嗎?
作者: RaiGend0519 (Named RaiGend)   2021-08-09 05:14:00
意思是我要上傳iCloud還得消耗我機器的算力
作者: neomaster (Nelson)   2021-08-09 05:59:00
本機是指消費者的手機,而不是icloud?如果是,這合法?
作者: domlzchen (交大神之子)   2021-08-09 06:40:00
作者: yahappy4u (yo ya ha)   2021-08-09 07:21:00
推 防治兒童性侵害應該可以用其他方法,不需要這樣侵害隱私吧
作者: pm2001 (做個盾牌眼球兵吧)   2021-08-09 07:41:00
其實就只是特徵比對在使用者手機跟在遠端系統做的差別
作者: zxzx8059 (zxzx8059)   2021-08-09 07:54:00
特徵值來源ㄏㄏ
作者: xdccsid (XDCC)   2021-08-09 08:08:00
那假設我身為父親,有些場景需要拍幼年子女的脫衣照給醫師查看,這樣被蘋果看到到底?如果因此需要人工審核,拿我小孩裸照還不被看光,不知道是誰侵犯誰…
作者: IMISSA (空中ブランコ)   2021-08-09 08:13:00
一堆人的質疑原PO Q1~Q5不就回答了....
作者: LonyIce (小龍)   2021-08-09 08:17:00
好笑的點就是在Q2阿,只敢說理論上。但如果照原po說的跟以圖搜圖是類似原理,但以圖搜圖本身就錯誤百出,會不會誤判?準確度多高?Q5又表示被判定是非法圖片後,就可以人工審核立意是好的,但這不足以也不能當成侵犯隱私的理由。
作者: Two4   2021-08-09 08:27:00
我認真覺得自己手機內的東西不該被掃瞄審查,蘋果這樣做確實會影響以後我要不要繼續買蘋果產品的意願。等著看戲。
作者: berserkman (to be brave)   2021-08-09 08:56:00
所以蘋果會消耗手機電力進行照片分析運算,並且上傳iCloud,那如果照片只放在手機端不存iCloud, 是否就不會上傳(仍然會消耗手機運算能力及電力?)?
作者: pSeRiC ( )   2021-08-09 09:58:00
專業推
作者: nooin (在火星養企鵝的熊)   2021-08-09 10:32:00
人工審核需要法源依據,蘋果不是執法單位會有爭議..另外最大的問題卻是就是資料庫的內容誰決定..
作者: hTCone5566 (霸氣)   2021-08-09 11:10:00
問題應該是在於資料庫吧如果放了政府想找的其他資料蘋果不就成為幫忙政府監控的幫兇了?誰能確保資料庫內容的真的只有兒童色情?
作者: radiodept (大學是要讀幾年?真廢物)   2021-08-09 11:15:00
「閾值」O 「閥值」X
作者: BlueSat (BlueSat)   2021-08-09 11:32:00
我是不希望手機被這種事情額外消耗資源去比對
作者: baby0816 (min)   2021-08-09 11:57:00
專業分享給推
作者: l11k755013 (77777777777777777777777)   2021-08-09 12:07:00
google做=》廣告公司收集資料,沒有隱私。apple做喔=》利益良善保護未成年,沒有隱私侵害問題。我覺得這個雙標很可以喔,對了。我不是針對這篇,這篇說明的很詳細,是篇好文。只是同樣的文套google身上,嘛也就那樣。
作者: homelife (SKY)   2021-08-09 12:49:00
那些照片蘋果能解密都是蘋果自己說的,這就是問題用什麼演算法加密並不是重點另外目前的資料是說如果有照片被認定Matched並且被傳回蘋果,使用者並不會知道。這絕對跟強調隱私的廣告反著走最理想的加密方式一直都是"只有我自己有鑰匙"Apple過去幾年強打隱私、避免其他公司獲取使用者資料,但是自己的服務就是不實作端對端加密,蘋果自己一直都在持有使用者資料,只是話講得比較好聽而已。現在開始終於有動作了,如果沒經過你同意直接就開始了審查你照片的動作,那未來這能推展到什麼程度?FB for iOS連我在哪都不知道了,現在你大蘋果直接看我照片,也不問我是否同意,以後是否要審查我訊息?
作者: yantingtw (彥)   2021-08-09 13:21:00
推資訊
作者: InInDer4Ni (泥硬硬DER)   2021-08-09 13:29:00
講這麼多就是侵犯隱私來掃你的照片 誰知道哪天會不會偷用
作者: FirstClass (FirstClass)   2021-08-09 14:01:00
所以我實際自己去偷拍未成年少女上廁所的話,只要我不分享到網路上,也不會被偵測到了?
作者: Subscript9 (暱稱什麼的好難取)   2021-08-09 14:10:00
我說明一下,NCMEC那邊有一個資料庫,搜集了當前已知的非法照片,蘋果利用這個資料庫對每張照片生成HASH值,再去比對您手機裡面的照片,是否有HASH值符合的照片,換言之不在那個資料庫裡的照片,也就是您所述為了醫療所個人拍攝的照片,並不會被偵測到。
作者: Medic   2021-08-09 15:08:00
是不是說 即便沒有同步 也已經在本機檢查是否 match 而同步就直接上傳這份結果了?
作者: eon4 (崩星咆哮砲)   2021-08-09 15:34:00
今天掃描兒童色情 明天掃描你有沒有偷說黨的壞話
作者: Murasaki0110 (麥當勞歡樂送)   2021-08-09 15:44:00
只能掃DB裡的有什麼用? 抓散播的人而已
作者: andy5656 (andyandy)   2021-08-09 15:48:00
基本上也是AI影像辨識 現在訓練模型也都會用self-supervised 只是apple沒有把資料庫的data 拿來fine-tune而已
作者: LonyIce (小龍)   2021-08-09 16:01:00
S 大說的還是不足以解釋誤判的情況,只是重複敘述了一次內容而已。而且拿那個舉例也很怪,最生活化的應該是,我拍我家小孩沒穿衣服亂跑、洗澡的照片,跟資料庫裡罪犯拍別人小孩類似情境的照片,那些數值可以判定這些?更別說其他誤判成完全不相干東西的情況了,一直說數值會判定,避開誤判的情況有什麼用?更別談撇開這些,根本的隱私權問題,不管你有什麼理由,沒有人有理由被監控。
作者: wind50321   2021-08-09 16:06:00
監控全用戶就是已經預設 你有可能是犯罪者了吧
作者: lylu (理路)   2021-08-09 16:13:00
問題應該還是在要如何說服使用者誤判的情況 另外也很好奇這
作者: pooty (鄉民)   2021-08-09 17:29:00
反正蘋果會掃描你所有的相片,結案
作者: Two4   2021-08-09 17:46:00
蘋果負責一點就做個開關讓使用者自己決定願不願意接受偵測, 少打一次蘋果自己的臉。
作者: nimab (你媽比讚!)   2021-08-09 18:58:00
你的文很專業 但加密方式安不安全從來不是重點
作者: lavign (一懸命部隊)   2021-08-09 18:58:00
它還是讀取了原始圖片內容
作者: nimab (你媽比讚!)   2021-08-09 18:59:00
你能保證蘋果除了加密之外沒對你的資料做其他事嗎?蘋果從來不會公開他對使用者的資料做什麼 但其他在iOS上的公司卻都得公開透明 這才是最恐怖的其他公司有沒有侵犯用戶隱私蘋果說了算 但蘋果自己是裁判卻能審查用戶隱私資料 還不跟你說詳情
作者: Ivudaisuki (イヴ大好き)   2021-08-09 19:16:00
推好文但真的搞不懂為什麼蘋果要因為少數人侵犯所有人的隱私而且單純比對資料庫的圖片根本無法遏止偷拍未成年少女吧自己拍自己存 不散播就進不了資料庫 也就不會被抓這的搞不懂蘋果到底在幹嘛蘋果這個一搞 等於自己毀掉iCloud強調的安全跟隱私不僅讓人質疑開了這個先例是否會是潘朵拉的盒子況且根據目前大家的討論這個政策造成的質疑跟擔憂明顯超過正面效益一方面在發表會強調自己多重視隱私另一方面卻又幹著侵犯隱私的事坦白講這的蠻失望的(但我也譴責兒童色情)也會考慮要不要繼續使用iCloud備份照片了另外我之前有看到文章說只會適用在美國地區不知道是全球都適用還是只有美國?
作者: Two4   2021-08-09 19:23:00
目前這是因應美國法律才有這個計畫,僅適用於美國 iPhone使用者。但蘋果說會因應不同國家的規定來施行,所以大家可以想想碰到中國會發生什麼事。
作者: ho83leo (LWHo)   2021-08-09 19:31:00
推,合理。
作者: MonkeyCL (猴總召)   2021-08-09 20:01:00
謝謝蘋果幫我檢查照片
作者: hoos891405 (我也許把你忘記)   2021-08-09 21:33:00
iCloud 存照片本來就很爛了,現在更不想存了
作者: cities516 (安安路過)   2021-08-09 21:41:00
推整理 看來這系統對於偷拍犯還是沒屁用啊而且看起來很容易成為政府的審查工具沒錯
作者: jtrus0520 (颱風假放半天)   2021-08-09 21:52:00
媽媽拍自己兒子小時候露JJ看來也危險了
作者: sunsptt (我是一隻瑪瑙水母)   2021-08-09 21:56:00
你的意思是蘋果有一個塞滿兒童色情的資料庫可以拿來比對嗎
作者: hoos891405 (我也許把你忘記)   2021-08-09 22:44:00
你自己拍的照片沒在資料庫裡面不會有事但蘋果有個h圖資料庫這件事情還是很好笑蘋果這樣搞超級腦殘,而且很容易繞過..人家不要使用iCloud 或ios就好了,而且如果用mega分享照片,直接用app看你也不能怎麼樣。但蘋果這要搞就是賠掉商譽,搞不好這功能還會讓ios背景更噴電還不如學日本那樣強制拍照要有很大聲的快門音還比較實用一點點
作者: makairin (AAI)   2021-08-09 22:54:00
這個不是沒不沒事的問題,大部份都不是被法院認定的嫌疑犯,沒有理由把儲存在線上空間的資料給人看,誰決定資料庫特徵碼就不算隱私的一部份。這種搜索是有罪推論的,使用者必須開放自己空間的特徵碼證明自己「無罪」
作者: ryuter (旋光の輪舞)   2021-08-10 01:02:00
台灣應該馬上會跟進了.
作者: square4 (卡哇伊)   2021-08-10 10:15:00
作者: e04bank (上海生姦湯包)   2021-08-10 10:53:00
中國:Interesting
作者: Doard (是o)   2021-08-10 12:47:00
閾值啦 幹
作者: berserkman (to be brave)   2021-08-10 20:52:00
中國:樂觀其成,感謝蘋果
作者: sixf0ld (coldrain)   2021-08-10 21:26:00
美國政府使用兒童色情的名義擴權早已行之有年現在是比對已建檔的兒童色情影音但在技術跟程序上,有什麼能阻止/避免政府or蘋果拿其他任意項目的影音來做比對,以得知用戶有沒有持有任意圖片?eg:中國政府比對找出持有64坦克人照片的用戶先打預防針 我堅決反對兒童色情另外,github上已經有人實作了可以產生相同neural hash的方式 雖然不知道蘋果的實際implementation,但顯然誤判絕對是會發生補推補補
作者: fattit (法滴)   2021-08-10 22:20:00
這年頭你總是要把資料交給某家公司的 除非你什麼都自己架差別只在你交給誰了 google也對gmail, google pay的交易內容掃描阿 美其名都立意良善 真的要絕對隱私 請自己做手機
作者: hanhsiangmax (陪我去台東)   2021-08-11 00:33:00
推推~~~是既然唷~
作者: george12345 (陳)   2021-08-11 06:27:00
看起來不是拿圖片binary去hash 是經過一些簡單的NN得到feature去跟資料庫裡的比對,這些feature 對人來說就是一堆數字而已沒什麼意義,所以應該不能算看過,而當feature跟資料庫裡的非常相似時才會上傳照片得到原始圖檔 以上只是猜想
作者: makairin (AAI)   2021-08-12 17:08:00
能被拿來做比對就不能算無意義的數字,用戶空間內任何一段數據包含客戶刪除檔案的碎片都應屬於個人資產
作者: Waterpig (waterpig)   2021-08-12 18:13:00
不管你轉了幾層 你先假設所有使用者是罪犯 利用使用者本身的資源去做運算怎麼想都有問題 更別說會有誤判需要人工介入部分 憑什麼我沒犯法的照片因為你的誤判就給你看?
作者: lirpassmore (里爾-帕斯魔)   2021-08-12 20:28:00
蘋果就是假定所有人都有嫌疑才會去把照片跟資料庫掃描阿!這點就站不住腳了
作者: Ferscism (In The End)   2021-08-14 13:22:00
為了防止兒童色情一個公司可以看東西那政府為了維穩可不可以隨意搜索你家呢?
作者: davidyun ([ 慢! ])   2021-08-14 23:39:00
好文推!

Links booklink

Contact Us: admin [ a t ] ucptt.com