最近回去念書了,念的programme名字有AI,應該可以發個言ㄅ
新科技需要熱衷的族群做推廣,有推廣才有funding,我才有薪水qq
不過這些族群不一定對科技有正確的認識
這幾天看到一些不精確又容易誤導的解釋真的會中風
想說做點簡單的科普(科普很難我知道qq)
※ 引述《newwu (說不定我一生涓滴廢文)》之銘言:
: 見圖二
: 理解這個想法後
: 我們把圖像的高維空間畫成二維方便表示
: 以ACG圖為例
: 那被人類接受的ACG圖就是一個高維空間中的分佈
: 簡單理解就是一個範圍內的圖,會被視為可接受的ACG圖
: 在那個範圍外的空間包含相片 雜訊 古典藝術 支離破碎的圖
: 生成模型的目的,就是從範圍內的樣本(下圖紅點)建立一個模型
: 這個模型學習到這個範圍,而模型可以生成也只會生成在範圍內的點
: https://i.imgur.com/NfUyIAg.jpg
: 圖二
借用newwu的圖
目前大家在討論的AI,其實更精確地講,應該說是圖像的生成模型Generative Models(GM)
GM有很多種
舉凡VAE, Autoregressive Models, GAN, Normalizing Flow, Denoising Diffusion都是
而一個被科學家普遍採用的假設是
真實世界資料的複雜分布(圖二),都對應到一個潛在空間latent space
而這個空間通常較具有可讀性(interpretable),例如某個維度代表某種面向
另外方便起見,現實資料這個潛在空間的分布會是個很簡單可操作的分布
大部分論文都用常態分布Gaussian,但我相信也有人用binomial分布之類
為甚麼要這麼設計? 因為如果假設為真,可以幫助我們去分析與理解現實的資料
科學研究本來就是要幫助人類進步,怎麼會搶繪師的飯碗
而大部分模型在做的事,就是學這個兩個空間的對應關係
訓練方式也很簡單,最大化資料在這兩個空間的可能性(likelihood)
VAE的潛在分布在一個低維空間
GAN雖然理論基礎薄弱導致先天性缺陷一大堆,但也是在modeling低維的空間
Normalizing Flow和Diffusion比較特別,潛在空間的維度和原始資料一樣
Autoregressive Models直接模擬現實的分布,但不影響上述的假設
至於Diffusion Models的貢獻還有表現為甚麼這麼好,以至於瘋狂的流行起來
比之前的GAN熱潮有過而無不及,主要是因為訓練Diffusion Model和訓練VAE一樣
都是在最大化分佈的下限 maximium lower bound
然而卻沒有VAE的模糊問題,證明只要分佈設計的好
是可以同時保持VAE的好訓練特色和GAN一樣的高likelihood
也不是沒有缺點
如果把整個生成過程攤開來看,Diffusion model就是一個超~~極深的神經網路
比ResNet還深,導致生成非常耗時,加速生成過程也是一個熱門的研究方向
如果對diffusion models有興趣,想快速了解也不排斥讀論文
我推薦這篇近期的overview paper,對整個diffusion models的不同面向都有做講解
https://ar5iv.labs.arxiv.org/html/2208.11970
也可以看板上cybermeow的解說
另外這篇的結語也非常有趣
就是人在畫圖的時候,是否也是藉由不斷的去噪,提煉出一張圖的?
diffusion實際上真的模擬的人類的創作過程嗎? 值得玩味
最後回答幾個常見的QA
Q: AI畫圖都是從別人的圖找出來拼貼的。
A: 沒有這種事。
從以上以及前幾篇的講解,可以知道生成模型從頭到尾在做的
就只是機率統計而已。
給予離散的資料點,找出最能代表的連續函數,僅此而已。
因為有loss的關係,要生出完全一模一樣的圖幾乎不可能
(當然也有生出不完全相同,但人類感知上無法察覺不同的情況
Q: AI繪圖只能迎合大眾的喜好,無法有獨創性,提出新的概念。
A: 這是個無法說死的問題。
理想上,數個資料如有類似的屬性,不管是畫風、概念、構圖
在潛在空間應該會落在一個鄰近的區域(cluster)
如果我們有足夠的資料、足夠強的模型架構,能真的完全模擬現實資料的潛在分佈
那麼所謂的沒出現在訓練資料,具有獨特性的繪圖
也許只是某個能內差或外插出來的區域而已。
當然也有可能AI繪圖影響到人類繪圖的整體分佈,脫離原本的潛在空間。
Q: diffusion的訓練過程和GAN相比,會直接看到訓練過程所以較強(#1ZFbZ85b)
A: Nonsense.
diffusion強大的原因在前文已經解釋了。
GAN不可能沒用到原圖的資訊,你如果把discriminator和generator並在一起當作同一個
模型就知道了。
VAE的訓練也會直接看到原圖,效果卻一般。
Q: CNN的filter是找最常出現的pattern,所以有用到其他圖的資訊去拼貼!
A: Also nonsense。
如果今天CNN只有一層,那還有一點道理。
但一到兩層以上,這些Hidden feature所在的空間和原本資料所在的空間已經是不同的了
要說拿圖去拼貼非常牽強。
大概醬,有問題可以直接推文,還得寫今天跟老闆的會議紀錄QQ