[新聞] OpenAI發布可自創歌曲的機器學習框架

作者: KanzakiHAria (神崎・H・アリア)   2020-05-04 21:53:35
OpenAI發布可自創歌曲的機器學習框架Jukebox
https://www.ithome.com.tw/news/137371
文/李建興 | 2020-05-04發表
Jukebox學習自網路120萬首歌,能夠自創各種類型的歌曲以及歌詞,
但目前創作的成果主要仍為英文歌
非營利人工智慧研究組織OpenAI發布了最新的人工智慧應用Jukebox,
這是一個可以產生各種類型和風格歌曲的神經網路,OpenAI現在將模型權重和程式碼,
以及用於探索生成樣本的工具發布在GitHub上,供其他研究人員進一步深入研究。
在早前就有不少音樂自動生成的研究,最先出現的是音符產生器,
生成可以彈奏的樂譜,
但是這種方法雖然能夠安排音符出現的時機、音高、速度和演奏樂器,
製造出巴哈聖詠、 複音音樂等作品,但是其具有不少限制,無法捕捉人聲,
以及其他音樂細節, 像是音色、力度和表現性。 另一種音樂自動生成的方法,
則是直接以音訊層級生成音樂,但這種方法也不容易, 光以16位元44 kHz的CD音質
,產生典型4分鐘的歌曲, 就需要超過一千萬時步(Time Step),研究人員提到,
這是要在音訊層級產生音樂的一大挑戰,相比OpenAI Five在每場Dota遊戲中,
才花費數萬時步而言,千萬時步是一個很大的前進,因此要學習音樂的高階語義,
模型需要能夠處理極長的相依關係。 OpenAI提到,
他們之所以會開始進行人工智慧在音樂上的應用,
因為這是生成模型當前的界限,OpenAI之前的相關研究MuseNet,
探索了大量MIDI資料合成音樂的方法,而現在他們從原始音訊中,
讓模型解決高多樣性和超長結構的問題,且特別的是,
在原始音訊域無法容忍發生在短期、中長期和長期時序的錯誤。
OpenAI研究團隊使用自動編碼器解決這個問題,編碼器會移除無關的訊息位元,
將原始音訊壓縮成較低維的空間,而新模型會在壓縮空間中產生音訊,
然後將其採樣回原始音訊空間。 為了訓練這個模型,
OpenAI在網路上抓了120萬首歌組成新的資料集, 其中有60萬首是英文歌,
並配對LyricWiki的歌詞和元資料, 歌曲元資料包含藝術家、專輯類型和歌曲年份,
還有與每首歌曲相關聯的心情和播放列表關鍵字,以32位元44.1 kHz的原始音質,
並隨機降混(Downmix)左右聲道產生單聲音訊,達到資料增強的目的。
研究人員提到,雖然Jukebox無論是在音樂品質、連貫性、音訊樣本的長度,
以及對藝術家、類型和歌詞的適應能力都往前一大步,
但Jukebox所創建的音樂與人類的作品相比,仍是天壤之別。
雖然Jukebox產生的歌曲, 在局部具有連貫性,可產生遵循傳統的和弦模式,
甚至表現出深刻的獨奏, 但是卻不會有像是重複的副歌這類大型的音樂結構。
而且由於受Jukebox所使用的採樣技術影響,採樣的過程非常緩慢,
約要9個小時才能渲染出一分鐘的音訊,
所以現在的成果還不能放在互動式的應用程式中。
此外,Jukebox的訓練資料集,主要是西方音樂,歌詞的部分都是英文,
將來OpenAI希望可以將Jukebox擴展應用更多地區的歌曲。
除了研究成果之外,這項研究在推特上受到討論的另一個點,
在於版權問題, 因為Jukebox自動產生各種風格的歌曲,
這些歌曲可能包含知名歌手的聲音以及相似風格的旋律,因此OpenAI也被質疑,
在把這些歌曲作為訓練資料集之前,是否有取得適當的授權,但有人則認爲,
這可能要討論用來訓練人類跟訓練機器人原始資料的不同之處。
作者: michellehot (小廢物)   2020-05-04 22:00:00
歌唱型油土伯88
作者: TPDC (Anxuan)   2020-05-04 22:08:00
純真子訓練的怎麼樣了
作者: arrenwu (鍵盤的戰鬼)   2020-05-04 22:25:00
把歌曲作為訓練資料集是要她媽的什麼授權?
作者: guanting886 (Guanting)   2020-05-04 22:25:00
https://youtu.be/R7o_RmDCsMshttps://youtu.be/tuluFfic0cU如果一首歌是一個頂級的牛肉 那麼這個就是一個漢堡肉 你也不知道從哪裡來的 可能好吃 可能覺得像屎

Links booklink

Contact Us: admin [ a t ] ucptt.com