Re: 問個很白癡的問題

作者: yam276 ('_')   2025-03-25 13:12:20
※ 引述《cities516 (好忙好忙的緹寶)》之銘言:
: 我到現在其實還是不太懂transformer的原理
: 應該說
: 為什麼要分Q K V三個值來算
: Q dot K 還蠻好懂的 就自己的值跟整串sequence相乘嘛
: 然後為什麼要 * V
: 他數學上的意義在哪
: 總不會是 it just works 這麼簡單吧
: https://picx.zhimg.com/v2-b4673a40e55b90f5d0f192a789ae419d_r.jpg
: ==
來個更生活化的例子:假設你在一場齁豚聚會中,
想知道誰最近有在關注Miko的貼貼對象。過程是這樣的:
Q (Query):你的問題「誰跟Miko比較貼貼?」
K (Key):每個齁豚的回答,比如「PekoMiko最強」或「mC才是主流」
V (Value):每個朋友的發癲貼貼文
你會怎麼做呢?
1. 你問「誰跟Miko比較貼貼?」(Q)
2. 朋友們回答(K),有人說「PekoMiko」,有人說「miComet」
你會特別關注那些說「PekoMiko」的朋友,然後聽他們講PM聖誕夜的故事(V)
最後,你根據朋友的回答(K),挑出相關的故事(V),知道了PekoMiko的資訊
Transformer也是這樣運作的:
它自動算出哪些部分相關(Q dot K),然後提取那些部分的內容(乘以V)。

Links booklink

Contact Us: admin [ a t ] ucptt.com