Re: [問題] 分群的問題

作者: kener1988 (豆仔)   2011-06-01 22:37:47
※ 引述《jizzer5566 (陳雅姿噗滋)》之銘言:
: 假設在一個二維的空間有許多點
: 每個點有三種屬性的其中一種 分別是A或B或C屬性
: 我想藉由點與點的距離來做分群
: 希望在同一群裡面都是相同屬性
: 假設我分10群 取10個中心點
: 某1中心點為B屬性
: 那該群內的每個點我都預測為B屬性
: 再以 猜對的點數/全部點數 算正確率
: 我想請問一下
: 如果將分群數提升為20群甚至30群後
: 正確率反而下降了 是合理的嗎
: 其原因可能有哪些?
分群的演算法看起來向k-means 所以我用k-means來分析
假設你資料在二維空間中 長這樣好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
當K越大時 每個cluster的半徑越小
因此 在屬性交集的地方 ex:如a和b交接處 與b和c交接處
原本k很小時 群的半徑大
即使有些離群值離群中心(上圖的A' B' C')很遠
還是可以正確的分群
但當K變大時 會發現 有些ABC(上圖的A* B* C*)離它們的中心點很遠
反而這些離群值彼此比較近 互相結合成cluster
正確性就下降了
以上是小弟的一點看法 如果有錯請各位多多包含
作者: jizzer5566 (陳雅姿噗滋)   2011-06-02 03:02:00
感謝你的講解
作者: dpi   2011-06-04 16:04:00
恩...有些outlier會組成一群導致準確率下降因此還需要動態的去決定分群的個數會比較準確~~

Links booklink

Contact Us: admin [ a t ] ucptt.com