[問題] 依序比對變數產生新資料 sinclairJ PTT批踢踢實業坊

[問題] 依序比對變數產生新資料

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:03:29

問題一
[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式，R 是我的第一次)
目前較懂得用packages做分析但對於資料預處理還是不太熟悉
[問題敘述]:
我要怎麼找出該欄的最小三個值所對應之"列樣本"
[程式範例]:
#資料產生
sample1=sample(1:3,100,replace=T)
sample2=sample(1:3,100,replace=T)
sample3=sample(1:3,100,replace=T)
sample4=sample(1:3,100,replace=T)
sample5=sample(1:3,100,replace=T)
data=as.data.frame(rbind(sample1,sample2,sample3,sample4,sample5))
#轉成類別型資料
for(i in 1:ncol(data)) data[,i]=as.factor(data[,i])
#計算樣本與樣本間相似程度,m表示距離矩陣,數值越小表示越相似
n=nrow(data)
m=matrix(nrow=n,ncol=n)
for(i in seq_len(n - 1))
for(j in seq(i, n))
m[j, i]=m[i, j]=sum(data[i,] != data[j,])
#m的輸出會長這樣,其中col1代表sample1,以此類推
col1 col2 col3 col4 col5
1 0 25 65 56 24
2 58 0 45 23 84
3 65 73 0 77 36
4 21 53 43 0 71
5 25 36 68 74 NA
問題：我要找col1中最小的兩個值之樣本，也就是4和5，有什麼語法可供參考嗎?
因為如果用which.min(data[,1])的話，只會得到4
問題二
[問題類型]:
*[1;30;40m
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
*[m
[軟體熟悉度]:
*[1;30;40m請把以下不需要的部份刪除
新手(沒寫過程式，R 是我的第一次)*[m
[問題敘述]:
*[1;30;40m請簡略描述你所要做的事情，或是這個程式的目的*[m
現有三個樣本，每個樣本有100個變數，所以維度是3*100
我想依序比對這三個樣本之變數來產生第四個樣本(圖示a)
在產生的過程中該變數以多數決的方式產生第四個樣本之變數(圖示b)
若遇到無法以多數決的方式產生之情況(圖示c)
就截至比對目前結果為止，找出三個樣本哪個與第四個樣本最接近
並根據此樣本的值去產生該變數(說明d)
a.
V1 V2 V3 V4 V5 V6 V7 ... ... V100
sample1 1 3 2 3 1 3 2 ... ... 1
sample2 3 2 1 3 2 1 3 ... ... 1
sample3 1 3 2 3 1 3 1 ... ... 2
sample4 1 3 2 3 1 3 2 ... ... 1
b.(以V1為例)
V1 V2 V3 V4 V5 V6 V7 ... ... V100
sample1 "1" 3 2 3 1 3 2 ... ... 1
sample2 3 2 1 3 2 1 3 ... ... 1
sample3 "1" 3 2 3 1 3 1 ... ... 2
sample4 1 3 2 3 1 3 2 ... ... 1
c.(以V7為例)
V1 V2 V3 V4 V5 V6 V7 ... ... V100
sample1 1 3 2 3 1 3 "2" ... ... 1
sample2 3 2 1 3 2 1 "3" ... ... 1
sample3 1 3 2 3 1 3 "1" ... ... 2
sample4 1 3 2 3 1 3 2 ... ... 1
d.
因為到V7卡住，所以先對Sample1到Sample4(V1~V6)算一次相似程度
計算的方式與問題一相同，所以比對程序截至到V6，此時的距離矩陣為
col1 col2 col3 col4
1 0 5 0 0
2 5 0 5 5
3 0 5 0 0
4 0 5 0 NA
(情況1)從結果可知第四個樣本(col4)與第一與第三個樣本較相似
此時可根據第一與第三個樣本的V7，第四個樣本的V7可任意填入2或1
(情況2)
col1 col2 col3 col4
1 0 5 0 0
2 5 0 5 5
3 0 5 0 "1"
4 0 5 0 NA
如果今天算出來的距離矩陣是這樣就可以很確定第四個樣本的V7要填入2
[程式範例]:
sample1=sample(1:3,100,replace=T)
sample2=sample(1:3,100,replace=T)
sample3=sample(1:3,100,replace=T)
data=as.data.frame(rbind(sample1,sample2,sample3))
接下來就請各位前輩多多提點一下了~感謝幫忙

作者: andrew43 (討厭有好心推文後刪文者) 2015-08-02 23:23:00

1. order(m$col1)2. 有點複雜。沒有例外大概從眾數下手。因為眾數不一定唯一或存在，所以看你眾數的例外處理如何才能再繼續寫下去。可以從table(foo)來檢查foo的頻率，這大概是第一步。

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:30:00

因為只會用三個樣本去生成一個樣本所以我目前想到的處理方式就是情況1與情況2 嗚嗚

作者: andrew43 (討厭有好心推文後刪文者) 2015-08-02 23:31:00

另外我覺得先不要看多個變數。一次解一個變數，再套用。

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:36:00

哦~從變數的角度下去看就是了謝謝a大建議我在想想~

作者: celestialgod (å¤©) 2015-08-02 23:41:00

1. 建議你的m 對角線都變更成NA不然你的order取下去可能有問題

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:53:00

目前想到用recode 但會把將非對角線的0也取代

作者: celestialgod (å¤©) 2015-08-02 23:53:00

http://pastebin.com/qYYgXYAflibrary(Matrix)沒用到

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:54:00

library(car);recode(m,"0=NA")

作者: celestialgod (å¤©) 2015-08-02 23:55:00

你如果遇到有0個相等怎麼辦？

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-02 23:59:00

沒有一定要找一模一樣的就找距離最小的所以如果第四個樣本所對應第一,二及三的距離為 11,20,5(舉例)那就以第三個樣本為基準去填補第四個樣本之該變數

作者: celestialgod (å¤©) 2015-08-03 00:06:00

我的意思是你用recode會有問題如果你要用那個距離矩陣算order的話第二個問題只要算一行的相似矩陣，不建議算整個矩陣

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-03 00:15:00

哦了解了謝C大提醒

作者: celestialgod (å¤©) 2015-08-03 00:19:00

還有一件事，你生成的資料，每一行的levels是不同，計算相等會有問題...

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-03 00:20:00

如果轉成as.character會能解決嗎?

當然我連結的生成方式也是有問題可以解決建議不要factor了，直接用character或是int做

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-03 00:23:00

OK~謝C大提醒

直接在>1那裏改就好建議這樣做 http://pastebin.com/fLwhB3Ca我不知道你距離相等怎麼做，我直接幫你設定隨機抽最後再去改算不出mode的部分，會比較有效率why colwise 請看#1LeXNCKV (R_Language)

作者: sinclairJ (KEEP MOVING FORWARD) 2015-08-04 01:32:00

有try了一下目前尚未遇到問題謝謝C大幫忙會問題在推文詢問你了~感謝!

繼續閱讀

[討論] 關於shiny的書ardodo [問題] fread iconvpsinqoo Re: [分享] 在Ubuntu上架設能顯示中文的shiny-serverpsinqoo [問題] 輸出的 PS 圖檔會裁切到邊緣Neisseria Re: [問題] 比對刪除欄位與逐步計算cellcelestialgod [問題] 比對刪除欄位與逐步計算cellsinclairJ [問題] sendmailR/mailR on shiny server當掉cywhale [問題] 同條折線圖上的點，不同顏色sinclairJ Re: [問題] 資料整理celestialgod [問題] 資料整理Udyr