Re: [SQL ] 滾動計算並回傳

作者: Wengboyu ( )   2020-10-13 11:23:12
※ 引述《Wengboyu ( )》之銘言:
: 資料庫名稱:SAS SQL
: 資料庫版本:9.4
: 內容/問題描述:
: 我有table a和b
: table a
: date SID doctor
: 2019/1/1 a jack
: 2019/1/2 a jack
: 2019/1/3 a jack
: 2019/2/1 b ben
: 2019/2/2 b ben
: 2019/2/3 b ben
: ...
: 2019/2/15 b mark
: 2019/2/16 b mark
: 2019/2/17 b mark
: table b
: date SID doctor
: 2018/1/1 a jack
: 2018/1/2 b jack
: 2018/1/3 c jack
: 2018/1/15 a jack
: 2018/1/31 a ben
: 2018/3/1 b ben
: 2018/3/1 c mark
: 2018/4/16 d mark
: 2018/4/21 c mark
: 我要得到下面的結果
: table c
: date SID doctor doctor_service_volume
: 2019/1/1 a jack 3
: 2019/1/2 a jack 3
: 2019/1/3 a jack 2
: 2019/2/1 b ben 1
: 2019/2/2 b ben 1
: 2019/2/3 b ben 1
: ...
: 2019/2/15 b mark 2
: 2019/2/16 b mark 2
: 2019/2/17 b mark 2
: 我要計算table a每一筆,a.doctor在a.date過去一年內收過多少病人(不重複)
: table b是處方簽資料
: 例如:
: first row in table a
: date SID doctor
: 2019/1/1 a jack
: 我就要從table b中去找docor jack在a.date和(a.date - 1 year)間
: 收了多少不重複的病人
: table b doctor jack 在2018/1/1 ~ 2019/1/1開過處方簽的病人
: date SID doctor
: 2018/1/1 a jack
: 2018/1/2 b jack
: 2018/1/3 c jack
: 2018/1/15 a jack (重複)
: 所以a.doctor_service_volume = 3
: 我自己寫的code如下
: Proc sql;
: create table want as select
: a.*, (select count(distinct b.SID)
: from
: dataset a, dataset b
: where
: a.DoctorID = b.DoctorID and a.DoctorID is not missing and
: b.prescriptiondate between a.prescriptionBeginDate and
: intnx('year', a.PrescriptionBeginDate, -1, 'same'))
: as service_volume
: from
: dataset a, dataset b;
: quit;
: 因為跑很久,我不太確定這樣寫是不是可以得到我要的結果..
: table a 有240萬筆,b有1600萬筆
: 如果大家要測試自己code寫得對不對,會怎麼弄?
→ MOONY135: 這種的就不太會一次撈完 可能就atable的一筆開始撈這樣10/05 15:29
推 chippclass: https://i.imgur.com/TU3UBRi.png 我選擇這樣做10/06 00:12
→ Wengboyu: 感謝,讓我試試看結果如何10/06 13:34
SAS sql的code還是有些不同,我做了一些改寫碰到了一些小問題
###
Proc sql;
create table want as
select *, count(*) as doctor_service_volume from
(select distinct a.*, b.SID from a left join b
on a.DoctorID = b.DoctorID &&
a.date >= b.date &&
b.date >= intnx('year', a.date, -1, 'same')
)
group by
date, SID, DoctorID;
quit;
###
會得到下面的結果
table c
date SID doctor doctor_service_volume
2019/1/1 a jack 3
2019/1/1 a jack 3
2019/1/1 a jack 3
2019/1/2 a jack 3
2019/1/2 a jack 3
2019/1/2 a jack 3
2019/1/3 a jack 2
2019/1/3 a jack 2
2019/2/1 b ben 1
2019/2/2 b ben 1
2019/2/3 b ben 1
...
2019/2/15 b mark 2
2019/2/15 b mark 2
2019/2/16 b mark 2
2019/2/16 b mark 2
2019/2/17 b mark 2
2019/2/17 b mark 2
也就是他算到多少次doctor_service_volume,就會重複多少次
doctor_service_volume是算對了,但資料變超級大
就算在選取時,再加上distinct也是一樣的結果
###
Proc sql;
create table want as
select distinct *, count(*) as doctor_service_volume from
(select distinct a.*, b.SID from a left join b
on a.DoctorID = b.DoctorID &&
a.date >= b.date &&
b.date >= intnx('year', a.date, -1, 'same')
)
group by
date, SID, DoctorID;
quit;
###
問題應該是在藍綠色那塊,它把所有符合條件的全部都輸出一次
而不是只有doctor_service_volumn
以上是測試的結果,有可能是我改寫的方式錯了
我目前還在想該怎麼處理
感謝chippclass幫忙
作者: MOONY135 (談無慾)   2019-10-05 15:29:00
這種的就不太會一次撈完 可能就atable的一筆開始撈這樣
作者: chippclass (善假狼賺錢中)   2019-10-06 00:12:00
作者: Wengboyu ( )   2019-10-06 13:34:00
感謝,讓我試試看結果如何

Links booklink

Contact Us: admin [ a t ] ucptt.com