[討論] 評價黃金標準：隨機對照試驗的歷史教我 tryit0902 PTT批踢踢實業坊

[討論] 評價黃金標準：隨機對照試驗的歷史教我

作者: tryit0902 (貓空都是貓) 2017-06-02 13:58:20

評價黃金標準：隨機對照試驗的歷史教我們的事
翻譯文章：
　　Bothwell, Laura E., Jeremy A. Greene, Scott H. Podolsky and David S.
Jones (2016). Assessing the Gold Standard — Lessons from the History of
RCTs. The New England Journal of Medicine374(22): 2175-2181.
譯者前言：
本文因應Laura E. Bothwell博士於中央研究院歷史語言研究所的專題演講〈The
History of Randmized Controlled Trails and the Political Battle for Reliable,
Ethical Health Research〉，故針對Bothwell博士發表於《新英格蘭醫學期刊》（New
England Journal of Medicine, NEJM）上的同一主題文章〈Assessing the Gold
Standard — Lessons from the History of RCTs〉進行翻譯，該文收錄於新英格蘭醫學
期刊2016年6月號〈改頭換面的臨床試驗〉（The Changing Face of Clinical Trials）
系列文章中。
本文第一作者Bothwell博士於2014年取得哥倫比亞大學梅爾曼公共衛生學院（Columbia
University Mailman School of Public Health）歷史與倫理研究中心（The Center
for the History and Ethics of Public Health）社會醫學科學博士學位（Ph.D.,
Sociomedical Sciences），畢業後擔任哈佛醫學院及布萊根婦女醫院藥物流行病學與藥
事經濟學教學研究部門研究員，並曾應邀在美國國立醫學圖書館（National Library of
Medicine）的非洲月活動進行關於種族與臨床試驗的歷史演講。本文的合作者還包括任教
於約翰‧霍普金斯大學醫學院（Johns Hopkins School of Medicine）醫學史研究所（
Department of The History of Medicine）的藥物史專家Jeremy A. Greene博士。他撰
寫與主編多本藥物史相關著作，並和研究醫學期刊背後幽靈寫作（ghost writing）現象
的科技與社會研究學者 Sergio Sismondo合編人文社會科學研究中關於藥物研究的讀本《
The Pharmaceutical Studies Reader》。此外還有甫出版《The Antibiotic Era》一書
的哈佛大學醫學院全球健康與社會醫學研究所教授兼哈佛大學Francis A. Countway醫學
圖書館主席Scott H. Podolsky，以及曾參與編輯《What’s the Use of Race: Modern
Governance and the Biology of Difference》一書的哈佛大學社會醫學科與科學史研究
所的合聘教授David S. Jones。
過去台灣醫界在相關期刊上雖偶有醫學史與醫學倫理的討論文章，近期也有群學出版社出
版的譯作《髒血：塔斯基吉梅毒試驗〉一書，但少有文史學者參與對話。如同這篇譯文裡
NEJM所示範的如何創造有趣的跨領域學術空間，願台灣醫界得以與醫學史、醫學人文、醫
學倫理、科技與社會研究有更密切的互動與對話。
正文：
過去70年來，隨機對照試驗（randomized, controlled trials, RCTs，又稱隨機控制試
驗、隨機分派臨床試驗）已重新形塑醫學知識與實作。由20世紀中葉臨床研究人員以及統
計學家所普及，隨機對照試驗旨在減少偏差並增進臨床試驗的準確性，並且通常做得不錯
。然而過去七十年來也見證了這新的「金科玉律（gold standard，譯註一）」的諸多限
制。關於醫學與疾病的複雜性以及形塑醫學知識生產與流通的經濟和政治影響力，隨機對
照試驗的科學史與政治史提供了經驗及教訓。
隨機對照試驗的興起
醫師和醫學研究人員數千年來已嘗試使用個案報告（case report）、病例報告（case
series）、公開演示（public demonstrations）、見證（testimonials）、臨床論理（
clinical reasoning）以及偶爾由臨床試驗來評估治療處置。隨著醫學的科學性在十九世
紀末期越發佔有重要地位，醫師接觸臨床研究的條件也越加嚴格。到了20世紀初，改革者
已然引進許多臨床試驗技法來消除偏差，包含盲法（blinding）、試驗組隨機分派（
alternate assignment to trial groups）以及統計分析（statistical analysis）。
1,2英國流行病學家Austin Bradford Hill在1940年代統整出所謂隨機對照試驗研究方法
，便是立基於這些早期的策略。Hill的成果也碰上二戰期間與戰後英國政府對合作研究的
投入。比方說，新擴充的英國醫學研究委員會（The Medical Research Council）即是支
持施行隨機對照試驗的架構。
隨機對照試驗最初受到的評價參差不齊。有的評論者擔心其不給予控制組有希望的新療法
是否有違倫理。試驗進行者則反駁道，隨機對照試驗得以確立新療法是否優於給予控制組
的標準照護。4其他人則認為亟需隨機對照試驗作為評估藥廠在1950年代對新興藥物的療
效宣稱，如抗生素、降血壓藥以及抗精神病藥物。5,6如同一名期刊編輯在1956年所告誡
的──「醫師們應特別當心在藥商的證據或其提供的認證基礎上採納新藥。他們應當要求
由公正第三方提供和解釋清楚、無偏差、具足夠人數對照且經充分研究後的證據」。7隨
機對照試驗的擁護者人數漸漸勝過詆毀者人數。很快地，美國國家衛生研究院（U.S.
National Institutes of Health）以及其他政府部門便加入英國資助隨機對照試驗的行
列（如圖一）。
然而在學術圈及政治圈之外，一開始並不支持隨機對照試驗。製藥商不願意投入資源和時
間到隨機對照試驗裡，因為他們可以依靠專家見證以及個案報告的方式擴大產品的療效宣
稱。3這種未受管控系統的不穩定性隨著1961年沙利竇邁（Thalidomide）導致的悲劇變得
顯而易見，當時上千名懷孕婦女使用該藥導致流行性的死胎及嬰兒海豹肢畸形。美國國會
於1962年對《美國聯邦食品、藥品和化妝品法案》提出《Kefauver─Harris修正案》作為
回應，規定新藥需在「充分和良好對照的研究中」證明有效。到了1970年，美國食品和藥
物管理局（the Food and Drug Administration, FDA）將這個修正案解釋為新藥上市所
需的試驗是隨機對照試驗。
這些規定伴隨戰後美國製藥業的成長，讓美國開始成為隨機對照試驗的首要製造者（圖二
）。3歐盟理事會（Council of the European Communities）、日本政府和許多國家監管
機構很快也實行類似的管制。久而久之，國家監管機構間開始合作建立臨床研究的國際標
準，進一步將隨機對照試驗系統化。10緊接著，為了在競爭激烈的市場中遵守管制並獲得
管制下新藥適應症的批准，製藥業成為隨機對照試驗的主要贊助者。到1990年代時，製藥
業已取代政府和醫學界，成為隨機對照試驗的主要製造者（圖一）。
同一時間，臨床流行病學者宣傳隨機對照試驗是讓醫學更理性的最佳手段。11,12在1980
年代前期學者們已經將隨機對照試驗當作醫學知識的黃金標準。13當實證醫學（
evidence-based medicine）在後續數十年間晉升為主流，方法學上證據強度金字塔概念
進而出現，其中金字塔底層是強度最弱的個案報告，金字塔頂層是強度最強的隨機對照試
驗。
不算金科玉律的黃金標準
然而隨機對照試驗並未獨霸醫學知識生產。快速瀏覽醫學文獻可發現過去的研究方法仍有
其價值，包含病例報告甚至是個案報告。14-16觀察性研究的新方法相繼出現，例如在日
常照護的情境下使用大型資料庫中病人各式治療的相對效率（efficiency）以生產比較研
究的效用（effectiveness）數據（譯註二）。17,18醫師除了經驗資料外，也仍舊仰賴生
理學原理。冠狀動脈血管成形術及血管支架置放術得以嶄露頭角並非因為成功的隨機對照
試驗，而是技術的直觀邏輯以及血管造影提供令人信服的影像證據。19
當隨機對照試驗已成為製藥研究的標準，臨床研究者仍努力將其適用於其他醫學領域。雖
然精神科醫師進行了許多心理治療的隨機對照試驗，但批評者認為以這種方式評估長期且
高度個人化的療法並不恰當，有時甚至不可能評估。20一些心理治療的大型試驗便因這類
的方法論考量而遭忽略。21,22此外，因為隨機對照試驗用在精神藥物比心理治療更可行
，因此精神藥物的治療證據相較於心理治療不成比例地更加穩固。雖說這個差異使得藥廠
受益，它也可能助長精神照護往藥物傾斜的不全面發展。3,23
外科手術的隨機對照試驗也面臨相似困境。外科醫師們於1950年代開始進行隨機對照試驗
，舉例來說，運用假手術控制組測試內胸動脈結紮對心絞痛治療的功效（efficacy）（譯
註二）。24然而當越來越多外科手術的隨機對照試驗出現在1960和1970年代，外科醫師們
卻越加認清試驗的限制：每個病人有著獨特的病理學表現，每個外科醫師有著相異的技能
，每場手術涉及關於麻醉、術前治療、手術方法、手術儀器、術後照護的無數選擇，這些
都與臨床試驗標準化的需求相違。25假手術不能用於重大手術中，這也限制了盲性試驗的
使用時機。
這些考量在冠狀動脈繞道手術的隨機對照試驗的爭論中爆發。當首次大型的冠狀動脈繞道
手術隨機對照試驗顯示大部分患有慢性穩定型心絞痛的病人接受冠狀動脈繞道手術並未帶
來顯著的存活效益（survival benefit）時，26,27批評者反擊說：試驗參與者太過健康
，外科醫師過於缺乏經驗，手術致死率太高，統計分析不可靠等。28,29著名的外科醫師
們認為隨機對照試驗不適合用於手術治療。30過去在發展冠狀動脈繞道手術佔有重要地位
的René Favaloro認為「隨機對照試驗發展至今達到如此高的科學地位及接受度，使其幾
乎如同宗教上的神聖化……如果過度仰賴於它可能帶來危險。」31
一個長久存在且可能難以解決的問題在於隨機對照試驗的時間因素考量和快步調的創新之
間存在的差異。1976年關於評估冠狀動脈繞道手術最佳方式的討論中，外科醫師抱怨說：
「當我們在充分的時間內累積足夠數據時，我們會發現手術技術已然有所改善或治療方針
改變，又或是兩者同時發生，而讓試驗結論不再適用。」32大型的隨機對照試驗常需要花
很多年招募病人、追蹤病人、並進行分析。在治療方針迅速演變的情況下，隨機對照試驗
的結果似乎在發表前便過時了。當COURAGE試驗（Clinical Outcomes Utilizing
Revascularization and Aggressive Drug Evaluation，使用血管重新灌流和積極藥物治
療的臨床結果評估）於2007年顯示冠狀動脈成形術的理想功效結果不如預期時，該治療的
擁護者認為是因為試驗中使用的傳統金屬支架已被塗藥血管支架取代而不再適切。34這種
假定任何創新都較為優越的邏輯，創造了一個類似演化生物學上「紅心皇后效應」的情境
（譯註三），其中試驗者得賣力跟上不斷出現的創新。35
即使是健全的隨機對照試驗有時也無法影響醫療實作。在1960年代末期，大學聯盟糖尿病
計畫（University Group Diabetes Program）精心設計的試驗顯示糖尿病用藥
Tolbutamide和心血管疾病死亡率的增加有關。然而在持續超過十年關於試驗進行和詮釋
的爭論後，Tolbutamide的處方不減反增。類似的情節也發生在2002年，當公開募資的
ALLHAT試驗（Antihypentensive and Lipid-Loweing Treatment to Prevent Heart
Attack Trial，抗高血壓和降血脂治療預防心肌梗塞試驗）顯示Thiazide類利尿劑學名藥
在治療高血壓的效果上與新上市且較昂貴的CCB類（calcium-channel blocker）和ACEI類
（angiotensin-converting-enzyme inhibitors）藥物相當時。由於這些發現受到藥廠及
醫師們質疑，新的抗高血壓藥物其銷售成長仍優於舊的學名藥。38另一個2002年的假手術
隨機對照試驗則挑戰了傳統認為關節鏡清創手術對慢性退化性關節炎有益的看法。39儘管
這個發現被重複證實，許多骨外科醫師仍不正視這些研究成果，繼續執行手術。40
另一方面，一些隨機對照試驗的結果原已視為真相被接受，但後來證實它們缺乏外部效度
（external validity）。從建立適當的納入條件，標準化介入治療，到決定最相關評估
結果，隨機對照試驗自有其挑戰。這些限制促使研究人員追求其他研究方法，雖說其他方
法也有其限制。
社會和道德上的考量也為一些隨機對照試驗的正當性帶來挑戰。1980年代後期愛滋危機使
得許多張力檯面化。病患感到沮喪的是隨機對照試驗會延遲反轉錄藥物的核准，需要在試
驗完成前找到獲得藥物的門路。41臨床工作者則在醫師和科學家的角色之間感到衝突。42
倡議者終獲臨床研究的支持，變通的方式包括替代終點（surrogate end points）的使用
（譯註四），美國食品和藥物管理局有條件的核准，以及雙軌制在試驗外提供藥物的管道
。不過，批評者憂心鬆弛的標準會減損科學的嚴謹性，並助長製藥業推動法規鬆綁的危險
提案。
在發展中國家所執行的愛滋病毒感染治療隨機對照試驗於1990年代爆發倫理爭議，特別是
這些國家固然照護水平不高，但是否就能將原本在歐美認為是不倫理的作法合理化，把它
們當作新藥的安慰劑對照組。NEJM期刊編輯Marcia Angell便譴責這些「盲從聽命者」（
slavish adherence），在這個作法會導致倫理原則的退守時還依然故我地操作隨機對照
試驗。
上述爭議引起社會科學家和政策學者的關注。正如社會學家Steven Epstein所言，隨機對
照試驗已變成「協商可信度、風險以及義務的重要場域」。當隨機對照試驗發生在醫學、
社會及政治脈絡中，「比起解決爭議，隨機對照試驗會反映並推動爭議自身」。46歷史學
家Harry Marks認為隨機對照試驗不應只被視為科學技術，而是社會事件──「即使最簡
單的隨機對照試驗也是社會秩序的協商下的產物（有些有爭議，有些則無），充斥著決定
以及未經檢驗的前提。」36雖然隨機對照試驗的發展是用來生產普遍的、普世的生物醫學
知識，但它們仍和在地的社會條件、經濟和政治深深地糾纏在一起。
知識生產的經濟學和地理學
隨機對照試驗也無意間限制了醫學知識的生產者。當個案報告構成治療功效的有效證據時
，單就一位醫師便得以用臨床經驗寫下可能改變臨床實作的文章。然而隨機對照試驗需要
具大力支持的合作研究。隨機對照試驗隨著時間已成為官僚化、公司化的大型企業，需要
所費不貲的架構進行研究設計、病人照護、紀錄保存、倫理審查以及統計分析。到了21世
紀，光是第三期臨床試驗一次就需要花3000萬美元甚至更多。47因此，即使試驗資助者時
常來自北美、西歐或東亞，但研究常在其他地方進行。隨之而來的是隨機對照試驗反映工
業化區域不成比例的研究興趣。隨機對照試驗的高成本還有其他意想不到的後果：在缺乏
價格管制的市場中它們正當化處方藥的高開發成本。49同時，最近政策制定者提出諸如21
世紀醫療法案（21st Century Cures Act）為管制法規帶來改變，這將以增加效率的名義
降低隨機對照試驗在藥物核准上的影響力。
此外，一方面因為試驗費用高，研究者及其資助者對做出陽性試驗結果有極大興趣。相當
多的證據顯示業界資助的試驗比公開募資的試驗更容易產生有利的結果。50而且到了1990
年代明顯傾向發表陽性結果而非陰性結果，從而有損於醫學知識。監管機構和期刊主編透
過要求披露資金利益衝突和註冊所有臨床試驗來回應這些問題，努力提高隨機對照試驗的
透明度，以便陰性結果的試驗不會單純消失。
隨著隨機對照試驗發展成為高成本、高獲利的營銷工具，臨床試驗產業跟著蓬勃發展。委
託研究機構（Contact Research Organization）在1970年代末期出現，如今已成為市值
250億美元的產業。54委託研究機構促成美國的試驗主持人從學術型教學醫院的醫師科學
家大體上轉變為在私人機構中工作，以接案為主的非學術型醫師。55委託研究機構也在有
利研究進行的中等收入國家尋找過去沒接受過治療的海外研究者。儘管試驗產品在試驗完
成後不一定能提供給當地民眾，各國現正爭相說服製藥業和委託研究機構說該國的管制、
臨床、公共衛生狀況等適合執行試驗。48但隨著研究場域多樣化，研究目標並未跟著多樣
化：大多數臨床研究仍集中在對公共衛生影響有限，但在高收入國家具有巨大市場潛力的
藥物。低收入地區的結核病、瘧疾和其他病害幾乎未受到重視。製藥業在全球知識生產越
發舉足輕重的角色，已然對現代隨機對照試驗該如何供公共衛生使用提出深刻的倫理和政
策問題。
隨機對照試驗的過去、現在與未來
到了21世紀之初，隨機對照試驗已達到治療證據黃金標準的地位，但它的限制也具有充分
證據。醫師們繼續追求其他比隨機對照試驗更快、更便宜或能處理隨機對照試驗無法解決
的問題的知識生產方式。然而在醫學場域外，隨機對照試驗逐漸被效仿，甚至被理想化。
衛生政策研究者找尋如同俄勒岡州醫療保險實驗（Oregon Medicaid experiment）般罕見
的實驗場域供隨機分配得以執行或不經意地達到隨機分配。56發展經濟學者將隨機對照試
驗視為主要的新實驗方法，宣稱該方法的潛力「得以在21世紀向社會政策掀起革命，如同
隨機分配試驗在20世紀對醫學掀起的革命般」。57隨機對照試驗延伸到其他領域時也受到
熟悉的批評。以經濟學者Angus Deaton為例，他認為隨機對照試驗「並不直接比其他證據
來的強，隨機對照試驗在證據強度上並不佔有特殊地位，也不會和其他方法在證據上有強
弱的區別」。
然而儘管隨機對照試驗有其限制，但它已對醫學研究掀起革命，並透過澄清無數處置的優
缺點來提高醫療保健的質量。受到政府資助和食品藥物管理局授權的臨床研究人員使用隨
機對照試驗來推進臨床研究的理論和實作。評論者越來越善於查出隨機對照試驗的缺陷，
使得試驗者在自身實驗設計時更加警惕。從歷史的角度來看，隨機對照試驗並非個別穩定
的技術，而是隨著醫師們不斷對臨床研究進行修訂而將研究完善的方法演進。
隨機對照試驗作為解決醫學爭議唯一權威仲裁方式的想法已讓位給更務實的做法。試驗者
繼續尋找新的知識生產方式，從統合分析（meta-analysis）到後設性的註冊對照研究（
controlled registry studies）都能輕易囊括大量的多元病人。觀察研究法被視為和隨
機對照試驗互補，而新的監測形式則可以將隨機對照試驗鑲入電子病歷的資料收集結構中
。雖說隨機對照試驗也許是最關鍵的部分，但現在也只是一堆用於評估功效以及管制治療
市場的研究工具的一部份而已。這樣的狀況可能會隨著近來個人化醫療或精準醫療的轉向
（回溯）繼續演變。由於醫學關注於個別患者獨特的病生理以及共有的病徵，隨機對照試
驗產生的普同數據的適用性將受到更詳細的查驗。
我們已來到隨機對照試驗歷史的關鍵轉折。原先設計來減少研究偏差的隨機對照試驗，如
今已成為利益互相衝突之場域，值得仔細研究。藥商和醫療器材商追求能向新群體推銷商
品的數據。在臨床現場實作的醫師希望能有可靠的數據證明那些治療對他們的病人最有利
。隨機對照試驗為上述這兩個目標服務，它也同時作為歷史存在反映科學、歷史和經濟發
展。了解其中錯縱複雜的歷史使我們得以更具批判力和有效地評估隨機照護試驗。鑒於隨
機對照試驗在越發不平等的全球衛生研究中所扮演的角色，我們如何展望未來的試驗可以
處理對醫學和全球衛生真正具有重大意義的問題？處理這些隨機對照試驗在歷史上的偶然
面向，將會是對提升醫學研究可信度和用途的學術研究者、產業研究者以及政府官員的一
場攸關其角色和義務的徹底檢驗。
http://stssonata.blogspot.tw/2017/05/blog-post_92.html

繼續閱讀

Re: [公告] 新增代理板主nknuukyo [情報] 中研院史語所專題演講tryit0902 [討論] 「拉圖，科學家與社會」研究工作坊筆記tryit0902 [情報] 經濟來自激情：拉圖／塔德社會學的經濟tryit0902 Re: [討論] 我思、我寫、我出版 (我出版)tryit0902 Re: [討論] 我思、我寫、我出版 (我寫)tryit0902 Re: [討論] 我思、我寫、我出版 (我思)tryit0902 [討論] 我思、我寫、我出版 (前言與背景)tryit0902 [閒聊] Latour演講影片tryit0902 [討論] 《我們從未現代過》的三個意義－雷祥麟序tryit0902