第2837号 2009年7月6日 論文解釈のピットフォール
【第4回】
RCTと観察研究――デザインの違いと意味するものの違い 2
植田真一郎(琉球大学大学院教授臨床薬理学)
(前回からつづく)
ランダム化臨床試験は,本来内的妥当性の高い結果を提供できるはずですが,実に多くのバイアスや交絡因子が適切に処理されていない,あるいは確信犯的に除 去されないままです。したがって解釈に際しては,“ 騙されないように” 読む必要があります。本連載では,治療介入に関する臨床研究の論文を「読み解き,使う」上での重要なポイントを解説します。
なぜRCTと観察研究の結果が異なるのか?
前回は観察研究の限界について述べました。例として挙げた閉経後女性のホルモン補充療法(Hormone Replacement Therapy:HRT)では,観察研究では心筋梗塞のリスクを下げるという結果が出たのに,ランダム化臨床試験(RCT)ではむしろリスクを増すという結果になっています。この違いはどこから生じたのでしょうか? 今回は,ランダム化されていないことの弱点から考えてみましょう。
まず考えつくのは社会的な背景の違いです。実際,コホート研究でHRTを受けていた女性は高卒以上の学歴を持つものが多い,白人が多い,既婚者が多いなどの報告があり,これらは健康に関する意識の違いなどで心筋梗塞リスクに影響する可能性がありますね。社会経済的な背景の補正を行うと,結果はよりRCTに近づくという報告もあります。
また,HRTを受けている女性はほかの薬剤に関してもその意味を理解し,きちんと服用する,すなわちアドヒアランス(以前はコンプライアンスといいました)が良い可能性があります。興味深いことに,これまでのいくつかの冠動脈疾患臨床試験では,プラセボ群でもアドヒアランスの良い患者さんの予後が良いことが報告されているのです。つまり,コホート研究でのHRT群は「アドヒアランス良好群」とも言えるわけですね。すなわち暴露因子HRTが心筋梗塞リスク減少の原因ではなく,交絡因子として「アドヒアランス良好」があり,こちらが結果に影響したのかもしれません。観察研究でこの点を克服するには,ある程度教育レベルの均一な集団を対象にするなどの方法があると思います。ただし看護師を対象に行われた研究(Nurses' Health Study)では,社会経済的背景の違い,アドヒアランスの違いは大きくなかった可能性はありますが,RCTとは異なる結果が出ています()。
次に「医師の裁量」はどうなるでしょうか。考えられるのは,より心血管リスクの低い女性に投与している可能性です。実際,HRTを受けている女性は受けていない女性と比較して血圧,血中インスリン値が低い,体重が少ない,身体活動性が高いなどとする報告もあります。これは先述した「健康への意識の違い」のほかに,経口避妊薬の血栓症,心筋梗塞リスク上昇の可能性から,医師がハイリスクの女性を避けた可能性もあるのではないでしょうか。このあたりの交絡因子の除去や選択バイアスの回避にはやはりランダム化割り付けが有効で,これまでに述べた因子は各群同等に分布することが予想されます。
次にアウトカムの評価から考えてみましょう。前述したNurses' Health Studyでは,2年ごとのアンケート調査や本人,家族からの報告などでイベントを評価しています。しかし,診療録へのアクセスは常に可能というわけではないでしょうし,死亡した場合も遺族を介してのイベント評価となるので,精度がRCTよりも劣ると考えられます。RCTではもちろん担当医から直接報告されますし,診療録の閲覧もより容易だと思います。
また,Nurses' Health Studyでは症状のない,あるいは症状が典型的ではない心筋梗塞は除外されています。つまり,このようなコホート研究における心筋梗塞,冠動脈疾患死の評価の難しさが結果に影響した可能性があると思います。欧米のRCTはそれが市販後であっても治験と同じ規則GCP(Good Clinical Practice)を遵守することが求められます。日本の厚労省省令GCPとは若干異なりますが,あの煩雑な治験と同じように患者を登録し,データを収集し,アウトカムを評価することを想像してみてください。アウトカムによってはコホート研究とは精度がまったく違うということになってしまいますね。 RCTの弱点とは?
At its best, a trial shows what can be accomplished with a medicine under careful observation and certain restricted conditions. The same results will not invariably or necessarily be observed when the medicine passes into general use
(Austin Bradford Hill, 1984)
これまで,RCTの強みについて述べてきました。それはランダム化であり,より厳密な評価であるわけですが,弱点ももちろんあります。例えば,そのような強みを持つが故に特殊な環境下で行われるいわば「実験」となり,結果を通常の診療で用いることが容易ではないということです。このパラグラフの冒頭のHill氏のことばがそれを端的に表しています。Hill氏は世界初のRCTであるストレプトマイシン研究をデザインした統計学者ですが,その限界もよく認識していました。
本来,臨床試験をデザインするときには,広く結果を適用できるようにすべきですが,多くの努力は結果の信頼性(内的妥当性)を高めるためと安全性を確保するために費やされます。これは,RCTが本来新薬の効能(efficacy)を安全にかつ厳密に評価する,という使命を負っているからにほかなりません。治験の研究計画書をみるとうんざりするくらい(うんざりしてはいけませんが)選択基準,除外基準が列記されていますね。そしてその治験をしようと思っても,結局受け持ち患者さんのうち登録できる人はごく少ないことに気付きます。そうすると,その治験(もちろん治験も臨床試験の一つであり,多くは二重盲検法を用いたRCTです)の結果が適用できる患者もごく少ない,ということになってしまいます。
しかし先述したように,安全性を確保しつつ効能を厳密に評価するためには仕方のないことでもあります。したがって,まったくの新薬ではなくても,長期的な予後を評価する臨床試験を行う場合,特に対象疾患がこれまでと異なる場合,同様なデザイン,すなわち厳しい患者選択除外基準,細部まで定められた治療プロトコル,二重盲検法などが用いられています。これらがRCTの強みであり,弱みにもなるのです。安全性に関して,そのようなRCTの結果が必ずしも現実には通用しないことがあります。 臨床試験では安全でも……