临床医学研究数据管理与统计分析ppt

这是一个关于临床医学研究数据管理与统计分析ppt,主要介绍了一、临床医学研究的数据管理。二、临床医学研究的统计分析。三、临床数据资料常见的统计分析方法应用问题等等内容。欢迎点击下载!

PPT预览

临床医学研究数据管理与统计分析ppt

PPT内容

讲座内容
一、临床医学研究的数据管理
二、临床医学研究的统计分析
三、临床数据资料常见的统计分析方法应用问题
一、临床医学研究的数据管理
临床数据管理计划
指定一有资格的数据管理员
CRF在数据管理前的检查
详细的编码表
方便记忆的变量名与文件名
按需产生的派生变量
录入数据的自动控制与逻辑检查
CRF中文字信息的处理
缺失数据的处理(主要疗效指标和安全性指标)
临床数据管理相关人员
课题负责人
研究者
监察员
数据管理员
合作研究组织
临床数据管理相关人员
课题负责人:数据质量的最终责任人。
明确研究方案
制定数据质量管理评价程序
制定数据质量管理计划与操作指南
设立稽查部门并进行定期系统性检查
组织培训
临床数据管理相关人员
研究者
确保CRF或其他记录的数据及时、完整与准确
确保CRF上的数据与病历的源数据一致,并必须对其中的任何不同给出解释
研究者可能犯的错误
违反研究方案,如错误的访视时间
源数据录入CRF时错误
实验室仪器人为测量误差
研究者造假
临床数据管理相关人员
监察员
应根据源文档核查CRF上的数据,一旦发现有错误或差异,应通知研究者,以确保所有数据的记录和报告正确和完整。
临床监查中常见问题
知情同意书缺失或签署存在问题
无原始病历或原始病历中无记录(缺失或不全)
CRF填写空缺、错误或不规范
不良事件的记录不完整
检验结果不能溯源(实验室数据、心电图、X光片等)
临床数据管理相关人员
数据管理员
参与设计CRF
建立和测试逻辑检验程序
对CRF作录入前的检查
对录入数据库进行逻辑检查数据的有效性、一致性、缺失和正常范围等
对发现的问题应及时清理(通过比对或向研究者发放数据质疑表(Query)而得到解决。)
参加临床研究者会议,为研究团队及时提出改善与提高数据质量的有效措施。
合同研究组织(Contract Research Organization,CRO)
国际临床试验数据管理首先要符合“人用药品注册技术要求国际协调会议-临床试验质量管理规范”(ICH-GCP, International Conference on Harmonization of Technical Requirements for Registration of Pharmaceuticals for Human Use-Good Clinical Practice)的原则性要求。
合同研究组织(CRO)
ICH-GCP指出课题可以将部分或全部数据管理委托给一个CRO,但是,申报者依然是数据质量和完整性的最终责任人。CRO应当实施质量保证和质量控制。
申报者与CRO需签订有效合同,在合同中需明确双方的责、权、利。申报者必要时应对CRO进行相关的培训,以保证其所提供的服务符合申报者质量标准要求。
申报者需与CRO进行即时有效的管理、沟通和核查,以确保其遵守共同商定的流程的要求。申报者的质量管理计划中必须包括CRO的质量管理信息,同时必须明确流程和期望结果。
数据的差异性检验
疑问表修改说明
1.疑问表是由XXXXX大学数据管理中心发出
2.疑问仅是数据管理人员对有关数据存有疑惑而发出的询问,希望研究者给予明确答复
3.数据修改必须以原始数据为依据,不能推论式回答
4.研究者如果认为数据无错误,在相应的方框内划"√",并签名确认
5.研究者如果认为数据确实有错误,在相应的方框内划"×",并注明错误形成原因,签名确认
6.疑问表中所列参考值范围如果不符,以化验单上注明的为准
7.如果定性指标在CRF上已编号,例如 1=正常 2=异常无临床意义 3=异常有临床意义 4=未查,回答时使用相应的编号
患者数据列表
中止试验患者
方案偏离
从疗效分析中剔除的患者
人口统计学数据
依从性和/或药物浓度数据(如果有)
个例疗效反应数据
不良事件列表(每名患者)
按患者列表的个例实验室检查值(管理当局要求时)
[ICH E3(临床试验报告的结构与内容): Sec.16.2]
患者表格
人口统计学数据的汇总图表
有效性数据的汇总图表
安全性数据的汇总图表
不良事件的描述
死亡、其它严重不良事件以及其它重要的不良事件清单
死亡、其它严重不良事件以及某些其它重要的不良事件叙述
实验室检查异常值清单(每名患者)
[ICH E3(临床试验报告的结构与内容): Sec.14.1-14.3]
   是指在完成数据核查、疑问解答结束,数据库关闭后直到揭盲前,对数据库数据再次进行的审核与评判。
   参加数据审核会议人员,一般由主要研究者、统计分析员、数据管理员、监查员和申报者组成。
数据管理员:准备一份数据管理报告。
    内容:包括数据管理的过程及一般情况介绍、病例入组及完成情况(含脱落病例清单)、判断统计分析人群所涉及的项目及需讨论并解决的问题(入选/排除标准检查、完整性检查、一致性检查、离群值检查、时间窗检查、合并用药检查、不良事件检查等)
        若采用盲法,需递交临床研究盲底。
(1)全体参会人员检查总盲底及应急信件,对盲态做出判断。
(2)数据管理员报告数据管理的一般情况及数据库中存在的需要讨论解决的条目。
(3)主要研究者、统计分析人员、数据管理员共同就数据管理员提交的问题进行讨论并做出处理决定。
(4)与会人员讨论并决定统计分析人群。
(5)统计分析计划的修正与定稿。
(6)决定是否锁定数据。
(7)当揭盲条件成立时,具体执行揭盲。              
       最后签署盲态审核决议,将锁定后的数据交统计分析人员进行统计分析。
数据盲态审核决议
关于数据库的报告
需提供如下信息:
关于数据库结构、域名的详细报告
实验室数据的参考值范围
用于建立、核查数据库的软件清单及简单说明
各阶段数据核查的错误率的详细报告
未解决的质疑数据清单
未在数据库更正的质疑数据或错误的说明
电子版本数据库的存放位置说明
二、临床医学研究的统计分析
医学数据的统计处理涉及到医学专业知识、统计专业知识、处理数据的经验和技巧等,是一门很高超的艺术。
基本要求:
完全、准确、有效地建立统计分析所要求的数据库。
由统计学专业人员与数据管理员负责
忠实于原始数据
恰当选用统计方法
熟练使用统计软件等
各阶段受试者流程。特别是报告随机分配到各组的人数、接受意向治疗(ITT)的人数、按方案完成治疗(PP)的人数以及对主要结局分析的人数。描述与计划的研究方案偏离的情况和理由。
临床试验有效性分析应包罗所有的随机化后的受试者,也即原计划好处理(治疗)的全部受试者都需进入分析,而不是根据实际上完成的受试者。按这种原则所作的分析是最好的分析,其结果是每一个随机分配到试验组或对照组的受试者都应该完整地随访,记录研究结果,而不管他们的依从性如何。
三类统计分析数据集及其关系
三类数据集即:
符合方案数据集(Per-Protocol Set):由完成且符合方案中各项规定的病例构成,简称PPS集        
全分析数据集(Full Analysis Set):由符合入组条件并至少做个一次疗效评价的病例构成,简称FAS集或全数据集              
安全性数据集(Safety Set):由使用过试验药物并至少做个一次随访且至少有部分安全性数据记录的病例构成,简称SS集
有效性分析
主要疗效指标(primary end points)
次要疗效指标(secondary end points)
同时对FAS数据集和PPS数据集作分析
两组疗效比较的类型
优效(Superiority):
     > 或 “试验组(E)优于对照组(C )”
等效(Equivalence):
     = 或 “试验组(E)与对照组(C )相当”
非劣效(Non-inferiority ):
      或 “试验组(E) 与对照组(C ) 差但不多”
差异性、等效性、非劣效性和优效性检验
误用:以显著性检验代替非劣效、等效和优效性检验
区别:
差异性检验是和0做比较,即两总体均数是否完全不等,而不管这种差别是否有专业意义;
等效性检验、非劣效性检验和优效性检验是和Δ做比较,即检验在一定允许范围内的是否相等或不等,不仅要检验差别是否存在,而且更关注这种差别是否具有专业意义。
差异性、等效性、非劣效性和优效性检验
在等效性检验、非劣效性检验和优效性检验中的Δ,即认为在一定范围内相等/等效的允许值,也叫等效临界值,一般认为应从专业角度反复论证并结合成本效益加以估计。
根据以往经验,较为公认的Δ值:
如血压可取为0.67kPa(5mmHg)
胆固醇可取为0.52mmol/L(20mg/dl)
白细胞可取为0.5×109/(500个/mm3)等
当Δ难以确定时,可酌取试验组均数的1/5~1/2个标准差,或对照组均数的1/10~1/5等,在生物利用度的等效性评价中,Δ一般取标准参照品均数的1/5,两组率的等效性检验取对照组样本的1/10 左右。
患者暴露于研究药物的时间
       研究时间(天)=(末次随访日期-初诊日期)+ 1
       治疗时间(天)= 按照患者实际用药天数计算
       患者用药依从性=〔(发药量-剩余量)/应服药数量〕×100%,
安全性评价指标
       生命体征(心率、收缩压、舒张压)、体重、
       实验室检查(心电图)
       不良事件
        ………
多因素方差分析(统计设计类型)
协方差分析(随机设计、区组设计)
多元线性回归分析(具体方法;α入;α出)
Logistic回归(具体方法;α入;α出)
生存分析
    1)寿命表法
    2)Kaplan-Meier法
    3)Log-rank检验
    4)Cox比例风险模型
判别分析(具体方法)
聚类分析(具体方法)
主成分分析与因子分析(旋转方法)
研究类型
研究对象来源、选择方法【标准:诊断标准(中医、西医)、入选标准、剔除标准,等】
基本原则:随机、对照、重复、盲法;(分组方法:完全随机、配对、配伍、分层随机分组等;非随机化分组。各组样本量应相等或相差不多)
样本含量估计:(参数、参考文献、计算公式、软件)
观察方法及评价标准:(随访:有无失访、失访比例及失访的详细阐述) 、有无“知情同意”)
均衡性检验:如年龄、性别、病情、病程等一般资料的具体分析结果。
实验、试验或调查资料的搜集过程等。
研究中统计分析结果的规范表达。
三、临床数据资料常见的统计分析方法应用问题
1. 误用t检验分析等级资料
文题:止痛如神汤保留灌肠治疗CNUP:双盲随机安慰剂对照试验
1.误用t检验分析等级资料
1. 误用t检验分析等级资料
辨析:
对于腹痛、腹泻、脓血便、下坠感、充血、水肿、粘膜糜烂、粘膜溃疡的单项评分组间比较,不宜用t检验。因为每项评分为1、2、3等不连续的赋值,数据资料不服从正态分布。应将数据整理成分组无序指标有序的等级资料,宜采用秩和检验。
分析“总评分”时,应对数据进行正态性和方差齐性检验后,决定选用t检验或秩和检验。
与西药组比较,P>0.05,组间差异无统计学意义,不必在备注中表示。
应写出确切的统计量和P值。
2.误用t检验处理重复测量的两因素试验设计
文题:益气活血法预防老年患者髋部术后下肢深静脉血栓形成
统计学处理:采用SPSS10.0统计软件,两组间计量资料比较用t检验。
3.多因素非平衡组合设计的统计错误
文题:开胃理脾口服液对脾虚小鼠肠功能的影响。
实验设计:70只小白鼠随机分为7组,每组10只,第1组为空白组,给等容生理盐水,其余各组用大黄水造成脾虚模型。
       停食24h后,第1、2组静脉注射含有10%炭末的冷开水,第3~5组给含10%炭末的不同剂量的开胃理脾口服液,第6组给含10%炭末的开胃理脾丸剂,第7组给含有10%炭末的儿康宁。给药30min后处死小鼠,测量并计算炭末在小肠内的推进百分率。具体剂量和推进率见下表。
4. 正确处理析因设计定量资料
文题:丹参对骨骼肌缺血再灌注损伤低氧诱导因子一lmRNA表达和血液流变学的影响
设计:研究者将66只SD大鼠随机抽取6只作为正常组,对照组(即模型组)和丹参组各30只,此两组造模后分别取l0、20、40、60、90 min 5个时点进行观测,每个时点上6只,处死后测量相应的指标,丹参对骨骼肌缺血再灌注损伤肌肉肿胀系数的影响见表8。
4.正确处理析因设计定量资料
辨析:
对照组和丹参组在每个时间点上分别处死6只大鼠,所以在5个时间点上测量的数据没有内在关联,此资料不是重复测量设计定量资料。
表8是两个试验因素(“是否用丹参”和“处死时间”)各水平的全面组合。
若无专业依据认为两个试验因素对观测指标“肌肉肿胀系数”的影响存在主次之分,则此资料应为两因素析因设计定量资料。在资料满足方差分析的条件时,可采用两因素析因设计的方差分析;当资料不满足方差分析时,可进行变量变换或采用秩和检验。
若有专业依据认为两个试验因素对观测指标“肌肉肿胀系数”的影响存在主次之分,则此资料应为两因素嵌套设计定量资料。在资料满足方差分析的条件时,可采用两因素嵌套设计的方差分析;当资料不满足方差分析时,可进行变量变换或采用秩和检验。
5. 误用χ2 检验分析结果变量为有序变量的资料
某医生用A、B两药治疗某病各240例,其疗效分为四个等级:痊愈、显效、好转、无效,见表4。经R×C表χ2检验,χ2=53.33 ,P <0.01 ,认为两组疗效之间的差异有统计学意义。
6.误用χ2检验回答相关性问题
上述资料用χ2检验得:χ2 =163.01,P<0.005,结论为:可认为冠状动脉硬化的程度与年龄有关,结合本资料可见冠状动脉硬化等级有随年龄增高而增加的趋势。
问:处理此资料所用的统计分析方法以及所得出的结论有何不妥之处?
辨析1:
本资料为“双向有序且属性不同的二维列联表资料”,处理这种资料有3个目的,因此,就对应着3套不同的统计分析方法。
分析不同年龄组患者冠状动脉硬化等级之间有无差别:看作单向有序资料,选用秩和检验。
分析年龄与冠脉硬化等级间有无相关关系:选用等级相关。
分析两者间是否存在线性变化趋势则应用线性趋势检验。
作者欲考察“两个有序变量之间是否呈相关关系”,而χ2检验结果是P<0.05,说明冠状动脉硬化患者在不同年龄组的人数分布是不同的。
事实上,若将表中任何两行的频数互换或将任何两列的频数互换,所得的χ2检验的统计量数值是不会变化的,说明χ2检验用于处理有序变量形成的二维列联表资料是不合适的。
辨析2:
欲考察“两个有序变量之间是否呈相关关系”,应选用分析定性资料的相关分析方法,如:Spearman秩相关分析,Kendall秩相关分析或典型相关分析。
本例采用Spearman秩相关分析,得:rs=0.53215,P<0.0001。
结论为:表中两个有序变量之间呈正相关关系,即随着年龄的增加冠状动脉硬化等级也逐渐增大,两者之间的相关关系具有统计学意义。
7. 多值有序变量的高维列联表资料
“创伤性上颈椎损伤早期漏诊原因分析”中对1994年至2003年治疗的58例上颈椎患者进行回顾性分析,男35例,女23例,接受手术治疗或非手术治疗,假设两治疗组患者在年龄、性别、损伤类型构成无统计学差异。治疗结果见表l1。
请问:能否以“损伤类型”为依据,将此资料切割成多个二维列联表,一一采用秩和检验进行分析?或者通过求和,将“损伤类型”这个变量合并掉,采用秩和检验进行分析?
7. 多值有序变量的高维列联表资料
该资料原因变量有两个,分别为“损伤类型”和“治疗方式”,均为名义变量,结果变量为“疗效”,因此该资料属于结果变量为多值有序变量的三维列联表资料。
以“损伤类型”为依据,人为地将此资料切割成多个二维列联表,一一采用秩和检验进行分析,这是用单因素分析法来处理同时受多个因素影响的定性资料,割裂了多因素之间的相互联系,易得出错误的结论。通过求和,将“损伤类型”这个变量合并掉,采用秩和检验进行分析,这是对高维列联表的“压缩”。但这种“压缩”不是总可套用的,仅当被合并掉的那个变量与保留下来的变量之间都是相互独立的关系时,才不会得出错误的结论。
正确做法:本资料应采用CMH校正的秩和检验,此法通过加权的方法消除掉一个原因变量,着重研究另一个原因变量取不同水平条件下有序结果之间的差别是否具有统计学意义;若希望将两个原因变量对有序结果变量的影响都明确地显示出来,建议选用有序变量的多重logistic回归分析。
11种形式的列联表