临床预测模型一般就是通过各种回归分析方法建模,而回归分析的统计学本质就是发现“量化的因果关系”。简单讲,回归分析是一种X多大程度上影响Y的量化刻画。常用方法包括线性回归模型、Logistic回归模型、Cox回归模型等。其中预测模型效能评价与验证是统计分析、数据建模、课题设计的关键所在,也是数据分析技术含量最高的部分。
诊断模型关注的是基于研究对象的临床症状和特征,诊断当前患有某种疾病的概率,多见于横断面研究;
预后模型关注的是在当下的疾病状态下,未来某段时间内疾病复发、死亡,伤残以及出现并发症等结局的概率,多见于队列研究;
还有一类研究根据研究对象的一般特点预测未来是否会发生某种特定的疾病,也常见于队列研究。
诊断模型、预后模型与疾病发生模型有很多相似之处:他们的结局多为二分类资料;研究的效应指标均为结局出现的绝对风险,即发生的概率,而非相对危险度(relative risk,RR)、比值比(odds ratio,OR)或者风险比(hazard ratio,HR)等相对风险效应指标;在模型的技术层面,也都面临预测因子的选择、建模策略的制订、模型性能的评价与验证等环节。
(1)对预先确定需要考虑的预测因素,通过专家意见来选择变量
(2)采用基于统计准则的逐步法选择模型的最优变量
(3)正则化方法,如Lasso或ElasticNet (弹性网络),可用拟合模型来进行变量选择和控制过拟合。
最后一种方法已被证明优于逐步回归,但逐步法及其延伸的方法在实践中仍被频繁使用。无论选择何种方法,都必须详细地描述选择的过程。
参考资料:
[1] Ranstam J,Cook JA,Collins GS. Clinical prediction models[J]. Br J Surg,2016, 103(13):1886. [2] Collins GS,Reitsma JB,Altman DG,et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):the TRIPOD statement. The TRIPOD Group[J]. Circulation,2015,131(2):211-219.


