R语言多元Logistic逻辑回归应用实例

 更新时间:2021年5月6日 13:50  点击:1907

可以使用逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。

如何进行多元逻辑回归

可以使用阶梯函数通过逐步过程确定多元逻辑回归。此函数选择模型以最小化AIC。

通常建议不要盲目地遵循逐步程序,而是要使用拟合统计(AIC,AICc,BIC)比较模型,或者根据生物学或科学上合理的可用变量建立模型。

多元相关是研究潜在自变量之间关系的一种工具。例如,如果两个独立变量彼此相关,可能在最终模型中都不需要这两个变量,但可能有理由选择一个变量而不是另一个变量。

多元相关

创建数值变量的数据框

 
 
Data.num $ Status = as.numeric(Data.num $ Status)
 
Data.num $ Length = as.numeric(Data.num $ Length)
 
Data.num $ Migr = as.numeric(Data.num $ Migr)
 
Data.num $ Insect = as.numeric(Data.num $ Insect)
 
Data.num $ Diet = as.numeric(Data.num $ Diet)
 
Data.num $ Broods = as.numeric(Data.num $ Broods)
 
Data。 num $ Wood = as.numeric(Data.num $ Wood)
 
Data.num $ Upland = as.numeric(Data.num $ Upland)
 
Data.num $ Water = as.numeric(Data.num $ Water)
 
Data.num $ Release = as.numeric(Data.num $ Release)
 
Data.num $ Indiv = as.numeric(Data.num $ Indiv)
 
###检查新数据框
 
headtail(Data.num)
 
1 1 1520 9600.0 1.21 1 12 2 6.0 1 0 0 1 6 29
 
2 1 1250 5000.0 0.56 1 0 1 6.0 1 0 0 1 10 85
 
3 1 870 3360.0 0.07 1 0 1 4.0 1 0 0 1 3 8
 
77 0 170 31.0 0.55 3 12 2 4.0 NA 1 0 0 1 2
 
78 0 210 36.9 2.00 2 8 2 3.7 1 0 0 1 1 2
 
79 0 225 106.5 1.20 2 12 2 4.8 2 0 0 0 1 2
 
###检查变量之间的相关性
 
###这里使用了Spearman相关性

多元逻辑回归的例子

在此示例中,数据包含缺失值。在R中缺失值用NA表示。SAS通常会无缝地处理缺失值。虽然这使用户更容易,但可能无法确保用户了解这些缺失值的作用。在某些情况下,R要求用户明确如何处理缺失值。处理多元回归中的缺失值的一种方法是从数据集中删除具有任何缺失值的所有观察值。这是我们在逐步过程之前要做的事情,创建一个名为Data.omit的数据框。但是,当我们创建最终模型时,我们只想排除那些在最终模型中实际包含的变量中具有缺失值的观察。为了测试最终模型的整体p值,绘制最终模型,或使用glm.compare函数,我们将创建一个名为Data.final的数据框,只排除那些观察结果。

尽管二项式和poission系列中的模型应该没问题,但是对于使用某些glm拟合的步骤过程存在一些注意事项。

用逐步回归确定模型

最终模型

summary(model.final)
 
 
Coefficients:
 
       Estimate Std. Error z value Pr(>|z|)  
 
(Intercept) -3.5496482 2.0827400 -1.704 0.088322 . 
 
Upland   -4.5484289 2.0712502 -2.196 0.028093 * 
 
Migr    -1.8184049 0.8325702 -2.184 0.028956 * 
 
Mass     0.0019029 0.0007048  2.700 0.006940 **
 
Indiv    0.0137061 0.0038703  3.541 0.000398 ***
 
Insect    0.2394720 0.1373456  1.744 0.081234 . 
 
Wood     1.8134445 1.3105911  1.384 0.166455  

伪R方

$Pseudo.R.squared.for.model.vs.null
 
               Pseudo.R.squared
 
McFadden               0.700475
 
Cox and Snell (ML)          0.637732
 
Nagelkerke (Cragg and Uhler)     0.833284

模型总体p值

在最终模型中创建包含变量的数据框,并省略NA。

偏差表分析

Analysis of Deviance Table
 
 
 
Model 1: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
 
Model 2: Status ~ 1
 
 Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
 
1    63   30.392             
 
2    69   93.351 -6 -62.959 1.125e-11 ***

似然比检验

Likelihood ratio test
 
 
 
 #Df LogLik Df Chisq Pr(>Chisq)  
 
1  7 -15.196            
 
2  1 -46.675 -6 62.959 1.125e-11 ***

标准化残差图

简单的预测值图

在最终模型中创建包含变量的数据框,并在NA中省略

过度离散检验

过度离散是glm的deviance残差相对于自由度较大的情况。这些值显示在模型的摘要中。一个指导原则是,如果deviance残差与剩余自由度的比率超过1.5,则模型过度离散。过度离散表明模型不能很好地拟合数据:解释变量可能无法很好地描述因变量,或者可能无法为这些数据正确指定模型。如果存在过度离散,一种可能的解决方案是 在glm中使用quasibinomial family选项。

Null deviance: 93.351 on 69 degrees of freedom
 
Residual deviance: 30.392 on 63 degrees of freedom
 
deviance /  df.residual
 
 
 
[1] 0.482417

评估模型的替代方法

使用逐步程序的替代或补充是将模型与拟合统计进行比较。我的compare.glm 函数将为glm模型显示AIC,AICc,BIC和伪R平方。使用的模型应该都拟合相同的数据。也就是说,如果数据集中的不同变量包含缺失值,则应该谨慎使用。如果您对使用哪种拟合统计数据没有任何偏好,您希望在最终模型中使用较少的术语,我可能会推荐AICc或BIC。

一系列模型可以与标准的anova 功能进行比较。模型应嵌套在先前模型中或anova函数列表中的下一个模型中; 和模型应该拟合相同的数据。在比较多个回归模型时,通常放宽p值为0.10或0.15。

在以下示例中,使用通过逐步过程选择的模型。请注意,虽然模型9最小化了AIC和AICc,但模型8最小化了BIC。anova结果表明模型8不是对模型7的显着改进。这些结果支持选择模型7,8或9中的任何一个。  

compareGLM(model.1, model.2, model.3, model.4, model.5, model.6,
      model.7, model.8, model.9)
 
 
 
$Models
 
 Formula                         
 
1 "Status ~ 1"                       
 
2 "Status ~ Release"                    
 
3 "Status ~ Release + Upland"                
 
4 "Status ~ Release + Upland + Migr"            
 
5 "Status ~ Release + Upland + Migr + Mass"        
 
6 "Status ~ Release + Upland + Migr + Mass + Indiv"    
 
7 "Status ~ Release + Upland + Migr + Mass + Indiv + Insect"
 
8 "Status ~ Upland + Migr + Mass + Indiv + Insect"     
 
9 "Status ~ Upland + Migr + Mass + Indiv + Insect + Wood" 
 
 
 
$Fit.criteria
 
 Rank Df.res  AIC AICc  BIC McFadden Cox.and.Snell Nagelkerke  p.value
 
1  1   66 94.34 94.53 98.75  0.0000    0.0000   0.0000    Inf
 
2  2   65 62.13 62.51 68.74  0.3787    0.3999   0.5401 2.538e-09
 
3  3   64 56.02 56.67 64.84  0.4684    0.4683   0.6325 3.232e-10
 
4  4   63 51.63 52.61 62.65  0.5392    0.5167   0.6979 7.363e-11
 
5  5   62 50.64 52.04 63.87  0.5723    0.5377   0.7263 7.672e-11
 
6  6   61 49.07 50.97 64.50  0.6118    0.5618   0.7588 5.434e-11
 
7  7   60 46.42 48.90 64.05  0.6633    0.5912   0.7985 2.177e-11
 
8  6   61 44.71 46.61 60.14  0.6601    0.5894   0.7961 6.885e-12
 
9  7   60 44.03 46.51 61.67  0.6897    0.6055   0.8178 7.148e-12
 
 
Analysis of Deviance Table
 
 
 
Model 1: Status ~ 1
 
Model 2: Status ~ Release
 
Model 3: Status ~ Release + Upland
 
Model 4: Status ~ Release + Upland + Migr
 
Model 5: Status ~ Release + Upland + Migr + Mass
 
Model 6: Status ~ Release + Upland + Migr + Mass + Indiv
 
Model 7: Status ~ Release + Upland + Migr + Mass + Indiv + Insect
 
Model 8: Status ~ Upland + Migr + Mass + Indiv + Insect
 
Model 9: Status ~ Upland + Migr + Mass + Indiv + Insect + Wood
 
 
 
 Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
 
1    66   90.343            
 
2    65   56.130 1  34.213 4.94e-09 ***
 
3    64   48.024 1  8.106 0.004412 **
 
4    63   41.631 1  6.393 0.011458 * 
 
5    62   38.643 1  2.988 0.083872 . 
 
6    61   35.070 1  3.573 0.058721 . 
 
7    60   30.415 1  4.655 0.030970 * 
 
8    61   30.710 -1  -0.295 0.587066  
 
9    60   28.031 1  2.679 0.101686

总结

到此这篇关于R语言多元Logistic逻辑回归应用的文章就介绍到这了,更多相关R语言多元逻辑回归内容请搜索猪先飞以前的文章或继续浏览下面的相关文章希望大家以后多多支持猪先飞!

[!--infotagslink--]

相关文章

  • R语言作图:坐标轴的设置方式

    这篇文章主要介绍了R语言作图:坐标轴的设置方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言 如何删除指定变量或对象

    这篇文章主要介绍了R语言删除指定变量或对象的操作方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言基本画图函数与多图多线的用法

    这篇文章主要介绍了R语言基本画图函数与多图多线的用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言-如何将list转换为向量

    这篇文章主要介绍了R语言-将list转换为向量的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言-如何切换科学计数法和更换小数点位数

    这篇文章主要介绍了R语言-切换科学计数法和更换小数点位数的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言创建矩阵的实现方法

    这篇文章主要介绍了R语言创建矩阵的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06
  • R语言运算符知识点讲解

    在本篇文章里小编给大家分享了一篇关于R语言运算符知识点讲解内容,有兴趣的朋友们可以参考下。...2021-05-06
  • R语言中的因子类型详解

    这篇文章主要介绍了R语言中的因子类型详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言-使用快捷键快速注释的实现

    这篇文章主要介绍了R语言-使用快捷键快速注释的实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言中quantile()函数的用法说明

    这篇文章主要介绍了R语言中quantile()函数的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • 如何改变R语言默认存储包的路径

    这篇文章主要介绍了改变R语言默认存储包的路径操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言导入导出数据的几种方法汇总

    这篇文章主要给大家总结介绍了R语言导入导出数据的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06
  • R语言 install.packages 无法读取索引的解决方案

    这篇文章主要介绍了R语言 install.packages 无法读取索引的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言关于“包”的知识点总结

    在本篇文章里小编给大家分享的是一篇关于R语言“包”的知识点总结内容,有兴趣的朋友们可以学习下。...2021-05-06
  • R语言逻辑回归、ROC曲线与十折交叉验证详解

    这篇文章主要给大家介绍了关于R语言逻辑回归、ROC曲线与十折交叉验证的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06
  • R语言学习ggplot2绘制统计图形包全面详解

    这篇文章主要为大家详细介绍了R语言学习ggplot2绘制统计图形包的全面知识讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助...2021-11-06
  • R语言关于随机森林算法的知识点详解

    在本篇文章里小编给大家整理的是一篇关于R语言关于随机森林算法的知识点详解内容,有兴趣的朋友们可以跟着学习下。...2021-05-13
  • R语言-t分布正态分布分位数图的实例

    这篇文章主要介绍了R语言-t分布正态分布分位数图的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言-在一张图上显示多条线的实现

    这篇文章主要介绍了R语言-在一张图上显示多条线的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2021-05-06
  • R语言开发之CSV文件的读写操作实现

    这篇文章主要介绍了R语言开发之CSV文件的读写操作实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06