原文链接:http://tecdat.cn/?p=9227
数据集:行为危险因素监视系统数据
摘要:该数据集是来自全美约40万份与健康相关主题的问卷调查。BRFSS始于1980年代,并已通过问卷调查在美国用于监测普遍的疾病。该研究是追溯性的,而不是设计性的实验,因此尽管可以推断出相关性,但不能因果关系。
数据集中的特征既是连续的又是分类的。
目标:探索性别,体重和年龄之间的相关性
第0部分:设置
第1部分:数据
导入和过滤数据以仅包括与糖尿病,性别,体重和年龄有关的重要特征。
糖尿病 | 重量 | 性别 | X_ageg5yr |
---|---|---|---|
没有 | 250 | 女 | 60至64岁 |
没有 | 127 | 女 | 50至54岁 |
没有 | 160 | 女 | 55至59岁 |
没有 | 128 | 女 | 60至64岁 |
没有 | 265 | 男 | 65至69岁 |
数据看起来很简单,仅包含该项目所需的功能。因为数据需要匿名,所以年龄范围是特定年龄的安全替代方案。年龄范围将用作此数据集的分类信息。
第2部分:研究问题
研究问题1:
性别,体重和年龄之间有相关性吗?(变量:性别,weight2,X_ageg5yr)
由于性别是生物识别技术中的关键变量,因此探讨性别是否可能与其他变量相关很重要。在这种情况下,我们正在研究性别是否与体重相关。
研究问题2:
性别或年龄与糖尿病相关吗?怎么样?(变量:性别,X_ageg5yr,weight2,diabete3)
该探索性项目的目标是检查体重/性别/年龄是否与糖尿病相关。了解任何相关性可能有助于根据患者的性别和体重告知患者患糖尿病的可能性。
研究问题3:
年龄,体重和糖尿病之间有关系吗?(变量:性别,X_ageg5yr,weight2,diabete3)
为了进一步探讨与糖尿病的可能相关性,我们还将研究四个变量之间的关系。
第3部分:探索性数据分析
研究问题1:
性别,体重和年龄之间有相关性吗?(变量:性别,weight2,X_ageg5yr)
首先检查数据的分布很重要。性别是二元分类的,因此我们将用条形图形象化它的分布。
研究问题2:
体重,年龄和/或性别与糖尿病相关吗?怎么样?(变量:性别,X_ageg5yr,weight2,diabete3)
研究问题3:
年龄,体重和糖尿病之间有关系吗?(变量:性别,X_ageg5yr,weight2,diabete3)
第4部分:结论
从数据的初步探索中可以明显看出,某些功能具有比其他功能更强的相关性。体重与性别有关。性别似乎与体重无关。但是,糖尿病似乎与年龄有关,而与体重密切相关。
如果您有任何疑问,请在下面发表评论。
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据爬虫采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询
欢迎选修我们的R语言数据分析挖掘必知必会课程!
来源:https://www.cnblogs.com/tecdat/p/11988845.html