发布时间:2023-02-22 17:30
任务1:报名比赛
train=pd.read_csv(r'D:\桌面\科大讯飞赛事\糖尿病遗传风险预测挑战赛公开数据\train.csv',encoding='gbk')
test=pd.read_csv(r'D:\桌面\科大讯飞赛事\糖尿病遗传风险预测挑战赛公开数据\test.csv',encoding='gbk')
train.head()
任务2:比赛数据分析
train.info()
test.info()
步骤2:分析字段的类型
‘编号’:一个标识个体身份的数字,没有实际意义。
‘性别’:1表示男性,0表示女性,共两类,为类别变量。
‘出生年份’:出生的年份,为类别变量。
‘体重指数’,:即BMI指数,为连续变量。
‘糖尿病家族史’:标识糖尿病的遗传特性,记录家族里面患有糖尿病的家属,分成三种标识,分别是父母有一方患有糖尿病、叔叔或者姑姑有一方患有糖尿病、无记录,共三类,为类别变量。
‘舒张压’:心脏舒张时,动脉血管弹性回缩时,产生的压力称为舒张压,单位mmHg,为连续变量。
‘口服耐糖量测试’:诊断糖尿病的一种实验室检查方法。比赛数据采用120分钟耐糖测试后的血糖值,单位mmol/L,为连续变量。
‘胰岛素释放实验’:空腹时定量口服葡萄糖刺激胰岛β细胞释放胰岛素。比赛数据采用服糖后120分钟的血浆胰岛素水平,单位pmol/L,为连续变量。
‘肱三头肌皮褶厚度’:在右上臂后面肩峰与鹰嘴连线的重点处,夹取与上肢长轴平行的皮褶,纵向测量,单位cm,为连续变量。
‘患有糖尿病标识’:数据标签,1表示患有糖尿病,0表示未患有糖尿病,共两类,为类别变量。
步骤3:计算字段相关性
#计算字段相关性
a = train.drop('编号',axis=1)
a.corr()
#绘制热力图进行可视化
plt.figure(figsize=(8, 6),dpi=200)
column = a.columns.tolist()
mcorr = a[column].corr(method="spearman")
mask = np.zeros_like(mcorr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
cmap = sns.diverging_palette(220, 10, as_cmap=True)
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')
plt.show()
#输出与标签列相关性绝对值大于0.1的特征
mcorr=mcorr.abs()
numerical_corr=mcorr[mcorr['患有糖尿病标识']>0.1]['患有糖尿病标识']
print(numerical_corr.sort_values(ascending=False))
官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目
6年测试工程师被整破防:6年经验只不过是一段经历,根本不值一提!
electron应用开发(electron-quick-start + vuecli + 生成PC客户端)完美无bug
pytorch中.numpy()、.item()、.cpu()、.detach()及.data的使用
【Node.js实战】一文带你开发博客项目之联调(导入HTML、Nginx反向代理、CORS解决跨域、与前端联调)
axios请求设置responseType为‘blob‘或‘arraybuffer‘下载时,正确处理返回值
对OpenHarmony中LiteOS的内核分析——超时原理和应用
手把手教你springboot整合bootstrap-table、pagehelper实现表格生成、页面美化、客户端和服务端分页