为此为例子
一.反复数据处理方法
1.drop_duplicates
主要参数名 | 接受 | 实际意义 | 默认设置 |
---|---|---|---|
subset | String / sequence | 去重复的编码序列 | None(全部列) |
keep | String | 反复时保存第几个数据信息 first :保存第一个 last :保存最后一个 false :不保存 |
first(保存第一个) |
inplace | Boolean | 是不是在原表上实际操作 | False |
DataFrame.drop_duplicates()
示例
二.缺失值解决
1.dropna删掉法(降低样版)
主要参数名 | 接受 | 实际意义 | 默认设置 |
---|---|---|---|
axis | 0/1 | 0为删除历史记录特点为行 1为删除历史记录特点为列 |
0 |
how | String | any要是存有缺失就删掉 all所有缺失才删掉 |
any |
subest | array | 开展去重复的行/列 | None |
inplace | Boolean | 是不是在原表上实际操作 | Flash |
DataFrame.dropna()
示例
2.fillna替换法(危害标准偏差)
主要参数名 | 接受 | 实际意义 | 默认设置 |
---|---|---|---|
value | Scalar dict series Dataframe |
表明用以更换的值 | 无 |
method | Stirng | Backfill/bfill 应用下一个缺失值来弥补 Pad/ffil应用上一个缺失值弥补 |
None |
axis | 0/1 | 轴径 | 1 |
inplace | Boolean | 是不是原表实际操作 | False |
limit | Int | 弥补缺失值的数量限制 | None |
DataFrame.fillna()
示例
3.interpolater()插值法
主要参数method挑选加上 | 主要参数 |
---|---|
默认设置 | 'Linear' |
数据信息增长速率变的越来越快 | 'quadratic' |
数据展现出总计遍布 | 'pchip' |
光滑制图为总体目标 | 'akima' |
DataFrame.interpolater()
示例
三.出现异常值解决
1.散点图查询出现异常值
得知出现异常为1
示例
2.箱线图查询出现异常值
得知出现异常为1
示例
3.解决方式效仿缺失值解决
四.规范化
1.离差规范化
将数据信息投射到[0.1]的区段,解决线性变换数据信息
公式计算 :
\[x=(x-min)/(max-min)
\]
def lcbzh(DataFrame): DataFrame=(DataFrame-DataFrame.max())/(DataFrame.max()-DataFrame.min()) return DataFrame
示例
2.标准偏差规范
解决数据信息平均值为0 ,标准偏差为1的数据信息
公式计算:
\[x=(x-x.mean())/x.std()
\]
3.小数指定规范化数据信息
用以挪动小数位的部位至[-1,1]
公式计算:
\[x=x/10^{np.ceil ( np.log10( x.abs().max() ) )}
\]