为此为例子

一.反复数据处理方法

1.drop_duplicates

主要参数名 接受 实际意义 默认设置
subset String / sequence 去重复的编码序列 None(全部列)
keep String 反复时保存第几个数据信息
first :保存第一个
last :保存最后一个
false :不保存
first(保存第一个)
inplace Boolean 是不是在原表上实际操作 False
DataFrame.drop_duplicates()

示例

二.缺失值解决

1.dropna删掉法(降低样版)

主要参数名 接受 实际意义 默认设置
axis 0/1 0为删除历史记录特点为行
1为删除历史记录特点为列
0
how String any要是存有缺失就删掉
all所有缺失才删掉
any
subest array 开展去重复的行/列 None
inplace Boolean 是不是在原表上实际操作 Flash
DataFrame.dropna()

示例

2.fillna替换法(危害标准偏差)

主要参数名 接受 实际意义 默认设置
value Scalar
dict
series
Dataframe
表明用以更换的值
method Stirng Backfill/bfill 应用下一个缺失值来弥补
Pad/ffil应用上一个缺失值弥补
None
axis 0/1 轴径 1
inplace Boolean 是不是原表实际操作 False
limit Int 弥补缺失值的数量限制 None
DataFrame.fillna()

示例

3.interpolater()插值法

主要参数method挑选加上 主要参数
默认设置 'Linear'
数据信息增长速率变的越来越快 'quadratic'
数据展现出总计遍布 'pchip'
光滑制图为总体目标 'akima'
DataFrame.interpolater()

示例

三.出现异常值解决

1.散点图查询出现异常值

得知出现异常为1
示例

2.箱线图查询出现异常值

得知出现异常为1
示例

3.解决方式效仿缺失值解决

四.规范化

1.离差规范化

将数据信息投射到[0.1]的区段,解决线性变换数据信息
公式计算 :

\[x=(x-min)/(max-min) \]

def lcbzh(DataFrame):
    DataFrame=(DataFrame-DataFrame.max())/(DataFrame.max()-DataFrame.min())
    return DataFrame

示例

2.标准偏差规范

解决数据信息平均值为0,标准偏差为1的数据信息
公式计算:

\[x=(x-x.mean())/x.std() \]

3.小数指定规范化数据信息

用以挪动小数位的部位至[-1,1]
公式计算:

\[x=x/10^{np.ceil ( np.log10( x.abs().max() ) )} \]

文章来源于网络 ,如有侵权请联系站长QQ61910465删除
本文版权归去快排wWw.seogUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系qq❉61910465