加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

Pandas常用技能概括

发布时间:2021-06-02 14:09:03 所属栏目:资源 来源:互联网
导读:副标题#e# 归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。 1.计算变量缺失率 df=pd.read_csv(titanic_train.csv) defmissing_cal(df): df:数据集 return:每个变量的缺失率 missing_series=df.isnull().sum()/df.shape[0] missin
副标题[/!--empirenews.page--]

归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。

1.计算变量缺失率

df=pd.read_csv('titanic_train.csv') 

def missing_cal(df): 

    """ 

    df :数据集 

     

    return:每个变量的缺失率 

    """ 

    missing_series = df.isnull().sum()/df.shape[0] 

    missing_df = pd.DataFrame(missing_series).reset_index() 

    missing_df = missing_df.rename(columns={'index':'col', 

                                            0:'missing_pct'}) 

    missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True) 

    return missing_df 

missing_cal(df) 

 

如果需要计算样本的缺失率分布,只要加上参数axis=1.

2.获取分组里最大值所在的行方法

分为分组中有重复值和无重复值两种。

无重复值的情况。

df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]}) 

df 

 

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())] 

 

先按Mt列进行分组,然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列,再用iloc位置索引将行取出。

有重复值的情况

df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64) 

df[df["rank"] == 1][["ID", "class"]] 

对ID进行分组之后再对分数应用rank函数,分数相同的情况会赋予相同的排名,然后取出排名为1的数据。

 

3.多列合并为一行

df = pd.DataFrame({'id_part':['a','b','c','d'], 'pred':[0.1,0.2,0.3,0.4], 'pred_class':['women','man','cat','dog'], 'v_id':['d1','d2','d3','d1']}) 

 

df.groupby(['v_id']).agg({'pred_class': [', '.join],'pred': lambda x: list(x), 

'id_part': 'first'}).reset_index() 

 

4.删除包含特定字符串所在的行

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读