一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - 十個 Python 小技巧,覆蓋了90%的數據分析需求!

十個 Python 小技巧,覆蓋了90%的數據分析需求!

2022-03-08 22:54Python學習與數據挖掘喜歡就關注呀 Python

在本文中,我將分享10個 Python 操作,它們可覆蓋90%的數據分析問題。有所收獲點贊、收藏、關注。

數據分析師日常工作會涉及各種任務,比如數據預處理、數據分析、機器學習模型創建、模型部署。

在本文中,我將分享10個 Python 操作,它們可覆蓋90%的數據分析問題。有所收獲點贊、收藏、關注。

1、閱讀數據集

閱讀數據是數據分析的組成部分,了解如何從不同的文件格式讀取數據是數據分析師的第一步。下面是如何使用 pandas 讀取包含 Covid-19 數據的 csv 文件的示例。

import pandas as pd # reading the countries_data file along with the location within read_csv function. countries_df = pd.read_csv('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_data.csv') # showing the first 5 rows of the dataframe  countries_df.head()

以下是 countries_df.head() 的輸出,我們可以使用它查看數據框的前 5 行:

十個 Python 小技巧,覆蓋了90%的數據分析需求!

2、匯總統計

下一步就是通過查看數據匯總來了解數據,例如 NewConfirmed、TotalConfirmed 等數字列的計數、均值、標準偏差、分位數以及國家代碼等分類列的頻率、最高出現值

countries_df.describe()

使用 describe 函數,我們可以得到數據集連續變量的摘要,如下所示:

十個 Python 小技巧,覆蓋了90%的數據分析需求!

在 describe() 函數中,我們可以設置參數"include = 'all'"來獲取連續變量和分類變量的摘要

countries_df.describe(include = 'all')

十個 Python 小技巧,覆蓋了90%的數據分析需求!

3、數據選擇和過濾

分析其實不需要數據集的所有行和列,只需要選擇感興趣的列并根據問題過濾一些行。

例如,我們可以使用以下代碼選擇 Country 和 NewConfirmed 列:

countries_df[['Country','NewConfirmed']]

我們還可以將數據過濾Country,使用 loc,我們可以根據一些值過濾列,如下所示:

countries_df.loc[countries_df['Country'] == 'United States of America']

十個 Python 小技巧,覆蓋了90%的數據分析需求!

4、聚合

計數、總和、均值等數據聚合,是數據分析最常執行的任務之一。

我們可以使用聚合找到各國的 NewConfimed 病例總數。使用 groupby 和 agg 函數執行聚合。

countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})

5、Join

使用 Join 操作將 2 個數據集組合成一個數據集。

例如:一個數據集可能包含不同國家/地區的 Covid-19 病例數,另一個數據集可能包含不同國家/地區的緯度和經度信息。

現在我們需要結合這兩個信息,那么我們可以執行如下所示的連接操作

countries_lat_lon = pd.read_excel('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_lat_lon.xlsx') # joining the 2 dataframe : countries_df and countries_lat_lon # syntax : pd.merge(left_df, right_df, on = 'on_column', how = 'type_of_join') joined_df = pd.merge(countries_df, countries_lat_lon, on = 'CountryCode', how = 'inner') joined_df

6、內建函數

了解數學內建函數,如 min()、max()、mean()、sum() 等,對于執行不同的分析非常有幫助。

我們可以通過調用它們直接在數據幀上應用這些函數,這些函數可以在列上或在聚合函數中獨立使用,如下所示:

# finding sum of NewConfirmed cases of all the countries  countries_df['NewConfirmed'].sum() # Output : 6,631,899 # finding the sum of NewConfirmed cases across different countries  countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'}) # Output  #          NewConfirmed #Country  #Afghanistan    75 #Albania       168 #Algeria       247 #Andorra        0 #Angola        53

7、用戶自定義函數

我們自己編寫的函數是用戶自定義函數。我們可以在需要時通過調用該函數來執行這些函數中的代碼。例如,我們可以創建一個函數來添加 2 個數字,如下所示:

# User defined function is created using 'def' keyword, followed by function definition - 'addition()' # and 2 arguments num1 and num2 def addition(num1, num2): return num1+num2 # calling the function using function name and providing the arguments  print(addition(1,2)) #output : 3

8、Pivot

Pivot 是將一列行內的唯一值轉換為多個新列,這是很棒的數據處理技術。

在 Covid-19 數據集上使用 pivot_table() 函數,我們可以將國家名稱轉換為單獨的新列:

# using pivot_table to convert values within the Country column into individual columns and  # filling the values corresponding to these columns with numeric variable - NewConfimed  pivot_df = pd.pivot_table(countries_df, columns = 'Country', values = 'NewConfirmed') pivot_df

9、遍歷數據框

很多時候需要遍歷數據框的索引和行,我們可以使用 iterrows 函數遍歷數據框:

# iterating over the index and row of a dataframe using iterrows() function  for index, row in countries_df.iterrows(): print('Index is ' + str(index)) print('Country is '+ str(row['Country'])) # Output :  # Index is 0 # Country is Afghanistan # Index is 1 # Country is Albania # .......

10、字符串操作

很多時候我們處理數據集中的字符串列,在這種情況下,了解一些基本的字符串操作很重要。

例如如何將字符串轉換為大寫、小寫以及如何找到字符串的長度。

# country column to upper case countries_df['Country_upper'] = countries_df['Country'].str.upper() # country column to lower case countries_df['CountryCode_lower']=countries_df['CountryCode'].str.lower() # finding length of characters in the country column  countries_df['len'] = countries_df['Country'].str.len() countries_df.head()

原文地址:https://mp.weixin.qq.com/s?__biz=MzAxNTAwNjQzNw==&mid=2448615639&idx=2&sn=5ca6c37f1372d7bb3e1673bc1f74d045

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 久99久热只有精品国产99 | 免费一看一级欧美 | 果冻传媒九一制片厂网站 | 三级aa久久| 国内精品麻豆 | 拔插拔插8x8x海外华人免费视频 | 免费日本视频 | 99视频有精品视频免费观看 | 国产成人在线视频播放 | 五月婷婷在线免费观看 | 色姑娘色综合 | 九九精品成人免费国产片 | 成年人在线免费观看视频网站 | 亚洲福利天堂 | 欧美香蕉视频 | 日韩欧美视频二区 | 成人啪啪漫画羞羞漫画www网站 | 亚洲人成在线观看一区二区 | 日韩久久影院 | 免费看男女污污完整版 | 亚洲 欧美 偷自乱 图片 | 国产精品亚洲精品日韩已方 | 成人免费观看www视频 | 免费网站直接进入 | 欧美精品一区二区三区免费 | 亚洲第一页综合 | 波多野结衣不卡 | 91精品国产综合久 | 98成人 | 日本三级在丈面前被耍了 | 韩国日本香港毛片免费 | 9久re在线观看视频精品 | 欧美精品一区二区在线观看 | 亚洲 欧美 国产 日韩 字幕 | 日本久久啪啪婷婷激情五月 | 国内精品91东航翘臀女神在线 | 精品久久久久久久久免费影院 | 美女福利视频网站 | 四虎影视在线影院在线观看 | 99国产国人青青视频在线观看 | 娇妻在床上迎合男人 |