Python近幾年十分流行,不少小伙伴都來學(xué)習(xí)Python了,都知道Python有幾大方向,如爬蟲、Python開發(fā)工程師、數(shù)據(jù)分析、人工智能等,本篇針對(duì)數(shù)據(jù)分析學(xué)科,給大家講解Numpy和Pandas函數(shù),使用高效函數(shù)會(huì)使數(shù)據(jù)分析更為容易、簡(jiǎn)單,請(qǐng)看下文:
Numpy的高效函數(shù)
1、argpartition():借助它,Numpy可以找出N個(gè)最大數(shù)值的索引,也會(huì)將找到的索引進(jìn)行輸出,進(jìn)而根據(jù)需要對(duì)數(shù)值進(jìn)行排序。
2、allclose():適用于匹配兩個(gè)數(shù)組,進(jìn)而得到布爾值表示的輸出。如果在一個(gè)范圍內(nèi)(withinatolerance)兩個(gè)數(shù)組不等同,則會(huì)返回False。該函數(shù)對(duì)于檢查兩個(gè)數(shù)組是否相似非常有用。
3、clip():使一個(gè)數(shù)組中的數(shù)值保持在區(qū)間內(nèi)。在需要保證數(shù)值在上下限范圍的情況下,可以借助clip()函數(shù)實(shí)現(xiàn)該目的。
4、extract():它是在特定條件下從一個(gè)數(shù)組中提取特定元素,還可以使用and和or等條件。
5、where():用于從一個(gè)數(shù)組中返回滿足條件的數(shù)據(jù)。比如,它會(huì)返回滿足條件的數(shù)據(jù)的索引位置。
6、percentile():用于計(jì)算特定軸方向上數(shù)組元素的第n個(gè)百分位數(shù)。
Pandas的高效函數(shù)
1、read_csv:大多數(shù)新手都會(huì)犯的一個(gè)錯(cuò)誤是,在不需要.csv文件的情況下仍會(huì)完整地讀取它。如果一個(gè)未知的.csv文件有10GB,那么讀取整個(gè).csv文件將會(huì)非常不明智,不僅要占用大量?jī)?nèi)存,還會(huì)花很多時(shí)間。我們需要做的只是從.csv文件中導(dǎo)入幾行,之后根據(jù)需要繼續(xù)導(dǎo)入。
2、map():根據(jù)輸入來映射Series的值。用于將一個(gè)Series中的每個(gè)值替換為另一個(gè)值。
3、apply():允許用戶傳遞函數(shù),并將其應(yīng)用于Pandas序列中的每個(gè)值。
4、isin():用于過濾數(shù)據(jù)幀。Isin()有助于選擇特定列中具有特定(或多個(gè))值的行。
5、copy():用于復(fù)制Pandas對(duì)象。當(dāng)一個(gè)數(shù)據(jù)分配給另一個(gè)數(shù)據(jù)時(shí),如果其中一個(gè)數(shù)據(jù)進(jìn)行了修改,另一個(gè)數(shù)據(jù)的值也會(huì)發(fā)生改變。這種時(shí)候就可以使用copy()函數(shù)。
6、select_dtypes():這個(gè)函數(shù)的參數(shù)可設(shè)置為包含所擁有特定數(shù)據(jù)類型的列,也可以設(shè)置為排除具有特定數(shù)據(jù)類型的列。