介紹
NumPy是Python數值計算最重要的基礎包,大多數提供科學計算的包都是用NumPy的數組作為構建基礎。NumPy本身并沒有提供多么高級的數據分析功能,理解NumPy數組以及面向數組的計算,將有助于你更加高效地使用諸如Pandas之類的工具。
雖然NumPy提供了通用的數值數據處理的計算基礎,但大多數讀者可能還是想將Pandas作為統計和分析工作的基礎,尤其是處理表格數據時。
NumPy的部分功能如下:
ndarray,一個具有矢量算術運算和復雜廣播能力的快速且節省空間的多維數組。
用于對整組數據進行快速運算的標準數學函數(無需編寫循環)。
用于讀寫磁盤數據的工具以及用于操作內存映射文件的工具。
線性代數、隨機數生成以及傅里葉變換功能。
用于集成由C、C++、Fortran等語言編寫的代碼的A C API。
NumPy之于數值計算特別重要是因為它可以高效處理大數組的數據。這是因為:
比起Python的內置序列,NumPy數組使用的內存更少。
NumPy可以在整個數組上執行復雜的計算,而不需要Python的for循環。
使用下面格式約定,引入NumPy包:
import numpy as np
NumPy的ndarray:N維數組對象
NumPy最重要的是其N維數組對象(即ndarray),其中的所有元素必須是相同類型的。該對象是一個快速而靈活的大數據集容器,可以利用這種數組對整塊數據執行數學運算,其語法跟標量元素之間的運算一樣。
創建ndarray
使用np.array(list/tuple, dtype=np.float32)函數,產生一個新的含有傳入數據的ndarray對象。
第一個參數為元組、列表(相同數據類型),第二個參數為ndarray數組中的數據類型。當第二個參數為空時,NumPy將根據數據情況指定一個類型。
返回值為[ ]形式,元素間由空格分割。
In [20]: arr1 = np.array([6, 7.5, 8, 0, 1]) #從列表創建
In [21]: pring(arr1)
Out[21]: [ 6. , 7.5, 8. , 0. , 1. ] #NumPy根據數據情況,指定了float類型
In [23]: arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8],(1.2 , 2.3)])
In [24]: pring(arr2)
Out[24]: [[1, 2, 3, 4] [5, 6, 7, 8] (1.2 , 2.3)]
使用NumPy中的內置函數
np.arange(begin,end,step,dtype=np.float32):begin為元素起始值(包含),end為元素結束值(不包含),step為步長(默認值為1),dtype為元素類型。如果只有一個參數n,則為從0到n-1;如有有兩個參數n和m,則為從n到m-1;
np.linspace(begin,end,number):創建包含number個元素的數組,并在指定的開始值(包含)和結束值(包含)之間平均間隔;
np.ones(shape):根據shape生成一個全1數組,shape是元組類型,比如(2,3);
np.zeros(shape):根據shape生成一個全0數組,shape是元組類型,比如(2,3,4);
np.full(shape,val):根據shape生成一個數組,每個元素值都是val;
np.eye(n):創建一個正方的n*n單位矩陣,對角線為1,其余為0;
np.ones_like(a):根據數組a的形狀生成一個全1數組;
np.zeros_like(a):根據數組a的形狀生成一個全0數組;
np.full_like(a,val):根據數組a的形狀生成一個每個元素值都是val的數組;
np.concatenate() 將兩個或多個數組合并成一個新的數組。
In [30]: arr3 = np.zeros((3, 6))
In [31]: print(arr3)
Out[30]: [[ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.]]
從磁盤讀取數據創建ndarray數組,將ndarray數組保存到磁盤(大部分情況會使用pandas或其它工具加載文本或表格數據)
np.load(fname)
• fname : 文件名,以.npy為擴展名,壓縮擴展名為.npz
np.save(fname, array) 或 np.savez(fname, array)
• fname : 文件名,以.npy為擴展名,壓縮擴展名為.npz
• array : 數組變量
ndarray數組對象的屬性
.ndim:秩,即軸的數量或維度的數量
.shape:ndarray對象的尺度,對于矩陣,n行m列
.size:ndarray對象元素的個數,相當于.shape中n*m的值
.dtype:ndarray對象的元素類型
.itemsize:ndarray對象中每個元素的大小,以字節為單位
ndarray數組對象的類型和維度變換
.astype(np.float64):將ndarray數組元素從一個類型轉換成另一個類型,返回一個新數組。如果將浮點數轉換成整數,則小數部分將會被截取刪除。(類型變換)
.reshape(shape):不改變原數組元素,返回一個新的shape維度的數組(維度變換)
.resize(shape):與.reshape()功能一致,但修改原數組(維度變換)
.swapaxes(ax1,ax2) 將數組n個維度中兩個維度進行調換(維度變換)
.flatten():對數組進行降維,返回折疊后的一維數組,原數組不變(維度變換)
.tolist():將N維數組轉換成列表(維度變換)
ndarray數組的索引和切片
具體使用參考
https://seancheney.gitbook.io/python-for-data-analysis-2nd/di-04-zhang-numpy-ji-chu-shu-zu-he-shi-liang-ji-suan#ji-ben-de-suo-yin-he-qie-pian
https://docs.scipy.org/doc/numpy/user/quickstart.html#indexing-slicing-and-iterating
https://blog.csdn.net/zheng_weibin/article/details/79358986
ndarray數組的運算
數組與標量之間的運算,都會作用于數組的每一個元素;
大小相同的數組之間的任何算術運算,都會將運算應用到元素級;
大小相同的數組之間的比較運算,都會將運算應用到元素級并生成布爾值數組;
np.abs(arr)\np.fabs(arr):計算數組arr各元素的絕對值
np.sqrt(arr):計算數組arr各元素的平方根
np.square(arr):計算數組arr各元素的平方
np.log(arr)\np.log10(arr)\np.log2(arr):計算數組arr各元素的自然對數、10底對數和2底對數
np.ceil(arr)\np.floor(arr):計算數組arr各元素的ceiling值 或 floor值
np.rint(arr) 計算數組arr各元素的四舍五入值
np.modf(arr) 將數組arr各元素的小數和整數部分以兩個獨立數組形式返回
np.cos(arr)\np.cosh(arr)\np.sin(arr)\np.sinh(arr)\np.tan(arr)\np.tanh(arr)計算數組arr各元素的普通型和雙曲型三角函數
np.exp(arr) 計算數組arr各元素的指數值
np.sign(arr) 計算數組arr各元素的符號值,1(+), 0, ‐1(‐)
利用ndarray進行數據處理
排序
ndarray數組通過.sort()函數排序,多維數組時傳入軸編號
NumPy的隨機數函數
np.random.rand(d0,d1,..,dn):根據d0‐dn創建隨機數數組,浮點數,[0,1),均勻分布
np.random.randn(d0,d1,..,dn):根據d0‐dn創建隨機數數組,標準正態分布
np.random.randint(low[,high,shape]):根據shape創建隨機整數或整數數組,范圍是[low, high)
np.random.seed(s):隨機數種子,s是給定的種
np.random.shuffle(a):根據數組a的第1軸進行隨排列,改變數組x
np.random.permutation(a):根據數組a的第1軸產生一個新的亂序數組,不改變數組x
np.random.choice(a[,size,replace,p]):從一維數組a中以概率p抽取元素,形成size形狀新數組 replace表示是否可以重用元素,默認為False
np.random.uniform(low,high,size):產生具有均勻分布的數組,low起始值,high結束值,size形狀
np.random.normal(loc,scale,size):產生具有正態分布的數組,loc均值,scale標準差,size形狀
np.random.poisson(lam,size):產生具有泊松分布的數組,lam隨機事件發生率,size形狀
NumPy的統計類函數
np.sum(a, axis=None):根據給定軸axis計算數組a相關元素之和,axis整數或元組
np.mean(a, axis=None):根據給定軸axis計算數組a相關元素的期望,axis整數或元組
np.average(a,axis=None,weights=None):根據給定軸axis計算數組a相關元素的加權平均值
np.std(a, axis=None):根據給定軸axis計算數組a相關元素的標準差
np.var(a, axis=None):根據給定軸axis計算數組a相關元素的方差
np.min(a)\max(a):計算數組a中元素的最小值、最大值
np.argmin(a)\argmax(a):計算數組a中元素最小值、最大值的降一維后下標
np.unravel_index(index, shape):根據shape將一維下標index轉換成多維下標
np.ptp(a):計算數組a中元素最大值與最小值的差
np.median(a):計算數組a中元素的中位數(中值)
NumPy的梯度函數
梯度:連續值之間的變化率,即斜率
XY坐標軸連續三個X坐標對應的Y軸值:a, b, c,其中,b的梯度是:(c‐a)/2
np.gradient(f):計算數組f中元素的梯度,當f為多維時,返回每個維度梯度