一、簡介
Python float NaN指的是“Not a Number”,即不是數(shù)字的浮點數(shù)值。通常出現(xiàn)在交叉驗證等機(jī)器學(xué)習(xí)應(yīng)用場景中。Python浮點數(shù)的NaN值是可以通過math.nan或float('nan')方法創(chuàng)建出來的。這個NaN值可以與其他數(shù)字進(jìn)行比較,但是卻不能和自身進(jìn)行比較。
讓我們來看一個例子:
import math
a = float('nan')
b = float('nan')
c = 1.0
print(a == b) # False
print(a == a) # False
print(math.isnan(a)) # True
print(c > a) # False
二、原理
Python 中的 NaN 與 IEEE 754 標(biāo)準(zhǔn)中的 NaN 實現(xiàn)基本相同。 IEEE 754 中只定義了雙精度(double precision)的 NaN,但使用時需注意單精度(float)的 NaN 實現(xiàn)也與雙精度相同,僅數(shù)字精度不同。
IEEE 754 中,NaN 有兩種類型:一種是 quiet NaN(QNaN);一種是 signaling NaN(SNaN)。
QNaN 表示的是未定義或不適用的操作產(chǎn)生的結(jié)果。它可以被改變?yōu)?SNaN。
SNaN 表示的是嘗試執(zhí)行結(jié)果未定義的操作時產(chǎn)生的 NaN,默認(rèn)情況下,Python 只會使用 quiet NaN。SNaN 只應(yīng)該在調(diào)試和特定應(yīng)用中使用。
有一些操作可以產(chǎn)生 NaN,包括:
除以 0 0 除以 0 無窮 / 無窮 無窮 - 無窮 負(fù)數(shù)的平方根三、應(yīng)用
NaN 在機(jī)器學(xué)習(xí)中可用于以下用途:
缺失值的填充,即將列中的缺失值替換為 NaN。 標(biāo)記異常值,如數(shù)據(jù)集中的遠(yuǎn)離均值的極端值可以被標(biāo)記為 NaN。 簡化數(shù)據(jù)處理,當(dāng)需要忽略一些數(shù)據(jù)點時,可將其替換為NaN,減少對其他數(shù)據(jù)的干擾。四、使用示例
1. 缺失值填充
在數(shù)據(jù)分析中,經(jīng)常會遇到一些缺失值需要填充。通過將缺失值替換為 NaN,在分析中可以方便地使用 df.isna() 或 df.isnull() 進(jìn)行識別。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, np.nan, 22],
'salary': [3000, 5000, np.nan, 8000]}
df = pd.DataFrame(data)
print(df)
df.fillna(value=np.nan, inplace=True)
print(df)
2. 標(biāo)記異常值
有些數(shù)據(jù)集中可能存在一些離群值,將其用 NaN 標(biāo)記,可以在分析中忽略這些數(shù)據(jù)點,并且不會對其他數(shù)據(jù)造成干擾。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
print(df)
3. 簡化數(shù)據(jù)處理
有些數(shù)據(jù)點會對分析造成干擾,這時可以將其替換為 NaN,這樣在分析時就不會考慮這些特殊情況,避免對其他數(shù)據(jù)產(chǎn)生影響。
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
'age': [28, 25, 500, 22],
'salary': [3000, 5000, 10000, 8000]}
df = pd.DataFrame(data)
print(df)
df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
df['salary'] = np.where(df['salary'] > 10000, np.nan, df['salary'])
print(df)