Python Float NaN

來源：千鋒教育

發(fā)布人：xqq

時間： 2023-11-24 21:03:21 1700831001

一、簡介

Python float NaN指的是“Not a Number”，即不是數(shù)字的浮點數(shù)值。通常出現(xiàn)在交叉驗證等機(jī)器學(xué)習(xí)應(yīng)用場景中。Python浮點數(shù)的NaN值是可以通過math.nan或float('nan')方法創(chuàng)建出來的。這個NaN值可以與其他數(shù)字進(jìn)行比較，但是卻不能和自身進(jìn)行比較。

讓我們來看一個例子：


import math
a = float('nan')
b = float('nan')
c = 1.0
print(a == b) # False
print(a == a) # False
print(math.isnan(a)) # True
print(c > a) # False

二、原理

Python 中的 NaN 與 IEEE 754 標(biāo)準(zhǔn)中的 NaN 實現(xiàn)基本相同。 IEEE 754 中只定義了雙精度（double precision）的 NaN，但使用時需注意單精度（float）的 NaN 實現(xiàn)也與雙精度相同，僅數(shù)字精度不同。

IEEE 754 中，NaN 有兩種類型：一種是 quiet NaN（QNaN）；一種是 signaling NaN（SNaN）。

QNaN 表示的是未定義或不適用的操作產(chǎn)生的結(jié)果。它可以被改變?yōu)?SNaN。

SNaN 表示的是嘗試執(zhí)行結(jié)果未定義的操作時產(chǎn)生的 NaN，默認(rèn)情況下，Python 只會使用 quiet NaN。SNaN 只應(yīng)該在調(diào)試和特定應(yīng)用中使用。

有一些操作可以產(chǎn)生 NaN，包括：

除以 0 0 除以 0 無窮 / 無窮無窮 - 無窮負(fù)數(shù)的平方根

三、應(yīng)用

NaN 在機(jī)器學(xué)習(xí)中可用于以下用途：

缺失值的填充，即將列中的缺失值替換為 NaN。標(biāo)記異常值，如數(shù)據(jù)集中的遠(yuǎn)離均值的極端值可以被標(biāo)記為 NaN。簡化數(shù)據(jù)處理，當(dāng)需要忽略一些數(shù)據(jù)點時，可將其替換為NaN，減少對其他數(shù)據(jù)的干擾。

四、使用示例

1. 缺失值填充

在數(shù)據(jù)分析中，經(jīng)常會遇到一些缺失值需要填充。通過將缺失值替換為 NaN，在分析中可以方便地使用 df.isna() 或 df.isnull() 進(jìn)行識別。


import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, np.nan, 22],
        'salary': [3000, 5000, np.nan, 8000]}

df = pd.DataFrame(data)
print(df)

df.fillna(value=np.nan, inplace=True)
print(df)

2. 標(biāo)記異常值

有些數(shù)據(jù)集中可能存在一些離群值，將其用 NaN 標(biāo)記，可以在分析中忽略這些數(shù)據(jù)點，并且不會對其他數(shù)據(jù)造成干擾。


import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, 500, 22],
        'salary': [3000, 5000, 10000, 8000]}

df = pd.DataFrame(data)
print(df)

df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
print(df)

3. 簡化數(shù)據(jù)處理

有些數(shù)據(jù)點會對分析造成干擾，這時可以將其替換為 NaN，這樣在分析時就不會考慮這些特殊情況，避免對其他數(shù)據(jù)產(chǎn)生影響。


import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Mickey', 'Donald'],
        'age': [28, 25, 500, 22],
        'salary': [3000, 5000, 10000, 8000]}

df = pd.DataFrame(data)
print(df)

df['age'] = np.where(df['age'] > 100, np.nan, df['age'])
df['salary'] = np.where(df['salary'] > 10000, np.nan, df['salary'])
print(df)

tags: pythonfloatnan