教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)培訓:填充缺失值的方法

更新時間:2022年08月12日11時59分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

  數(shù)據(jù)挖掘中面對的通常都是大型的數(shù)據(jù)庫,它的屬性有幾十個甚至幾百個,因為其中某個屬性值的缺失而放棄大量其他的屬性值,這種刪除是對信息的極大浪費,所以產(chǎn)生了插補缺失值的思想與方法。常用的填充缺失值方法具體如下。

  1.均值填充

  數(shù)據(jù)的屬性分為定矩型和非定矩型。如果缺失值是定矩型的,就以該屬性存在值的平均值插補缺失的值;如果缺失值是非定矩型的,就根據(jù)統(tǒng)計學中的眾數(shù)原理,用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)補齊缺失的值。

  2.熱卡填充

  對于一個包含缺失值的對象,熱卡填充方法會在完整數(shù)據(jù)集中找到一個與它最相似的對象的值進行填充。對于不同的問題,可能會選用不同的標準對相似對象進行判定,從概念上理解該方法很簡單,利用數(shù)據(jù)間的關(guān)系進行缺失值評估。熱卡填充后方法的缺點在于難以定義相似標準,人為主觀因素較多。

  3.回歸填充

  將缺失值變量(自身字段)作為因變量,相關(guān)變量(其他字段)作為自變量進行回歸擬合,用預測值作為填補值,需要注意的是自變量的數(shù)據(jù)盡量是完整的。

  與前述幾種插補方法比較,回歸填充方法的優(yōu)勢是可充分利用數(shù)據(jù)庫中的信息,弊端主要有兩點:第一,該方法是無偏估計,但容易忽視隨機誤差、低估標準差和其他未知性質(zhì)的測量值,而且這一問題會隨著缺失信息的增多變得更加嚴重;第二,研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系,大多數(shù)情況下這種關(guān)系是不存在的。

  4.多重填充

  多重填充是由Rubin等人于1987年建立起的一種數(shù)據(jù)擴充和統(tǒng)計分析方法,作為簡單估算的改進產(chǎn)物。首先,多重估算技術(shù)用一系列可能的值替換每個缺失值,以反映被替換的缺失數(shù)據(jù)的不確定性。然后,用標準的統(tǒng)計分析過程對多次替換后產(chǎn)生的若干個數(shù)據(jù)集進行分析。最后,把來自各個數(shù)據(jù)集的統(tǒng)計結(jié)果進行綜合,得到總體參數(shù)的估計值。

  由于多重估算技術(shù)并不是用單一的值替換缺失值,而是試圖產(chǎn)生缺失值的一個隨機樣本,這種方法可以反映出由于數(shù)據(jù)缺失而導致的不確定性,產(chǎn)生更加有效的統(tǒng)計推斷。

0 分享到:
和我們在線交談!