教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數據培訓:抽樣的必要性有哪些?

更新時間:2022年11月15日14時12分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

  抽樣工作到底是不是必需的呢?其實不是。一般我們在數據獲取量很少或者不容易處理海量數據的時候,抽樣工作就會經常派上用場,抽樣工作主要有以下幾個方面的背景來源。

  (1)數據計算資源不足,不抽樣往往不能計算海量數據。

  (2)數據采集限制。比方說,做社會調查必須采用抽樣方法,因為我們不能針對所有人群做調研分析。

  (3)時效性要求以極小的數據計算量來實現對整體數據的統(tǒng)計分析,在時效性方面大大增強。

  如果存在上述條件限制或有類似強制性要求,那么抽樣工作仍然必不可少。即使在數據計算資源充足、數據采集端可以采集更多的數據并且可以通過多種方式滿足時效性要求的前提下,抽樣工作在很多時候也是必要的。

  大數據分析師平時會接觸很多數據預處理工作,那么是不是每次做數據分析都要做一遍呢?答案當然不是,數據預處理是為后續(xù)的分析和建模服務的,如果后續(xù)的分析和建模不依賴于特定的數據問題,那么特定的預處理工作可以不做。例如:

  (1)CART(分類回歸樹)對異常值不敏感,因此無須處理異常值;

  (2)DBSCAN(基于密度的帶有噪聲的空間聚類)模型使用的是基于密度的方法而非距離相似度的方法,因此不需做數據的標準化和唯一化。

  因此,所有的預處理工作都基于用戶對整個數據工作流程的理解,尤其是理解模型、算法對于特定問題的依賴和受影響程度。

0 分享到:
和我們在線交談!