top of page
​隨機森林的參數設定
SAS EM 里的隨機森林控件是HPDM欄的‘HP樹系’。在這個模型下,我們嘗試將‘樹的最大數目’調到10000,但是在SAS EM里不能成功。當‘樹的最大數目’大於2600的時候不能執行成功,所以‘樹的最大數目’設置為2600。
參考來源:《Variable selection using Random Forests》 Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot,2012

​Random Forest

      隨機森林演算法中的”隨機”一詞是指通過Bagging中的bootstrapping得到不同的資料,進而體現出來的隨機性,而得到這筆資料用來送進CART演算法訓練得到一棵樹,最後將所得的樹做平均得到最終結果。

 

隨機森林中某個特徵X的重要性的計算方法如下:

       1.對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外資料)資料來計算它的袋外資料誤差,記為errOOB1。

       2.隨機地對袋外資料OOB所有樣本的特徵X加入雜訊干擾(就可以隨機的改變樣本在特徵X處的值),再次計算它的袋外資料誤差,記為errOOB2。

       3.假設隨機森林中有Ntree棵樹,那麼對於特徵X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個運算式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入雜訊之後,袋外的準確率大幅度降低,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

 

基於隨機森林的特徵選擇

首先特徵選擇的目標有兩個:

       1.找到與應變數高度相關的特徵變數。

       2.選擇出數目較少的特徵變數並且能夠充分的預測應變數的結果。

 

其次一般特徵選擇的步驟為:

       1.初步估計和排序

           A)對隨機森林中的特徵變數按照VI(Variable Importance)降冪排序。

           B)確定刪除比例,從當前的特徵變數中剔除相應比例不重要的指標,從而得到一個新的特徵集。

           C)用新的特徵集建立新的隨機森林,並計算特徵集中每個特徵的VI,並排序。

           D)重複以上步驟,直到剩下m個特徵。

       2.根據1中得到的每個特徵集和它們建立起來的隨機森林,計算對應的袋外誤差率(OOB err),將袋外誤差率最低的特徵集作為最後選定的特徵集。

© 2023 by ART SCHOOL. Proudly created with Wix.com

Tel: 123-456-7890 | Fax: 123-456-7890

bottom of page