上海獵諾工貿有限公司

主營:五金交電、機電設備、叉車、計算機及配件
您現(xiàn)在的位置: 照明工業(yè) > 燈具配附件 > 支架 > 上海獵諾工貿有限公司 > 供求信息
載入中……
[供應]智能數(shù)據非常高的擬合精度需注意幾點
點擊圖片放大
  • 產品產地:
  • 產品品牌:
  • 包裝規(guī)格:
  • 產品數(shù)量:0
  • 計量單位:
  • 產品單價:0
  • 更新日期:2017-10-11 14:07:32
  • 有效期至:2018-10-11
  • 收藏此信息
智能數(shù)據非常高的擬合精度需注意幾點 詳細信息




下列是一些具體的處理方法名稱:


該方法主要是對大類進行處理。它會減少大類的觀測數(shù)來使得數(shù)據集平衡。這一辦法在數(shù)據集整體很大時較為適宜,它還可以通過降低訓練樣本量來減少計算時間和存儲開銷。


欠采樣法共有兩類:隨機(Random)的和有信息的(Informative)。


隨機欠采樣法會隨機刪除大類的觀測直至數(shù)據集平衡。有信息的欠采樣法則會依照一個事先制定的準則來刪去觀測。


有信息的欠采樣中,利用簡易集成算法(EasyEnsemble)和平衡級聯(lián)算法(BalanceCascade)往往能得到比較好的結果。這兩種算法也都很直白易懂。


簡易集成法:首先,它將從大類中有放回地抽取一些獨立樣本生成多個子集。然后,將這些子集和小類的觀測合并,再基于合并后的數(shù)據集訓練多個分類器,以其中多數(shù)分類器的分類結果為預測結果。如你所見,整個流程和無監(jiān)督學習非常相似。


平衡級聯(lián)法:它是一種有監(jiān)督的學習法,首先將生成多個分類器,再基于一定規(guī)則系統(tǒng)地篩選哪些大類樣本應當被保留。


但欠采樣法有一個顯而易見的缺陷,由于要刪去不少觀測,使用該方法會使得大類損失不少重要信息。


2.過采樣法


這一方法針對小類進行處理。它會以重復小類的觀測的方式來平衡數(shù)據。該方法也被稱作升采樣(Upsampling)。和欠采樣類似,它也能分為隨機過采樣和有信息的過采樣兩類。


隨機過采樣會將小類觀測隨機重復。有信息過采樣也是遵循一定的準則來人工合成小類觀測。


使用該方法的一大優(yōu)勢是沒有任何信息損失。缺點則是由于增加了小類的重復樣本,很有可能導致過擬合(譯者注:計算時間和存儲開銷也增大不少)。我們通過該方法可以在訓練集上得到非常高的擬合精度,但在測試集上預測的表現(xiàn)則可能變得愈發(fā)糟糕。
本文來源:chinapex.cn/solutions/data_cloud
     chinapex.cn/news/company-news

同類型其他產品
免責聲明:所展示的信息由企業(yè)自行提供,內容的真實性、和合法性由發(fā)布企業(yè)負責,浙江民營企業(yè)網對此不承擔任何保證責任。
友情提醒:普通會員信息未經我們人工認證,為了保障您的利益,建議優(yōu)先選擇浙商通會員。

關于我們 | 友情鏈接 | 網站地圖 | 聯(lián)系我們 | 最新產品

浙江民營企業(yè)網 peada.cn 版權所有 2002-2010

浙ICP備11047537號-1