<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

模型任務的評價指標體系

深度學習自然語言處理 ? 來源:AI算法小喵 ? 2023-01-11 10:10 ? 次閱讀

1. 寫在前面

模型“好”與“壞”的評價指標直接由業務目標/任務需求決定。我們需要做的是:根據具體的業務目標/任務需求去選擇相應的評價指標,繼而選出符合業務目標/任務需求的好模型。在此之前,我們需要全面了解一個任務的評價指標體系。

在二分類任務評價指標(上)中,我們已經學習了如何利用混淆矩陣來計算二分類的精度、錯誤率指標。今天,我們繼續來學習二分類任務的其他評價指標。

2. 查準率、查全率

2.1 精度、錯誤率指標的局限

acc(精度、準確率)、error_rate(錯誤率)是分類任務中最常用的性能評價指標,多數情況下使用精度、錯誤率是合適的選擇。比如,在「好瓜壞瓜」的西瓜問題中,如果我們關心的僅是“有多少西瓜被判別正確或錯誤”,那么精度和錯誤率就很適合。

但是,如果我們關心的是“被我們判別為好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我們判斷為好瓜”時,精度和錯誤率就不適合了。

再比如,在工業生產的「機器故障」預測應用中,業務目標是希望模型能將機器所有發生故障的時間預測出來,顯然精度指標并不適合這樣的場景。為什么呢?

首先,我們知道精度衡量的是分類正確的樣本數占總樣本數的比例,然而通常來說機器發生故障的次數是比較少的(比如只有2%的時間發生故障)。那么,即便每次機器發生故障時模型都預測錯誤,它的精度也可高達到98%。這樣一個模型完全就是一個擺設,在實際生產中毫無用處。

2.2 查準率、查全率

在上面精度、錯誤率不適用的場景中,查準率(精確率,Precision,P)和查全率(召回率,recall,R)是更適合的模型評價指標。

2.2.1 查準率、查全率指標定義

我們還是利用混淆矩陣來計算二分類任務的查準率和查全率。

真實類別 預測類別
正例 負例
正例 TP(真正例) FN(假負例)
負例 FP(假正例) TN(真負例)

假設我們有如上混淆矩陣,那么查準率的定義如下:

即查準率是預測正確的正例(TP)占所有預測為正例的樣本(TP+FP)的比例。

查全率定義如下:

即查全率是預測正確的正例(TP)占總正例(TP+FN)的比例。

2.2.2 查準率、查全率含義

在「好瓜壞瓜」西瓜問題中:

查準率:衡量了“被判別為好瓜的西瓜中有多少比例是真正的好瓜” ;

查全率:衡量了“所有真正的好瓜中有多少比例被判斷為好瓜” ;

在「機器故障預測」問題中:

查準率:衡量了“被預測發生故障的時間中有多少比例確實發生了故障” ;

查全率:衡量了“機器發生故障的所有時間中有多少比例被預測出來了” ;

類似的,在「信息檢索/web搜索」中:

查準率:衡量了“檢索出的信息中有多少比例是用戶真正感興趣的”

查全率:衡量了“用戶感興趣的信息中有多少比例被檢索出來了”

在「垃圾郵件檢測」中:

查準率:衡量了“被預測為垃圾郵件的所有郵件中有多少比例的確是垃圾郵件”

查全率:衡量了“所有垃圾郵件中有多少比例被檢測出來了”

在「詐騙電話檢測」中:

查準率:衡量了“被預測為詐騙電話的來電中有多少比例是詐騙電話”

查全率:衡量了“所有詐騙電話中有多少比例被檢測出來了”

2.2.3 查準率、查全率的矛盾

我們當然希望模型不僅有高查準率,也有高查全率。但事實上,查準率與查全率通常情況下是相互矛盾的,或者說查準率、查全率是一對相互矛盾的指標。

知乎上有個例子可以幫助我們直觀地理解這個“矛盾性”。假設我們的模型是找到人群中隱藏的壞人,那么:

看重查全率: “寧可錯殺一千,不可漏過一個”。

看重查準率: “寧可漏過壞人,不可錯殺無辜的好人”。

更具體地,比如在「好瓜壞瓜」西瓜問題中,假設“好瓜”和“壞瓜”并沒有那么容易區分(復雜問題),這時要想獲得高查全率,就需要降低篩選標準,極端一點我們將所有西瓜都預測為好瓜,那么查全率就是100%,但是查準率就很低;而要想獲得高查準率,就需要提高篩選標準,極端一點我們只將一個最有把握的西瓜預測為好瓜,并且預測準確了,那么查準率就是100%,但是查全率就很低。

3.

既然查準率、查全率是一對相互矛盾的指標,我們就需要明確在不同的業務目標/任務需求中到底是希望查準率比較高還是查全率比較高。

3.1

當然,在二分類任務中,我們也有綜合考慮了查準率和查全率的評價指標 F-Mesure(F-Score, ),它的定義如下:

其中 ()可視為權重參數,它度量了查準率和查全率的相對重要性。換句話說是查準率和查全率的加權調和平均。

由上式 的倒數的定義可知,當 時,相當于查全率被放大了,所以查全率有更大的影響;當 時,相當于查全率被縮小了,所以準率有更大的影響。

也就是說:

:更看重查全率指標。

:更看重查準率指標。

3.2 F1

在 中,當 時,也退化成了我們常見的 指標:

顯然,根據下面的等價形式,可以知道在F1指標中,查準率和查全率同樣重要:

編輯:何安

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 矩陣
    +關注

    關注

    0

    文章

    406

    瀏覽量

    34280
  • 模型
    +關注

    關注

    1

    文章

    2744

    瀏覽量

    47786

原文標題:、

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是氮化鎵技術指標體系分解

    小編在這里給大家分享一下什么是氮化鎵技術指標?什么是氮化鎵技術指標體系? 以碳化硅和氮化鎵為代表的第三代半導體,具有高頻、高效、高功率、耐高壓、耐高溫、抗輻射能力強等優越性能,其中氮化鎵是一種
    發表于 02-16 16:07 ?1402次閱讀
    什么是氮化鎵技術<b class='flag-5'>指標體系</b>分解

    什么是數據指標體系?如何設計指標體系?

    什么是數據指標體系?為什么需要指標體系?如何設計指標體系?什么是數據分析?
    發表于 07-02 06:51

    什么是數據指標體系?如何設計指標體系

    什么是數據指標體系?為什么需要指標體系?如何去設計指標體系?
    發表于 09-10 07:27

    AHP法在城市政府管理評估指標體系中的應用

    城市政府管理評估指標體系對城市的定位、發展水平和發展方向至關重要,但是,目前國際上還沒有一套現成的評估指標體系。該文引入AHP法,在眾多的城市政府管理評估指標
    發表于 12-13 02:08 ?6次下載

    信息系統可生存性定量評估的指標體系

    從內容、攻擊階段、測定標準等不同角度綜合分析可生存性指標,提出一種能系統地反映可生存性的指標體系,給出其形式化描述和數學模型。分析與驗證結果表明,該指標體系
    發表于 03-28 09:18 ?13次下載

    供需鏈仿真系統功能評價體系分析

    針對供需鏈仿真系統的需求分析與設計問題,在綜述國內外供需鏈仿真系統功能現狀的基礎上,給出評價系統性能的指標體系,基于該套評價方法對現有主流供需鏈仿真系統的功能
    發表于 04-09 09:03 ?13次下載

    預警指標體系的本體建模及其應用

    借鑒多目標決策樹中規范化的思想,提出將一般指標體系結構規范化為由一個根節點和若干葉子節點構成的2層多叉樹。根據領域本體的建模方法論,建立基于描述邏輯的指標體系
    發表于 04-11 09:59 ?16次下載

    知識型員工任務評價信息系統的指標模型

    為解決企業人才評價和成長問題,以B/S模式構建企業任務分派、評價及分析網絡信息系統。針對企業知識型員工的任務和創新業績管理構建較為實用的評價
    發表于 04-11 10:05 ?24次下載

    公共部門績效評價軟件的指標適應性技術

    構建績效評價指標體系是公共部門績效評價的基礎工程之一,進行績效評價前需要確立能適應政府公共部門所處歷史時期和外部環境的績效評價
    發表于 04-14 09:14 ?7次下載

    基于標準的系統安全測試指標體系的研究

    本文從操作系統的安全功能出發,結合CC 標準的測評原理,按照威脅、安全目的、系統安全功能組件和具體指標的順序,提出一套系統安全測試的全面的指標體系,該指標可根據需
    發表于 08-07 14:55 ?13次下載

    機械行業清潔生產評價指標體系

    為了貫徹落實《中華人民共和國清潔生產促進法》,指導和推動機械行業企業依法實施清潔生產,提高資源利用率,減少或避免污染物的產生,保護和改善環境,制定機械行業清潔生產評價指標體系(試行)(以下簡稱指標體系)。 本
    發表于 03-16 15:19 ?36次下載

    網絡安全態勢要素指標體系研究

    針對網絡安全態勢評估指標體系的不完善和難以選取及構建等問題,以相關標準和規范為基礎,從系統安全機制出發,按照既定原則,提出一種網絡安全態勢要素指標體系構建方法,并
    發表于 07-06 16:55 ?33次下載

    基于非負矩陣分解的城市公交網絡綜合評價模型

    針對城市公交網絡的評價問題,在綜合考慮城市公交系統諸多因素的基礎上,建立了城市公交網絡系統的綜合評價指標體系。然后利用非負矩陣分解的知識,提取出指標體系中的主要綜
    發表于 07-12 13:53 ?0次下載
    基于非負矩陣分解的城市公交網絡綜合<b class='flag-5'>評價</b><b class='flag-5'>模型</b>

    指標評價系統設計與實現

    針對具有不確定性的混合多指標評價問題,介紹了定性指標和定量指標的數據提取方法,結合證據推理法的基本理論,采用混合編程技術,開發了證據推理評價
    發表于 11-29 11:29 ?2次下載
    多<b class='flag-5'>指標</b><b class='flag-5'>評價</b>系統設計與實現

    指標、建聯系、建用法,指標體系就這樣做!

    進而,體系的缺位會導致組織的“數據指南針”失效。越是在大型組織當中,指標體系越為重要,因為決策者離一線業務較遠;公司的業務虛擬屬性越強,指標體系越為重要,因為公司與客戶的距離較遠。
    的頭像 發表于 02-06 16:45 ?476次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>