2024-08-04
分享到
1、算法性能的度量和比较:评估深度学习算法的性能是算法研发和优化过程中不可缺少的一环。通过对比不同算法的性能,可以了解各种算法的优劣,为算法的改进提供依据。同时,对于相同算法,通过对比不同参数设置或不同数据集上的表现,可以评估算法在不同场景下的适应性。
2、算法问题的诊断:深度学习算法的评估结果可以用于诊断算法存在的问题。如果算法在某些方面的表现不佳,可以通过分析评估结果来定位问题所在,为改进算法提供突破口。例如,如果模型的预测准确率较低,那么可能需要检查模型的架构、训练数据的质量、训练过程的参数设置等方面。
3、算法的应用前景预测:深度学习算法的应用前景预测是算法评估的一个重要方面。通过评估深度学习算法在不同领域的应用效果,可以了解该算法在不同场景下的适用性,为算法的应用推广提供参考。例如,深度学习在图像识别、语音识别、自然语言处理等领域的应用已经得到了广泛认可,但在某些领域的应用效果可能还需要进一步探索和评估。
总之,深度学习算法评估是算法研发和应用过程中不可或缺的一环,它可以帮助研发人员了解算法的性能、问题和应用前景,为算法的优化、改进和推广提供依据。
然而,业界缺乏对深度学习算法的系统性评估方法,一定程度上影响着深度学习的广泛应用和技术发展。本文件此版本仅针对人工智能深度学习算法的基础性能、效率、可解释性、鲁棒性、安全性和公平性评估进行要求。随着研究的深入及应用的发展,后续将不断进行持续改进,逐渐扩展到深度学习算法可移植性等方面的评估。
本文件适用于指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法及其训练得到的深度学习模型开展评估工作。
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
ISO/IEC25059:2023软件工程系统和软件质量要求与评估(SQuaRE)人工智能系统的质量模型
注1:召回率和精度一般具有反比关系:一方升高时另一方趋向于降低。注2:也称为真阳性率。
在数据集中添加细微干扰形成的输入样本,能以较高概率诱导深度学习算法给出错误的输出,甚至
基于深度学习算法内外部影响考虑,结合用户实际应用场景需求,本文件给出深度学习算法的评估指标体系,包括基础性能、效率、可解释性、鲁棒性、安全性、公平性等6个质量特性,见图1。在实施评估过程中,应根据不同类型的深度学习算法,设置不同质量特性下的评估指标。
精度:预测类别为正样本的集合中真实类别为正样本的比率。c)召回率:被正确预测的正样本占全部正样本的比率。
F1值:精度和召回率的调和平均数,衡量二分类模型精度的一种指标,兼顾了分类模型的精度和召回率。
KL散度:两个概率分布间的差异的非对称性度量,它比较了真实分布和理论(拟合)分布之间的差异。
ROC曲线:受试者工作特性曲线,由不同设定条件下的真正率和假正率值画出的响应曲线,是反映敏感性和特异性连续变量的综合指标。
PRC曲线:精度召回率曲线,是一种同时显示不同阈值下深度学习算法精度和召回率的图形化方法。一般x轴表示召回率,y轴表示精度。
CRC曲线:累积响应曲线,也称为增益曲线或增益图,是显示跨多个阈值的总数据中真阳性率和阳性预测百分比的图形方法。
深度学习算法的效率通常指的是算法在达到给定性能目标时所消耗的资源与时间的多少。
平均处理时长:用于定义和评价在相同测试环境下,深度学习算法模型处理相同任务的时间消耗。在测试阶段,它包含算法模型单训练轮次执行时间、多训练轮次执行时间、达到特定精度执行时间等测试元。
平均资源开销:用于定义和评价在相同测试环境下,深度学习算法模型处理相同任务消耗的资源量大小。在测试阶段,它包含算法执行时的算力消耗、存储消耗、带宽消耗等测试元。
解释一致性:针对局部替代模型的可解释测试方法,要求待解释的深度学习算法决策结果与其通过可解释性方法输出结果具有一致性,即输出结果一致性,这是深度学习算法具有可解释一致性的基础,若待解释的深度学习算法结果与可解释性方法输出结果没有足够的一致性,则其不能有效地解释深度学习算法,可使用替代模型一致性等指标评估一致性。
解释一致性可以使用输出结果一致性进行评估。输出结果一致性是指通过计算输出结果的异众比率
其中,vr表示异众比率,Σfi为变量值的总频数;fn为众数组的频数,n表示数组的数量。
解释有效性:要求解释能准确地反映出深度学习算法的决策逻辑。有效的解释应包含深度学习算法预测时所依据信息。
解释有效性可以使用判定系数来评估。判定系数[2]又称R2系数,是指反映因变量的全部扰动能通过回归关系被自变量解释的比例。R2值越接近于1,回归拟合效果越好,一般认为超过80%的模型拟合度比较高,其计算公式如下:
解释因果性:要求生成的解释与待解释深度学习算法预测之间具有因果关系。因果关系是指解释中包含的特征是预测结果的原因。与预测结果有因果性的解释越多,则其解释性越好。
解释因果性可以使用特征贡献分数进行评估。特征贡献分数[3]是指用来解释的重要性靠前的k个样本特征分数和与全部特征分数和的比值,其计算公式如下:
其中,fsthre为特征贡献分数,Σfthhk为用来解释的重要性靠前的前k个特征分数之和,Σfi为全部特征分数和。
解释充分性:要求解释能够覆盖深度学习算法的整体功能。充分的解释应充分且精准覆盖样本空间。
解释充分性可以使用离散系数来评估。离散系数[4]是指数据的标准差与平均数的比值,用来比较不同类别数据的离散程度,其计算公式如下:
鲁棒性是在面对非对抗增广的样本时,深度学习算法仍能保持与实验环境中测试性能相当的能力。
其中,PFD表示模型的性能波动率,Phri。in标量表示模型在原始测试数据集上的性能指标,Phert该r标ed表示模型在经过非对抗扰动后的新测试数据集上的性能指标。对于多种扰动,模型的鲁棒性可以通过如下公式量化:
其中,R表示模型鲁棒性,wi表示第i种扰动的权重,N表示共有N种扰动方法,PFDi表示模型在第i种扰动下的性能波动率。
注:这里的性能选取的是基础性能中的评估指标。对于不同任务选取的性能指标不同,例如图像分类任务选取准确率为性能波动指标,目标检测任务选取mAP为性能波动指标;在评估过程中,也可以选取多个性能指标,逐一计算性能波动率。
扰动稳定性:描述模型在经历非对抗扰动后出现性能退化的样本与其对应的原始样本之间的最小距离。该指标量化了模型在面对扰动时所能容忍的最大变化,值越大表明模型在面对扰动时具有较强的抵御能力,从而为模型的鲁棒性提供了度量。具体计算公式如下:
其中,PSD?表示模型的扰动稳定性,X表示数据集,x表示样本实例,dist?表示在?类型的扰动下样本与扰动样本的距离函数。具体实现方式如下:
其中,f(xh表示通过?类型扰动生成的样本x的判定结果,y表示真实标签。对于多种扰动,模型的鲁棒性可以通过如下公式量化:
攻击成功率:描述在经过攻击方法构建的新测试数据集中,模型预测失败的样本数与总样本数之间的比率。该指标量化了在外部攻击下模型的安全性,值越小表明模型在面对攻击时具有较高的抵抗能力,从而为模型的抵御攻击能力提供了度量。具体计算公式如下:
其中,ASR表示攻击成功率,N标量量表示样本总数,N标dv表示预测失败的样本数。
其中,MSD表示模型窃取程度,D表示数据集的样本总数,e(·h为指示函数,当代理模型的预测与原始模型的预测相同时为1,否则为0。注:当代理模型的预测结果与原始模型的预测结果的差值在设定区间内时,均为预测相同,可赋值为1。
平均攻击查询次数:用来衡量生成对抗样本所需的平均模型查询次数。在这种情况下,攻击者试图通过在输入样本中引入微小的扰动来欺骗模型,使其产生错误的预测或分类结果。较少的查询次数意味着模型更容易受到攻击。
攻击隐蔽性:是指对抗攻击生成的对抗样本与原始样本之间的平均相似程度。在攻击隐蔽性方面,攻击者的目标是生成的对抗样本尽可能与原始样本保持相似,以至于人类观察者难以察觉到其存在。攻击隐蔽性越高,意味着对抗攻击可以更有效地欺骗模型。
深度学习算法的公平性用于评估算法对于不同群体的处理是否有歧视和输出质量的差异。
敏感属性独立程度:衡量算法对不同敏感属性群体进行特定预测的比例之间的最大差异。这一指标旨在衡量在算法预测中,受保护属性的可能影响程度。理想情况下,一个公平的算法应该使得对于所有受保护属性群体的预测分布尽可能相同,即敏感属性对算法预测的影响很小。SAID的较低值表明模型预测对不同群体更加一致,体现了较高的公平性。具体计算公式如下:
其中,SAhD表示敏感属性独立程度,A表示敏感属性集合,L表示标签集合,Y^表示模型的预测结果,
模型决策分离程度:衡量在真实类别为特定值时,模型在不同敏感属性群体之间做出错误预测的概率的差异。该指标关注模型在特定真实类别下的错误决策,并比较这些错误在不同敏感属性群体之间的分布是否均衡。具体计算公式如下:
模型决策充分程度:衡量在模型预测标签为特定值时,模型在不同敏感属性群体之间正确预测该标签的概率的差异。该指标关注在模型预测为特定类别时的正确决策,并比较这些正确预测在不同敏感属性群体之间的分布是否均衡。具体计算公式如下:
深度学习算法的评估结果分为优越级、进阶级、条件级、受限级四个等级。针对每一个算法失效,应基于确定的理由来预估潜在危险的严重性等级。深度学习算法失效的危险严重性等级如下:
优越级:在该等级下深度学习算法的失效通常是一些小规模的问题,不会对整个系统或应用的性能造成严重威胁。例如,深度学习算法在某些特定情况下的性能略微下降,但不会导致显著问题,整体性能仍在可接受范围内。这类问题通常可以通过微小的调整、超参数优化或数据清洗来解决。
进阶级:在该等级下深度学习算法的失效会对系统或应用的性能造成一定程度的负面影响,但不至于导致严重问题。例如,深度学习算法的性能在某些关键任务中低于期望,但在其他任务上表现不错。解决这类问题可能需要更深入的研究、数据增强、迁移学习、模型选择等方法。
条件级:在该等级下深度学习算法的失效会对整个系统或应用的性能产生重大影响,可能导致项目失败或严重损害用户体验。例如,深度学习算法的性能不稳定,导致无法在实际应用中可靠地使用。解决这类问题可能需要全面的重新设计、数据收集、模型选择等措施。
受限级:在该等级下深度学习算法的失效可能对人们的生命、财产或安全构成直接威胁,可能导致法律问题或损害声誉。例如,自动驾驶汽车系统的算法失效,导致事故发生。解决这类问题可能需要紧急行动、彻底审查、法律干预等措施,需要综合考虑伦理、法规和道德问题。
根据算法失效的危险严重性等级,建立深度学习算法的等级目标(见表九游体育官方网站1),其中等级目标从高到低依次分为优越级、进阶级、条件级、受限级四个级别。
外部环境发生扰动或面对不友好的输入,不依赖利益相关方的管理和配置,能采取有
外部环境发生扰动或面对不友好的输入,通过利益相关方的配置及管理,待评估算法
外部环境发生扰动或面对不友好的输入,通过利益相关方的配置与管理,待评估算法能按预期完成工作,不对算法结果造成重大影响。
当外部环境发生扰动或面对不友好的输入,待评估算法不能按照预期完成工作,可能对算法结果造成重大影响。
深度学习算法评估应面向不同等级目标,基于用户需求或过往经验,设定不同指标要求。深度学习算法评估时,可基于评估指标项得分所在区间,判定该指标项所处等级,详见表A.1。
深度学习算法的评估流程如图2所示,包括评估准备、评估执行、分析评估等三大步骤。
其中,评估准备包括测试数据集输入、测试数据集质量审查、选择质量特性、选择评估指标、构建评估模型等子步骤;
分析评估包括算法质量评估(单次、多次、多轮评估)、算法质量综合评估等子步骤。
对数据的完整性进行审查,评估数据是否存在缺失值、异常值或未标记的数据点。
对数据的准确性进行审查,与数据采集、标注等环节的实际情况进行比对验证,或通过领域专家的评估进行验证,评估数据的时间戳、标签或其他标识是否有误。
2014-2015高一上学期物理(必修1)第4章综合检测A卷(含解析).DOC
2013年四川省雅安市初中毕业暨高中阶段教育学校招生考试化学试卷.doc
2014-2015高一上学期物理(必修1)第1章综合检测A卷(含解析).DOC
2014-2015高一上学期物理(必修1)第2章综合检测B卷(含解析).DOC
2014-2015高一上学期物理(必修1)第2章综合检测A卷(含解析).DOC
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者