2025-03-09
分享到
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
1、深度学习方法的一些研究 西安交通大学数学与统计学院 张讲社西安交通大学统计系 主要内容 研究背景与意义 2 利用稀疏响应增强反向传播算法的性能 1 1 1深度学习的背景及意义 最多含单个将原始信号转换到特定问题空间特征的简单结构 只学习数据的单层表示 机器学习是使计算机具有人工智能的根本途径 人类的认知过程是以深度的方式呈现的 层次化地组织思想和概念 首先学习简单的概念 然后使用学习到的简单概念表示抽象层面更高的概念 面对复杂的感知数据 人类总能做出合理的判断 九游智能体育科技人类大脑的结构和信息处理机制 人类的认知过程 1 1深度学习的背景及意义 1 1深度学习的背景及意义 深度学习的概念起源于人工神经网络
2、的研究 1965年 多层前向网 最早的类多层感知器深度学习系统 深度信念网 2006年 突破性的进展 1 2深度学习的发展 复兴 深度学习成熟条件1 数据集的增大 图6数据集与年份 深度学习成熟条件2 神经元之间的连接数增大 本质原因是计九游智能体育科技算机硬件技术的飞速发展 图7神经元连接与年份 10 深度学习成熟条件3 神经元个数的增加 本质原因是计算机硬件技术的飞速发展 图8神经元个数与年份 11 好算法的出现 2006年 GeoffreyHinton在Science上发表了一篇名为 ReducingwithDimensionalityofDatawithNeuralNetworks 的文章 从此 神经
3、网络 主要是深度学习 便有焕发了新的青春 图9GeoffreyHinton与他的学生在Science上发表文章 1 2深度学习的发展 在学术界的研究现状及应用 2010年 美国国防部DARPA计划首次资助斯坦福大学 纽约大学和NEC美国研究院开展深度学习研究2012年6月 GoogleBrain项目用16000个CPU搭建深度学习平台 在语音 图像识别领域获得重要进展2012年12月 微软亚洲研究院在天津的一次活动中利用深度学习技术进行全自动同声传译 效果良好2013年1月 李彦宏宣布成立百度的第一个研究院InstituteofDeepLearning2013年4月 麻省理工学院技术评论 将深
4、度学习列为2013年十大突破性技术之首2013年6月微软对WindowsPhone平台的必应语音搜索进行了更新 语音识别和反馈的速度提高一倍 精确度提升15 2014年3月Facebook的Deepface项目使得人脸识别技术的识别率达到97 25 准确率几乎可媲美人类 1 2深度学习的发展 在工业界的发展 互联网界巨头进入深度学习领域 图15机器学习界的执牛耳者与互联网的大鳄的联姻 18 贪婪算法 DBN 预训练 Hintonetal 2006 Bengioetal 2007 1 3深度信念网 贪婪算法Step1 用训练样本 和一个隐层 创建一个限制玻尔兹曼机 RBM 训练此RBM得到参数
6、法极大化log 生成微调用至顶向下的算法极大化log 1 4深度信念网 提出了一种用于训练多层前向网的新算法 建立了基于率失真理论的深度学习模型 提出了对图像变换稳定的分类RBM模型 提出了用于训练RBM的等能量并行回火算法 研究成果 主要工作 2 利用稀疏响应增强反向传播算法的性能 稀疏连接 稀疏响应 神经元群 刺激 Morrisetal 2003 Barlow 1972 Olshausenetal 2004 稀疏连接 大脑皮层中单个神经元只与其余神经元中的大约极少数相连 稀疏响应 对于给定的某个刺激 神经系统中仅有少量的神经元响应 2 1稀疏响应 2 2基于稀疏响应的多层前向网 输入层 隐
8、 非线性稀疏表示 隐层神经元在所有训练样本上的响应直方图 非线实验 测试集分类精度 50次实验的平均结果 泛化能力 2 3实验 泛化能力 2 3实验 泛化能力 2 3实验 网络所消耗的能量 2 3实验 2 4本章小结 基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制 提出用于训练多层前向网的新算法 实验结果表明 提高了网络的泛化能力大幅度降低了网络的能耗训练过程更稳定 收敛速度更快可在一定程度上简化网络的结构 基于率失线 主要研究在限定失真条件下能够恢复信源符号所需的最小信息率 它给出了在一定失真度情况下信源编码能达到的极限码率 对编码的长度进
9、行了约束 率失线率失真理论 等价问题 编码率 编码机制为确定型时 在RBM中 隐层神经元的响应概率 数据的表示 是确定的 通过稀疏响应控制 的不确定性程度 从而控制编码率 新模型的思想 失真水平 RBM是概率模型 因此使用输入数据分布与模型分布之间的Kullback Leibler散度作为失真函数 是随机变量 和 的互信息 表示编码的压缩率 是失真函数 关于分布的期望 表示编码解码的失真水平 用隐层神经元响应的 范数来实现神经元的稀疏响应 得到基于率失真理论的RBM 简记为RD RBM 3 2基于率失线网络共有两个隐层 第一个隐
10、层有144个神经元 第二个隐层有50个神经元 自然图像 3 3实验 非线网络共有两个隐层 第一个隐层有144个神经元 第二个隐层有50个神经元 DBN学到的W1 RD DBN学到的W1 自然图像 3 3实验 特征 10000张图 每张像素为12X12网络共有两个隐层 第一个隐层有144个神经元 第二个隐层有50个神经元 自然图像 特征 RD DBN学到的W2 3 3实验 手写体数据 10类 每类取2000个数据作为实验数据 网络共有两个隐层 第一个隐层有196个神经元 第二个隐层有50个神经元 手写体数据 3 3实验 RD DBN学习到的 特征
11、3 3实验 RD DBN学习到的 特征 3 3实验 分类误判率 从每类数据中随机抽取100 500 1000个样本作为训练数据 50次实验平均结果 泛化能力 3 3实验 部分响应次数较多的隐层神经元的判别能力 MNIST数据集 水平轴为所选取的神经元个数 在训练数据上响应次数较多 垂直轴为具有部分隐层神经元的网络在训练集 每类分别取100 500和1000个样本作为训练集 和测试集上的分类误差率 3 3实验 5类 每类取2000个数据作为训练数据 10类 每类取2000个数据作为训练数据 CIFAR数据 NORB数据 3 3实验 RD DBN学习到的 特征 3 3实验 特征 3 3实验 泛化能
12、力 3 3实验 基于率失真理论的思想提出了新的深度信念网模型 实验结果表明 学习到的数据表示更加稀疏能够提取不同抽象水平的特征学习到的数据表示更具判别能力 3 4本章小结 用等能量跳转的并行回火算法训练RBM 5 log 极大似然的困境基于模型的期望难以计算 无数次交替Gibbs采样的时间开销大 4 1RBM训练的困境 采用单个马尔科夫链近似模型分布 经典的马尔科夫链蒙特卡洛 MCMC 方法 4 2几种经典的训练方法 从理论上讲 人们总能通过MCMC采集到符合目标分布的样本实际应用中 人们通常不了解多少次转移是足够的 这个问题很大程度上受到目标分布陡峭程度的影响 低概率区域 状态转移概率 采用
13、单个马尔科夫链抽样的局限性 典型的双峰分布以及MCMC可能面临的问题 4 2几种经典的训练方法 借助多个辅助的Gibbs链 将低温分布下的状态转移到高温分布中 实现目标分布中不同峰值状态的转移 达到对整个分布采样的目的 并行回火 ParallelTempering PT 4 2几种经典的训练方法 相邻Gibbs链间的状态交换概率依赖于Gibbs链的温度和状态的能量 并行回火算法训练RBM的局限性 4 2几种经典的训练方法 在PT中 使用过少的辅助分布或者使用不合适的辅助分布都会导致相邻Gibbs链的状态拥有较大差异的能量 从而产生极低的交换概率 不利于RBM的训练 0 容易 困难 4 3等能量
14、抽样 Kou于2006年提出等能量抽样 为了得到较高的状态交换概率 我们采用等能量跳转 直接在具有相似能量的状态间进行跳转 跳过低概率区域 5 4用等能量跳转的并行回火算法训练RBM 基于等能量跳转的并行回火算法 PTwithequi energymoves PTEE 每个链的状态转移过程不受其它链的影响 状态被划分到多个能量集中 并在能量集内部进行状态交换 基于等能量跳转的并行回火算法 PTwithequi energymoves PTEE 4 4用等能量跳转的并行回火算法训练RBM 小数据集 基于四个基本模型 模型之间的差异性比较大 而产生的数据集 对于每一个基本模型 以0 001的概率转
15、换模型中的像素 0变成1 1变成0 从而生成2500张与该基本模型相似的图片 MNIST手写体数据集 数据 4 5实验 在PT算法中 相邻马尔科夫链的状态拥有差异较大的能量 这会引起低的状态交换概率 不利于RBM的训练 而在PTEE算法中 同一个能量集内的状态拥有近似的能量 保证了较高的状态交换概率 某步参数更新时 有可能进行全局跳转的马尔科夫链状态的能量 左 PT 右 PTEE PT和PTEE中全局跳转的比较 4 5实验 PT和PTEE中全局跳转的比较 整个训练过程中 每个马尔科夫链与其它链交换状态的平均交换概率 对于PTEE算法 几乎所有的马尔科夫链的平均交换概率都比PT算法的高 4 5实
16、验 PT和PTEE中全局跳转的比较 在PT中 相邻的马尔科夫链才交换状态 在PTEE中 任意两个马尔科夫链都有可能交换状态 4 5实验 5次实验的平均结果 小数据集 似然得分 PTEE算法比PT算法能够更快地得到较好的结果 且最终结果也比PT算法好 随着迭代步骤的增加 使用单个马尔科夫链的CD算法和PCD算法的学习效果突然变差并且持续恶化 最终得到很低的似然值 4 5实验 5次实验的平均结果 MNIST数据集 似然得分 5次实验的平均结果 小数据集 4 5实验 结合等能量抽样和并行回火抽样方法提出了用于训练RBM的新算法 实验结果表明 新算法能够提高抽样过程中的混合率以更快的速度获得更高的似然
本文(深度学习的相关算法研究.ppt)为本站会员(3399888)主动上传,一课资料网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知一课资料网(点击联系客服),我们立即给予删除!