新闻中心

公司新闻

行业动态

联系我们

http://www.yexiaochao.com/

http://www.shengjiangjichuzu.com/

http://www.guangzhouyuntichechuzu.com/

http://www.panyuyuntichechuzu.com/

http://www.shundeyuntichechuzu.com/

http://www.huaduyuntichechuzu.com/

http://www.nanshayuntichechuzu.com/

http://www.jiangmenyuntichechuzu.com/

http://www.zhaoqingyuntichechuzu.com/

http://www.foshanyuntichechuzu.com/

http://www.zhuhaiyuntichechuzu.com/

http://www.yuntichechuzu.com/

http://www.yuntichuzu.com/

新闻详细

东莞云梯车, 东莞云梯车出租, 东莞云梯车租赁，深层探索的显著优势在于提高了智能体在面对复杂的大规模深度强化学习任务时速度，收敛速度快

新闻分类：公司新闻   作者：admin    发布于：2018-07-084    文字：【大】【中】【小】

摘要：

东莞云梯车, 东莞云梯车出租, 东莞云梯车租赁，深层探索的显著优势在于提高了智能体在面对复杂的大规模深度强化学习任务时速度，收敛速度快。对于原始ＤＱＮ算法来说，当训练周期超过２０００时，其学习时间处于一个很高的值，并且不随链长的增大而改变。而对于引导式ＤＱＮ算法来说，即使训练周期不到２０００，它的学习速度很快，而且学习时间能够随着链长的增大而缓慢增加。这说明了只有引导式ＤＱＮ算法才能实现深层的探索。

动作对应的平均Ｑ值就是５０００次训练过程每次做出的决策动作对应的网络输出值的平均值。表示了原始ＤＱＮ算法和引导式ＤＱＮ算法在相同条件下的机械臂抓取实验中的平均Ｑ值对比结果，可以看到引导式ＤＱＮ算法的曲线比原始ＤＱＮ算法的曲线要平滑许多，网络训练大约在三百万次迭代后，网络输出收敛，而原始ＤＱＮ算法在训练过程中出现了震荡现象导致模型参数不稳定。为了进一步观察引导式ＤＱＮ算法的稳定性，我们把训练过程中的平均回报值通过折线图表示出来. 采用原始ＤＱＮ算法和引导式ＤＱＮ算法时的平均回报值的对比结果即便训练时间足够长，两个算法在每一个ｅｐｏｃｈ之间还是存在噪声的，但是引导式ＤＱＮ算法从整体上来看其平均回报值随着训练周期的增加而增加，最后慢慢趋于稳定，原始ＤＱＮ算法的平均回报值的差异较大，因为原始ＤＱＮ的随机采样策略导致了这种不稳定性。最后我们将机械臂采用引导式ＤＱＮ算法抓取物体的成功率与原始ＤＱＮ算法进行比较。实验结果表明使用引导式ＤＱＮ算法实现的成功率比原始ＤＱＮ算法增加了３．３％，性能有所提升。因此综上分析，可以得出以下结论：针对于当前的实验环境，本文设计的引导式ＤＱＮ算法具有较好的性能。（２）递归式ＤＱＮ与ＤＱＮ的比较本文提出的引导式ＤＱＮ算法其实是假设实验环境较为完美的前提下，但实际上大部分真实实验环境都是部分可观测的，因此本文又提出了递归式ＤＱＮ算法，进行如下实验。每次只取一帧图像作为递归式ＤＱＮ网络的输入，另外，分别将连续四帧和连续十帧的图像作为原始ＤＱＮ网络的输入，随着训练次数的增加，三种情况下的平均Ｑ值总体呈增长趋势，并且随着一次输入图像帧数的增加，原始ＤＱＮ网络的平均Ｑ值也增加。然而，递归式ＤＱＮ网络虽然每次只有一帧图像作为输入，但平均Ｑ值明显高于原始ＤＱＮ。这说明在处理不确定环境下的决策问题时，递归式ＤＱＮ的性能远好于原始ＤＱＮ。此外，我们推测出递归式ＤＱＮ算法性能与连续观测帧数无关，为了进一步验证此推论，接着进行如下实验，分别选取１，２，３…，１２桢连续图像作为网络输入，观察统计网络训练过程中的损失值。这里还是将递归式ＤＱＮ算法与原始ＤＱＮ算５２法作对比。可以看出原始ＤＱＮ算法的训练损失值与每次连续输入图像帧数呈负相关的关系，且连续十帧以后原始ＤＱＮ算法的训练损失率趋于稳定。而递归式ＤＱＮ算法的训练损失值不随帧数的增加而降低，始终保持很低的值。因此能够说明递归式ＤＱＮ算法对于部分可观测环境具有明显优势。同样的，这里需要根据评判标准来验证递归式ＤＱＮ算法训练的得到的模型的有效性，原始ＤＱＮ算法和递归式ＤＱＮ算法在相同条件下的机械臂抓取实验中的平均Ｑ值对比结果，可以看到递归式ＤＱＮ算法的平均Ｑ值随着训练次数的增加整体呈增大的趋势，并且网络训练大约在五百万次迭代后，网络输出收敛，而原始ＤＱＮ算法在训练过程中的平均Ｑ值波动较为明显，并且在大约四百万次迭代后逐渐下降。再来看看递归式ＤＱＮ算法的稳定性，原始ＤＱＮ算法和递归式ＤＱＮ算法时的平均回报值的对比结果，从图中可以看出两个算法在每一个ｅｐｏｃｈ之间均存在噪声的，但是递归式ＤＱＮ的平均回报值整体上高于原始ＤＱＮ的平均回报值，并且震荡幅度较小。为了更直观的反映递归式ＤＱＮ算法的优势，对两种算法下机械臂抓取物体成功率进行统计，其结果如下表５－２所示，可以看到使用递归式ＤＱＮ算法实现的成功率比原始ＤＱＮ算法增加了５．２％，改进效果明显。

东莞云梯车, 东莞云梯车出租, 东莞云梯车租赁

综上分析，可以得出以下结论：针对于部分可观测真实实验环境，本文设计的递归式ＤＱＮ算法相较于原始ＤＱＮ具有更好的性能表现。（３）多视角和单视角的比较, 从四个单视角拍摄到的图像。其缺点是从单个观测角度采样的帧在相邻状态之间具有较高的相关性，每个状态的帧不能描述当前状态。提出了多角度的思想来减少三维图像映射到二维图像的信息丢失。

视角所拍摄到的图像作为网络结构的输入，这里统一使用原始ＤＱＮ网络结构进行训练测试。我们分别使用上述不同视角的图像训练，并使用训练好的策略来控制机器人系统完成抓取目标的任务。在训练模型之后，我们使用这些模型来控制机器人系统从初始位置到终止位置１５０次。结果显示，在五个实验中，实验１达到最高分数，达到９１．６％。实验３和５由于对称视图而具有相似得分，分别为８５．５％和８６．８％。而实验４与其它几组实验有明显的区别，因为用于训练神经网络的数据是不包含末端效应器并丢失大部分信息，因此成功率最低，仅为百分之三十左右。因此可以得出结论：基于多视角的ＤＱＮ算法能够降低相邻状态间的相关性，更好的描述当前状态，提高机械臂抓取物体的成功率。

东莞云梯车, 东莞云梯车出租, 东莞云梯车租赁

附件下载： (已下载0次)

标签：

分享到：
点击次数：917  更新时间：2018-07-08  【打印此页】  【关闭】

上一条：肇庆云梯车, 肇庆云梯车出租, 肇庆云梯车租赁基于递归式ＤＱＮ的机械臂控制策略??    下一条：江门云梯车, 江门云梯车出租, 江门云梯车租赁将ＤＱＮ算法应用于机械臂运动控制领域中

网站首页

关于我们

产品展示

新闻中心

在线留言

联系我们

公司新闻

行业动态