• 1
新闻详细
  • 东莞云梯车, 东莞云梯车出租, 东莞云梯车租赁 , 深层探索的显著优势在于提高了智能体在面对复杂的大规模深度强化学习任务时速度,收敛速度快
    新闻分类:公司新闻   作者:admin    发布于:2018-07-084    文字:【】【】【


             东莞云梯车,  东莞云梯车出租,  东莞云梯车租赁 ,深层探索的显著优势在于提高了智能体在面对复杂的大规模深度强化学习任务时速度,收敛速度快。对于原始DQN算法来说,当训练周期超过2000时,其学习时间处于一个很高的值,并且不随链长的增大而改变。而对于引导式DQN算法来说,即使训练周期不到2000,它的学习速度很快,而且学习时间能够随着链长的增大而缓慢增加。这说明了只有引导式DQN算法才能实现深层的探索。


       


            动作对应的平均Q值就是5000次训练过程每次做出的决策动作对应的网络输出值的平均值。表示了原始DQN算法和引导式DQN算法在相同条件下的机械臂抓取实验中的平均Q值对比结果,可以看到引导式DQN算法的曲线比原始DQN算法的曲线要平滑许多,网络训练大约在三百万次迭代后,网络输出收敛,而原始DQN算法在训练过程中出现了震荡现象导致模型参数不稳定。为了进一步观察引导式DQN算法的稳定性,我们把训练过程中的平均回报值通过折线图表示出来.   采用原始DQN算法和引导式DQN算法时的平均回报值的对比结果即便训练时间足够长,两个算法在每一个epoch之间还是存在噪声的,但是引导式DQN算法从整体上来看其平均回报值随着训练周期的增加而增加,最后慢慢趋于稳定,原始DQN算法的平均回报值的差异较大,因为原始DQN的随机采样策略导致了这种不稳定性。最后我们将机械臂采用引导式DQN算法抓取物体的成功率与原始DQN算法进行比较。实验结果表明使用引导式DQN算法实现的成功率比原始DQN算法增加了3.3%,性能有所提升。因此综上分析,可以得出以下结论:针对于当前的实验环境,本文设计的引导式DQN算法具有较好的性能。(2)递归式DQN与DQN的比较本文提出的引导式DQN算法其实是假设实验环境较为完美的前提下,但实际上大部分真实实验环境都是部分可观测的,因此本文又提出了递归式DQN算法,进行如下实验。每次只取一帧图像作为递归式DQN网络的输入,另外,分别将连续四帧和连续十帧的图像作为原始DQN网络的输入,随着训练次数的增加,三种情况下的平均Q值总体呈增长趋势,并且随着一次输入图像帧数的增加,原始DQN网络的平均Q值也增加。然而,递归式DQN网络虽然每次只有一帧图像作为输入,但平均Q值明显高于原始DQN。这说明在处理不确定环境下的决策问题时,递归式DQN的性能远好于原始DQN。此外,我们推测出递归式DQN算法性能与连续观测帧数无关,为了进一步验证此推论,接着进行如下实验,分别选取1,2,3…,12桢连续图像作为网络输入,观察统计网络训练过程中的损失值。这里还是将递归式DQN算法与原始DQN算52法作对比。可以看出原始DQN算法的训练损失值与每次连续输入图像帧数呈负相关的关系,且连续十帧以后原始DQN算法的训练损失率趋于稳定。而递归式DQN算法的训练损失值不随帧数的增加而降低,始终保持很低的值。因此能够说明递归式DQN算法对于部分可观测环境具有明显优势。同样的,这里需要根据评判标准来验证递归式DQN算法训练的得到的模型的有效性,原始DQN算法和递归式DQN算法在相同条件下的机械臂抓取实验中的平均Q值对比结果,可以看到递归式DQN算法的平均Q值随着训练次数的增加整体呈增大的趋势,并且网络训练大约在五百万次迭代后,网络输出收敛,而原始DQN算法在训练过程中的平均Q值波动较为明显,并且在大约四百万次迭代后逐渐下降。再来看看递归式DQN算法的稳定性,原始DQN算法和递归式DQN算法时的平均回报值的对比结果,从图中可以看出两个算法在每一个epoch之间均存在噪声的,但是递归式DQN的平均回报值整体上高于原始DQN的平均回报值,并且震荡幅度较小。为了更直观的反映递归式DQN算法的优势,对两种算法下机械臂抓取物体成功率进行统计,其结果如下表5-2所示,可以看到使用递归式DQN算法实现的成功率比原始DQN算法增加了5.2%,改进效果明显。



         东莞云梯车,  东莞云梯车出租,  东莞云梯车租赁



         综上分析,可以得出以下结论:针对于部分可观测真实实验环境,本文设计的递归式DQN算法相较于原始DQN具有更好的性能表现。(3)多视角和单视角的比较,  从四个单视角拍摄到的图像。其缺点是从单个观测角度采样的帧在相邻状态之间具有较高的相关性,每个状态的帧不能描述当前状态。 提出了多角度的思想来减少三维图像映射到二维图像的信息丢失。




         视角所拍摄到的图像作为网络结构的输入,这里统一使用原始DQN网络结构进行训练测试。我们分别使用上述不同视角的图像训练,并使用训练好的策略来控制机器人系统完成抓取目标的任务。在训练模型之后,我们使用这些模型来控制机器人系统从初始位置到终止位置150次。结果显示,在五个实验中,实验1达到最高分数,达到91.6%。实验3和5由于对称视图而具有相似得分,分别为85.5%和86.8%。而实验4与其它几组实验有明显的区别,因为用于训练神经网络的数据是不包含末端效应器并丢失大部分信息,因此成功率最低,仅为百分之三十左右。因此可以得出结论:基于多视角的DQN算法能够降低相邻状态间的相关性,更好的描述当前状态,提高机械臂抓取物体的成功率。






           东莞云梯车,  东莞云梯车出租,  东莞云梯车租赁

    分享到:
    点击次数:724  更新时间:2018-07-08  【打印此页】  【关闭
Copyright © 恒越吊篮车出租公司