• 1
新闻详细
  • 肇庆云梯车, 肇庆云梯车出租, 肇庆云梯车租赁    基于递归式DQN的机械臂控制策略??
    新闻分类:公司新闻   作者:admin    发布于:2018-07-084    文字:【】【】【


             肇庆云梯车,  肇庆云梯车出租,  肇庆云梯车租赁    基于递归式DQN的机械臂控制策略??        讨论了马尔科夫决策过程能够对机械臂抓取物体这样的任务进行建模,在这个模型中,环境的下一个状态在一个智能体的确定控制之外。它其实是一种理想状态,实际情况往往是机械臂系统并不知道自己所处的状态,并且必须根据对实际环境状态的猜测采取一个动作,如此导致了对这个动作产生的新环境状态的猜测的不确定性。所以我们需要一个比马尔科夫决策过程更丰富的框架给这个任务建模。部分可观测的马尔科夫决策过程是一个能完成这项任务的框架。本文将对部分可观测机械臂环境建模的问题细化为获取隐含信息的过程,引入递归神经元这个概念,提出了一种递归式DQN算法,向DQN模型中加入循环神经网络结构,使得模型拥有时间轴上的记忆能力。



          1部分可观测马尔科夫决策过程部分可观测马尔科夫决策过程指的是,我们只能观测到部分我们所处的状态,并且只具有可能所处的状态集的概率分布,而不是当前状态的全部信息。一个部分可观测马尔科夫决策过程是一个7元组M.   其中:(1)智能体所处环境的状态集合,并且都是部分可观测的。(2)动作集合。(3)智能体能够看到的环境的观测集合。因为智能体不能直接观测到所处的状态,这个观测与环境中根本的真是状态概率相关。(4)是状态转移函数。(5)观测函数,  表示时刻采取行动于下一时刻转移到状态后观测到的概率。(6)回报函数,表示当前状态下执行某个动作能得到的回报值。(7)折扣因子, 对于观测而言,马尔科夫性质并不成立。下一状态的观测并不仅仅依赖于当前的动作和观测。当只存在有限的观测时,两个状态表面上看起来可能是一样的,但是实际上是不同的,而且如果这两个状态要求执行不同的动作,那么就会导致以累计奖励为度量的性能上的损失。智能体应当以某种方式将过去的轨迹压缩到一个当前的单一状态估计中。这些过去的观测还可以通过将观测上的一个过去的窗口作为策略的输入而被计算在内,或者使用递归神经网络,在不忘记过去观测的同时维持状态估计,就是采用了这种方法。解决POMDP问题的方法可描述为:存在r时刻的历史包含了时刻之前决策的所有信息,依据这些信息做出相应的决策。在>POMDP中存在一个概念叫信任状态,它表示通过估计得到环境状态概率分布的向量,⑷信任状态可以根据贝叶斯规则来更新,这个更新只需要最近采取的动作、一步之前的信任状态以及得到的观察.  其中,叫是归一因子,它是智能体在信任状态处采取动作后,观测到的概率。信任状态是给定初始初始信任状态的环境状态和智能体以往的观测动作历史上的概率分布,这个概率可以根据计算。由此策略可形式化表示为信任到动作的映射。智能体在策略下的未来回报。那么最优策略^就是能使智能体获得最大化未来回报的期望值。



         肇庆云梯车,  肇庆云梯车出租,  肇庆云梯车租赁    在本文中,机械臂环境就是一个部分可观测环境,我们将预处理后的图像当作系统的环境状态但是获取的状态信息有两大局限性,一是由于机械臂始终处于运动的状态,当前图像无法/f表征机械臂动态的过程,例如当前机械臂运动的速度,加速度,力矩等动态的信息,换句话说,相邻两个或者多个状态之间能够体现系统的动态信息;二是由于拍摄的图像是二维图像,而机械臂所处于三维的环境中,三维状态映射到二维图像之间必然有信息丢失。部分可观测马尔科夫过程能够抓住真实环境下系统的动态信息。因此在对于部分可观测马尔可夫过程进行建模时,我们将之前提到的四元组,替换成部分可观测环境下的六元组。在本文的机械臂系统中,相机拍摄的图像为智能体可观测的信息,我们定义环境不可见的信息叫做隐含信息/i,,来表征机械臂环境中的三维以及动态等隐含信息.   这样我们将对部分可观测马尔科夫过程建模的问题,转变成如何获取隐含信息化的过程。下面介绍对隐含信息建模的两种改进:(1)引入递归神经元;(2)递归式信号输入。此外本课题采用多角度思想,即采用4个参数相同的摄像头同时对抓取过程进行拍摄,采取多线程获取不同角度的图像即为在机械臂环境下装上4个摄像头,通过不同角度在一定程度上能够减小三维真实环境映射到二维图像上的映射误差,在提高抓取准确率的同时能够减小机械臂在探索环境时所用的时间。



              上述讨论过的神经网络模型不能利用过去信号的时间依赖关系分析数据特征,从而可能导致对当前或未来信号产生不合理的预测。递归神经网络是一种从Hopfield网络发展而来的模型,具有内部反馈连接,能够处理信号中的时间依赖性。   与传统的神经网络不同,递归神经网络隐层之间存在着循环连接,但输出仅出现在若干时刻后,不再是每一时刻都对应着输出。虽然递归神经网络RNN可以通过反馈连接保存随时间迀移的信息。然而,随着时间间隔的增加容易出现梯度爆炸或梯度弥散,为此,长短时记忆递归神经网络被提出。LSTM引入了H限机制来控制信息的累积速度,并可以选择遗忘之前的累积信息。LSTM结构由一个输入挤压单元、输入门单元、遗忘门单元、记忆单元、输出门单兀和输出挤压单兀构成,具体结构如下下面是对其中所有单元的详细说明。



        肇庆云梯车,  肇庆云梯车出租,  肇庆云梯车租赁



    分享到:
    点击次数:842  更新时间:2018-07-08  【打印此页】  【关闭
Copyright © 恒越吊篮车出租公司