基于强化学习的海洋牧场自主网箱巡检探讨

联系我们文献下载

首页其它分类论文写作正文

基于强化学习的海洋牧场自主网箱巡检探讨

发布时间：2024-03-26 17:08

本文采用的管线跟踪算法和基于声纳的方法具有高度的实时性和鲁棒性，能够快速定位网箱中的各个区域，并自主完成巡检任务。

第1章绪论

1.2 国内外研究现状

本文主要研究基于视觉和声学的水下机器人自主网箱巡检，视觉部分将网箱巡检任务转换为针对于网箱的管线跟踪任务，实现智能化水产养殖网箱巡检策略。因此，本文将从定点网箱监测、传统控制方法、基于强化学习方法三个方面进行国内外研究现状的分析。

1.2.1 水下机器人发展现状

水下机器人（Unmanned Underwater Vehicle，UUV）是指不需要潜水员或人工干预就能在水下自主工作的机器人。水下机器人通常分为两大类：自主水下机器人（Autonomous Underwater Vehicle，AUV）和遥控无人潜水器（Remotely Operated Vehicle，ROV）。

水下无人机技术起源于20世纪50年代的美国，最初是为了进行军事侦察和作战而开发的。后来，随着科技的进步和应用场景的不断拓展，水下无人机逐渐走向了商业化和民用化。如今，美国、欧洲、日本、加拿大等发达国家在水下无人机技术方面都有着较为成熟的应用和研究。

总体来说，国内的水下无人机技术发展还有很大的提升空间。未来，国内应该加强技术研发，扩大应用领域，促进水下无人机技术的创新和发展，为国家的海洋经济和国际海洋事务做出更大的贡献。随着技术的不断创新和应用场景的不断扩展，水下无人机将会越来越普及，成为人们开展海洋工作的重要工具之一。未来，水下无人机的发展将呈现以下几个趋势：高度智能化、多功能化、集成化。

第3章基于图像的强化学习AUV网箱巡检方法

3.1 背景知识

强化学习是机器学习领域的一个分支，主要研究如何让机器人在与环境的交互中，通过试错学习，从而实现最大化累积奖励的目标。在强化学习中，机器人需要自主进行学习和决策，而不是像监督学习那样从训练数据中直接学习规律。强化学习的核心思想是基于奖励机制，机器人通过与环境的交互，采取一系列的动作来获取环境反馈的奖励信号，然后根据这些奖励信号来调整策略，使得未来获取的奖励最大化。通常强化学习包含以下三个要素：状态（State）、动作（Action）和奖励（Reward）。强化学习多数使用马尔科夫决策过程(Markov Decision Process, MDP)定义机器人和环境的交互。

3.1.1 马尔可夫决策过程

马尔科夫决策过程是强化学习中常用的一种数学模型，用于描述智能体与环境交互的过程。具体来说，MDP包括一个状态集合，一个动作集合，一个状态转移概率函数和一个奖励函数。智能体根据当前状态选择一个动作，环境会转移到下一个状态并给出一个奖励。状态转移概率函数描述了环境从一个状态到另一个状态的转移概率，奖励函数则给出了智能体在某个状态下采取某个动作所获得的奖励。

第4章基于声学的强化学习AUV网箱巡检方法

4.1 巡检任务描述

如图4-1所示为养殖网箱模型，网箱巡检指的是通过控制AUV环绕网箱运行。AUV可搭载摄像头、水质检测仪等传感器实现对网箱的监测。使用侧扫声呐作为控制AUV运动的感知器，由于网箱具有空隙，导致感知数据不能真实反应水下机器人与网箱的关系。为简化问题，本文做以下两个假设：

（1）假设侧扫声呐不受任何噪声干扰。

（2）假设网箱上有环形带，使得声呐所获取的原始数据皆是关于AUV与网箱关系的有效信息。

4.2 网箱巡检问题的MDP形式化定义

本节给出网箱巡检任务的马尔可夫决策过程（Markov Decision Process，MDP）形式化表示，包括状态表示、动作表示、奖励函数设计和策略网络设计。网箱巡检任务即寻找一个累计奖励函数最大化的策略。流程图如图4-2所示。

4.2.1 状态及动作表示

侧扫声呐的侧扫范围为180°，每间隔1°记录一个感知数据，即侧扫声呐感知的原始数据为一个180维数据。但原始数据极为单一，不利于机器人学到有效控制策略。状态信息被设计为一个四元组(min, abs, v, ω)，其中min为180维数据中最小值，该数值能够反映出机器人与网箱的距离信息；abs为中轴线左10°、右10°数值差的绝对值，该绝对值能够反映出机器人与网箱之间的方向关系，选取中轴线的左右角度各为10°,因为在以往实验中发现这个角度中的声呐在规定的距离范围内，始终覆盖网箱；v为机器人当前的线速度；ω为机器人当前的角速度。

第5章总结与展望

本文旨在研究如何通过智能化技术解决海洋牧场中养殖网箱的巡检问题。在研究中，发现现有的巡检方法存在困难和不足，因此基于视觉技术和声学技术结合深度强化学习技术，提出了一种水下机器人自主巡检方法。本文采用的管线跟踪算法和基于声纳的方法具有高度的实时性和鲁棒性，能够快速定位网箱中的各个区域，并自主完成巡检任务。此外，本文的研究成果对智能化水产养殖的发展具有一定的现实意义，将有助于提高养殖效率和保障养殖的质量和安全。

(1)本研究基于一个面向网箱巡检任务的强化学习训练系统，在其基础上进行改进和扩展。该系统的优越性在于它可以模拟真实水下环境，并且具有一定的可扩展性。因此本研究通过该系统自定义和扩展，对水下养殖网箱环境以及巡检模式进行改进，从而实现对不同情景下的训练和评估。并在该系统中进行强化学习训练和性能评估，还可以用于控制算法测试。通过针对强化学习训练问题的优化，成功解决了现有方法中的困难。

(2)本文以连续动作空间的马尔可夫决策过程为基础，将海洋牧场养殖网箱巡检问题建模。摄像头获取的图像定义为状态，控制AUV的线速度和角速度定义为动作。针对多约束奖励函数设计问题，本文考虑了AUV偏移距离、偏转角度、运行速度等多种因素。并针对SAC算法利用原始图像训练陷入局部最优的问题，提出了在SAC中加入编码器对原始图像进行提取和重构。结果表明多约束奖励函数以及加入编码器更有利于AUV学习更优的巡检控制策略。

(3)本文在将网箱巡检问题建模为马尔可夫决策过程的同时，提出了利用声学技术完成巡检任务。将声纳获取的距离信息，经过提取、计算以及组合之后，定义为状态，将控制AUV的线速度和角速度定义为动作。在奖励函数设计问题中，考虑了最小距离、两边距离测量差、偏移距离等因素，设计了多约束奖励函数。并基于现实环境，对养殖网箱模型、以及巡检方式进行改进，使仿真巡检更贴近于真实情况。结果表明，所提出的方法能够引导AUV学到有效的巡检控制策略。利用训练得到的模型进行测试，得到的巡检轨迹连续并且稳定，能够完成巡检任务。

参考文献（略）

（本文摘自网络）

上一篇：融合强化学习机制的不平衡数据集成分类算法思考
下一篇：基于时空注意力的多模态轨迹预测方法思考

打印此文关闭窗口

热点论文

推荐论文

推荐问答

友情链接：　

免责声明：本网站部分资源、信息来源于网络，完全免费共享，仅供学习和研究使用，版权和著作权归原作者所有
如有不愿意被转载的情况，请通知我们删除已转载的信息。
联系方式：电子邮件:1053406363@qq.com 豫ICP备2023024751号-1