编程导航(编程导航码神挑战)
>>
论文链接:
作者单位:悉尼科技大学
写在前面&Guide-LLM的出发点
导航对于视觉障碍者(PVI)来说是一项重大挑战。虽然传统的辅助工具如白手杖和导盲犬非常重要,但它们在提供详细的空间信息和精确的目的地引导方面仍显不足。最近,大型语言模型(LLMs)和视觉-语言模型(VLMs)的发展为增强辅助导航提供了新的途径。本文介绍了Guide-LLM,一种基于具身LLM的智能体,旨在帮助PVI在大型室内环境中导航。本文的方法采用了一种新颖的基于文本的拓扑地图,使LLM能够使用简化的环境表示规划全局路径,重点关注直线路径和直角转弯以便于导航。此外,本文利用LLM的常识推理进行危险检测和基于用户偏好的个性化路径规划。模拟实验表明,该系统在引导PVI方面的有效性,强调其作为辅助技术的重要进步的潜力。结果突显了Guide-LLM提供高效、适应性强和个性化导航辅助的能力,指向该领域的有希望的进展。
工作的主要贡献
引入一种新颖的具身LLM智能体框架以引导PVI:本文提出了Guide-LLM,一个创新框架,利用LLM作为具身智能体来协助PVI进行导航。
集成新颖的基于文本的拓扑地图和图像向量数据库:通过将基于文本的拓扑地图与图像向量数据库相结合,本文赋予LLM通过常识推理进行高层次规划的能力,从而减少对用户输入或详细指令的需求。• 模拟评估:本文通过模拟验证了本文方法的有效性,展示了其在引导PVI方面的能力。
Guide-LLM的设计思路
在日常环境中导航对于视觉障碍者(PVI)来说尤其具有挑战性,他们常常依赖专业工具、他人的帮助或熟悉的路线来出行。传统辅助工具如白手杖和导盲犬是导航的重要组成部分,但随着技术的发展,进一步的辅助手段有望改善用户的导航信心。
最近在人工智能领域的突破,特别是在大型语言模型(LLMs)和视觉-语言模型(VLMs)方面,为人机交互、任务规划和导航创造了新的机遇。尽管取得了这些进展,但在帮助视觉障碍者(PVI)导航方面的应用仍然未被充分探索。展示了将机器人平台与语言模型结合使用以协助PVI的潜力,提供了可实现的前景。然而,充分利用LLMs和VLMs的能力来引导PVI仍然在很大程度上未被探讨。
传统导航系统通常依赖于预编程规则和传感器数据,这可能忽视现实环境的细微差别和复杂性。相比之下,LLMs能够分析上下文信息并预测潜在危险,为导航提供更具适应性和响应性的解决方案。为PVI创建基于LLM和VLM的导航系统的一大挑战在于它们对用户精确、明确命令的依赖,这对于PVI而言可能相当困难。尽管使用点云的3D重建技术和传统方法如SLAM(同时定位与地图构建)有助于LLMs理解环境,但由于LLMs对这些密集地图的解释所需的高计算需求,其可扩展性受到限制。
为了解决这一挑战,本文提出了一种创新框架,利用环境的基于文本的拓扑地图(text-based topological map)。这使得LLM能够通过参考文本表示来规划全局路径,从而消除对用户明确输入的需求。这种方法在计算效率和可扩展性上优于依赖于密集地图或3D表示的每个用户查询的方法,因为后者可能导致延迟,使PVI不得不等待LLM处理这些复杂输入。此外,本文的基于文本的拓扑地图旨在满足PVI的特定需求,通过生成直线路径和直角转弯,使导航变得更为简单,帮助维持空间定向。这些清晰且可预测的路线减少了认知负担,使导航更加高效和安全,尤其是与曲线或不规则路径带来的挑战相比。
本文的框架还结合了图像检索系统用于定位,以及低级规划器以处理机器人运动,限制机器人的动作在可预测的模式内。将LLMs集成到导航中的一个重要优势是它们能够利用常识推理,这在增强安全性、个性化导航和动作可解释性方面具有潜力,而这些往往是传统导航系统所缺乏的。
图1. Guide-LLM:具身智能体由文本地图、LLM和导航模块组成,以引导用户到达目的地。
图2. Guide-LLM框架:LLM(绿色)作为中央控制器,利用常识推理来解释用户查询编程导航,并与各模块(黄色)进行交互以进行决策和导航任务。文本地图(绿色)提供环境的文本表示,用于路径规划模块创建路线规划。向量数据库1(蓝色)存储环境图像的静态嵌入,帮助实现一致的定位。向量数据库2(红色)存储可以根据智能体需求更新或删除的导航图像嵌入。
图3. 文本地图(左):文本地图的示意图,部分文本地图被提取。示例文本地图表示(中):用户要求智能体导航到电梯。Guide-LLM规划了一条路线(红线)并开始引导。在路线过程中,检测到危险(湿滑地面标志),Guide-LLM向用户发出警告并建议替代路径(绿线)。聊天框(右)显示了Guide-LLM与用户之间的示例沟通。
图4. 系统提示示例。
全局路径规划
图2展示了所提框架的整体过程。本文假设文本地图和向量数据库中的图像是预先标记的。该过程从LLM处理用户的查询和系统提示开始。随后,LLM生成高层次的规划、图像查询命令和用户响应。
如图2所示,每个输出都是单独传递,以便模块之间进行清晰的沟通。高层次的规划和用户响应通过语音转文本接口传递,而图像查询则从向量数据库中检索与导航相关的图像。这些图像随后被嵌入到一个二级向量数据库中,通过减少模糊性并确保仅检索相关图像,从而优化导航过程。
拓扑导航
智能体通过查询向量数据库来检索下一个节点的图像,以开始导航。该图像通过余弦相似度与当前观测进行比较,以实现定位。为提高地点识别的准确性,每当机器人行驶了一定距离或进行了转弯时,都会进行相似性检查。机器人通过低级规划器的里程计测量到下一个节点的距离,并在到达时向智能体发送消息。如果相似性得分超过预定义的阈值,LLM便会判断目标节点已到达,并生成下一组移动命令以继续。该过程一直持续,直到到达最终目的地。
利用LLM的常识和推理能力
本文的框架利用LLM的常识推理能力来提高导航安全性和决策能力。与依赖预定义规则的传统系统不同,该智能体能够解释动态的现实环境,以预测潜在风险。例如,如果智能体通过视觉数据或环境描述识别出危险,如湿滑地面、警告带或意外障碍物,它会主动警告用户并建议替代路线。LLM的推理能力使其能够检测潜在的危险,即使这些危险未被明确指出。这种灵活性使智能体能够适应规则基础系统可能无法应对的变化条件。通过整合常识知识,智能体增强了导航体验的安全性和整体可靠性。
Guide-LLM的实验验证:
表I. 不同配置下Guide-LLM导航的成功率。
表II. 定位错误检测与恢复的成功率。
表III. 危险检测性能。
总结
本文介绍了Guide-LLM,这是一种创新框架,利用大型语言模型(LLMs)和新颖的基于文本的拓扑地图来帮助视觉障碍者(PVI)在大型室内环境中导航。本文的系统成功展示了提供高效、适应性强和个性化导航的能力,显著减少了对详细用户指令的需求。未来的工作将专注于扩展系统的功能,包括自主探索和地图生成,以及应对实时挑战,如障碍物避免。在现实场景中对PVI进行测试将是未来工作的重点,以改善和完善该系统。这些进展将使本文更接近于提供全面的辅助解决方案编程导航,赋予PVI在复杂环境中更大的独立性和信心。
引用:
@misc{song2024guidellmembodiedllmagent,
title={Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments},
author={Sangmim Song and Sarath Kodagoda and Amal Gunatilake and Marc G. Carmichael and Karthick Thiyagarajan and Jodi Martin},
year={2024},
eprint={2410.20666},
archivePrefix={arXiv},
primaryClass={cs.RO},
url={https://arxiv.org/abs/2410.20666}, }
“具身智能之心”公众号持续推送具身智能领域热点:
【具身智能之心】技术交流群
具身智能之心是首个面向具身智能领域的开发者社区,聚焦大模型、机械臂、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
【具身智能之心】知识星球
具身智能之心知识星球是国内首个具身智能开发者社区,主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。扫码加入星球,享受以下专有服务:
1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;
文章评论(0)