第一部分:机器人的完整系统架构(由底向上)
我们可以把一个智能机器人系统想象成一个'人体',从物理接触世界的大脑,分为以下几个层次:
- 最底层:硬件平台与执行机构
- 内容:电机、舵机、减速器、各种传感器(激光雷达、深度相机、IMU 惯性测量单元、编码器)、机械臂本体、移动底盘。
- 切入点:作为软件工程师,不需要从设计电路板或电机开始。你需要了解它们的特性和接口(例如,电机是 CANopen 协议还是 EtherCAT 协议),知道它们能干什么、精度如何、频率多快。这部分是'身体',是算法的最终作用对象。
- 第二层:实时操作系统与硬件抽象
- 内容:这层负责直接和硬件打交道,处理最底层的控制指令和传感器数据读取。通常运行在实时操作系统上以确保低延迟。
- 你的已知点:ROS(机器人操作系统)就在这里。但 ROS 本身不是真正的操作系统,它是一套分布式通信框架。更准确地说,是 ROS 2,它基于 DDS(数据分发服务),解决了 ROS 1 的实时性问题。它负责将底层的硬件功能包装成一个个独立的'节点',方便上层调用。
- 理解:这层就像是'小脑和脊髓',负责身体的协调和反射。你需要懂 ROS 2 的通信机制(Topic, Service, Action),这是你驾驭整个系统的'神经'。
- 第三层:核心功能与算法模块
- 这是机器人'大脑'的各个功能区,也是你作为 AI 工程师当前应该重点关注和切入的地方。它可以细分为几个关键部分:
- 感知:处理传感器数据,让机器人理解世界。
- 计算机视觉:目标检测、语义分割、三维重建(使用深度相机或激光雷达)。
- 状态估计:通过卡尔曼滤波等算法,融合 IMU、轮速计、视觉等信息,判断自己'我在哪'。
- 定位与建图:主要针对移动机器人。
- SLAM(即时定位与地图构建):在未知环境中,一边建图一边定位。有激光 SLAM 和视觉 SLAM。
- 规划:让机器人决定'怎么去'。
- 路径规划:从 A 点到 B 点怎么走(全局规划),以及途中如何躲避突然出现的障碍物(局部规划)。
- 轨迹规划:针对机械臂,规划出一条平滑、无碰撞的运动轨迹,包括位置、速度和加速度。
- 控制:将规划好的指令转化为具体的电机力矩或速度指令。
- 经典控制理论:PID 控制器是最基础的。
- 现代控制理论:模型预测控制,能做到更精准、更具预见性的控制。
- 感知:处理传感器数据,让机器人理解世界。
- 这是机器人'大脑'的各个功能区,也是你作为 AI 工程师当前应该重点关注和切入的地方。它可以细分为几个关键部分:
- 最高层:认知、决策与人机交互
- 内容:这是机器人'大脑皮层'的功能。它接收来自第三层的感知信息,结合任务目标,做出高层决策。
- 强项:AI 在这里大放异彩。
- 任务规划:把'给我倒杯水'这个任务,分解成'导航到饮水机 -> 识别杯子 -> 控制机械臂接水 -> 导航回来'等一系列子任务。
- 大语言模型结合:让机器人理解复杂的自然语言指令,并能与环境进行交互。
- 多模态感知与理解:融合视觉、语音、触觉等信息,理解场景和意图。
第二部分:最有前景、最具迁移性的核心是什么?
结合大部分同学的背景(AI + C++)和未来趋势,我认为最值得你切入的,是第三层和第四层的交汇处:即'数据驱动的机器人操作与决策算法'。
为什么是这里?
- 最具前景(未来 5-10 年):

