【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究

【TextIn大模型加速器 + 火山引擎】赋能机器人行业分析与VLA研究

目录

一、TextIn大模型加速器

随着大模型技术的快速发展,大量结构化数据需求日益增大,但网络上绝大多数数据都是非结构化的。在大模型处理过程中,数据前处理阶段的结构化程度,对后续阶段的语义理解与逻辑推理能力有着极大地决定作用。

TextIn解析引擎正从应用工具演变为研究基础设施,不仅加速了大模型在文档智能领域的研究进展,更重要的是,它通过提供真实、复杂、多样化的文档处理场景,推动了大模型在多模态理解、复杂推理和专业领域应用等方面的根本性突破。

在这里插入图片描述

核心优势

  • 支持任意复杂布局:将任意版式的文档拆解为语义完整的段落,并按阅读顺序还原,更加适配大模型。
  • 多元素高精度解析:准确提取标题、公式、图表、手写体、印章、跨页段落、页眉页脚、表单字段等各种元素,同时具备行业领先的表格识别能力,轻松解决合并单元格、跨页表格、无线表格等识别难题。
  • 强大的语义理解和上下文感知:捕捉更多版面元素间的语义关系,让大模型更加读懂一份文档。
  • 强大的预处理工具:无缝集成TextIn平台中的图像处理能力,文档带水印、图片有弯曲、模糊,都能搞定。
  • 高精度坐标还原:JSON结果包含高精度的页面、元素、字符级坐标数据,方便人工复核。
  • 极简、智能、灵活的语义抽取:xParse提供prompt模式和Schema模式两种抽取规则定制,帮助您根据业务需要实现更灵活的文档信息精准提取。
  • 开发者友好:提供清晰的API文档和灵活的集成方式,支持FastGPT、Coze、CherryStudio等主流平台。

在体验TextIn xParse的过程中,使用它作为大模型输入端的前处理插件,对文档作结构化处理,并以markdown 和 JSON 的形式输出给后续的大模型,结合火山引擎探索了其在机器人行业报告分析与在VLA研究中的使用。

二、行业报告分析与发展建议

首先是一个比较简单的文档解析工作流,主要是根据提示词对给定文档作定向解析,并根据文档内容给出知道建议。

2.1 场景描述

信息碎片化时代,精准搜索有效信息并梳理总结成为了一件困难的事情,经常大部分时间都花在整理信息上。找到的文献、报告等大多数篇幅很长,人工梳理耗时耗力,有些读下来不是想要的又浪费时间。

所以借助 Coze + TextIn 搭建了一个行业报告分析与发展建议工作流,流程泳道图如下:

在这里插入图片描述

2.2 工作流逻辑编排

由于ParseX插件的加持,整个工作流只需要4个节点即可实现该功能:

在这里插入图片描述

其中,ParseX节点必要输入为文件路径,app_id和secret_code为TextIn的开发者信息与密钥。

这一步,ParseX作为文档解析预处理引擎,对文档内容进行标准化、增强、优化中间表示,结构识别与标记,并进行内容提取与初分类。针对下一步的大模型处理,降低了大模型的计算负担,提升了大模型的准确性。基本理念就是:让大模型专注于它最擅长的语义理解和推理任务,而将繁琐的、模式化的预处理工作交给专门优化的工具完成。

在这里插入图片描述

app_id和secret_code对应TextIn工作台页面的x-ti-app-id和x-ti-secret-code。

在这里插入图片描述

大模型选择 豆包·1.6·lite·251015 ,比较轻量化,对于简单任务,不追求速度的话,还是满足的。主要是其他模型消耗的tokens太多了,哈哈。

大模型的输入选择ParseX节点的markdown输出,进行下一步的内容解析。

在这里插入图片描述

值得注意的是,ParseX节点不仅有markdown输出,还有更丰富的其他信息。这里只是简单的文档内容解析,对于其他更加复杂的任务,ParseX给出了更加精细的文档信息输出。

在这里插入图片描述

2.3 大模型提示词

通过提示词,限定大模型对文档内容的解析方向并给出定制输出。

在这里插入图片描述

2.4 结果展示

基于具身智能的智慧工厂创新应用白皮书(2025)(31页)

31页文档,ParseX处理耗时 6s

在这里插入图片描述

具身智能复合移动机器人产业发展蓝皮书(2025)(72页)

72页文档,ParseX处理耗时 14s

在这里插入图片描述

2025人工智能发展白皮书(144页)

144页文档,ParseX处理耗时 36s

在这里插入图片描述

三、ParseX结合Coze API控制本地机器人

TextIn大模型加速器+火山引擎,只能做文档分析吗?

不,能做的还很多,比如可以将意图通过语音或文档的形式输入给云端智能体,通过提示词或更专业的知识库限定智能体的解析方向与输出,打造一个机器人任务规划专家,实现一个从 Language 到 Action 的端到端服务。

3.1 场景描述

目前机器人任务规划通常是平台端处理,交互基本是在平台端的UI界面按照给定的格式填写任务配置。

然而,对于生活场景来说,最理想的人机交互方式是自然语言交互,所以借助这次体验,做了一个简单的从自然语言到动作的demo。流程泳道图如下:

在这里插入图片描述

3.2 工作流逻辑编排

该demo实现解析一段导航指令描述,将预言描述转换为机器人可以理解的json格式动作集。当然不仅仅是导航,也可以实现其他执行器的控制,这里仅以导航为例。

由于需要理解地图信息包括图片,这里介入了图片理解插件。任务描述通过ParseX解析后,和地图一起传给imgUnderstand节点进行处理,后续传给大模型进行进一步的语义与意图解析并生成动作集。

在这里插入图片描述

3.3 大模型提示词

通过提示词,限定大模型对任务描述的解析方向并给出定制输出。

在这里插入图片描述

完整提示词:

# 角色:{#InputSlot placeholder="角色名称" mode="input"#}机器人任务规划专家{#/InputSlot#} {#InputSlot placeholder="角色概述和主要职责的一句话描述" mode="input"#}主要职责为将任务描述分解为机器人可执行的原子动作序列。{#/InputSlot#} ## 目标: {#InputSlot placeholder="角色的工作目标,如果有多目标可以分点列出,但建议更聚焦1-2个目标" mode="input"#}分析机器人行业技术动向,预测机器人行业发展方向。{#/InputSlot#} ## 技能: 1. {#InputSlot placeholder="为了实现目标,角色需要具备的技能1" mode="input"#}多模态任务理解与解析{#/InputSlot#} 2. {#InputSlot placeholder="为了实现目标,角色需要具备的技能2" mode="input"#}分层任务分解与规划{#/InputSlot#} 3. {#InputSlot placeholder="为了实现目标,角色需要具备的技能3" mode="input"#}资源感知与优化调度{#/InputSlot#} 4. {#InputSlot placeholder="为了实现目标,角色需要具备的技能4" mode="input"#}鲁棒执行与异常处理{#/InputSlot#} ## 工作流: 1. {#InputSlot placeholder="描述角色工作流程的第一步" mode="input"#}分析{{input}}任务的核心目标与约束条件{#/InputSlot#} 2. {#InputSlot placeholder="描述角色工作流程的第二步" mode="input"#}结合{{input}}与{{map}}地图,建立坐标系,单位:m,度{#/InputSlot#} 3. {#InputSlot placeholder="描述角色工作流程的第三步" mode="input"#}结合{{input}}与{{map}}按逻辑顺序分解步骤{#/InputSlot#} 4. {#InputSlot placeholder="描述角色工作流程的第四步" mode="input"#}为每一步分配合适的原子动作{#/InputSlot#} 5. {#InputSlot placeholder="描述角色工作流程的第五步" mode="input"#}考虑异常处理(如物体未找到){#/InputSlot#} ## 输出格式: {#InputSlot placeholder="如果对角色的输出格式有特定要求,可以在这里强调并举例说明想要的输出格式" mode="input"#}{ "plan_id": "{{任务唯一标识}}", "plan": [ { "step": {{步骤序号}}, "action": "{{动作类型}}", "action_id": "{{步骤唯一ID}}", "parameters": {{动作参数对象}}, "pre_conditions": [ { "type": "{{条件类型}}", "key": "{{状态键名}}"?, "value": {{期望值}}?, "operator": "{{比较符}}"?, "tolerance": {{容差}}?, "min_confidence": {{置信度}}? } ], "post_conditions": [...], // 结构同pre_conditions "estimated_duration": {{预估秒数}}, "retry_policy": { "max_attempts": {{最大尝试次数}}, "retry_delay": {{重试延迟秒数}}?, "on_failure": "{{备用动作ID}}"? // 引用fallback_actions中的键 } } // ... 更多步骤 ] } 其中,parameters` 对象的内容因 `action` 而异。以下是常见动作的参数模板: navigate_to(导航) { "waypoint_id": "string", // 【必需】预定义路点ID "coordinate": { // 【必需】路点坐标,与waypoint_id互补说明,单位:m,度 "x": "number", "y": "number", "z": "number", "theta": "number" }, "speed_limit": "number" // 【可选】速度限制,单位 m/s } confirm_position(确认位置) { "waypoint_id": "string", // 【必需】预定义路点ID "coordinate": { // 【必需】路点坐标,与waypoint_id互补说明,单位:m,度 "x": "number", "y": "number", "z": "number", "theta": "number" } } scan_area(扫描) { "scan_area_id": "string", // 【必需】预定义扫描区域ID "target_object_class": ["string"], // 【可选】目标物体类型列表 "scan_mode": "string", // 【可选】扫描模式,如 “NORMAL”, “DEEP” "timeout": "integer" // 【可选】超时时间,单位:秒 } grasp(抓取) { "object_id": "string", // 【必需】目标物体ID "grasp_pose": { // 【可选】抓取位姿 "x": "number", "y": "number", "z": "number", "roll": "number", "pitch": "number", "yaw": "number" }, "force_limit": "number" // 【可选】抓取力限制,单位:N } wait(等待) { "duration": "integer" // 【必需】等待时长,单位:秒 } {#/InputSlot#} ## 限制: - {#InputSlot placeholder="描述角色在互动过程中需要遵循的限制条件1" mode="input"#}原子动作库 1. navigate_to(location): 导航到地图坐标系中的指定位置(如 `仓库-A区-货架3`)。 2. grasp(object, quantity): 使用机械臂抓取指定类别和数量的物体(如 `红色螺丝`, `2盒`)。 3. place(object, location): 将抓取的物体放置到指定位置。 4. scan_area(area): 使用视觉传感器扫描指定区域,识别和定位目标物体。 5. confirm_position(): 通过地标或传感器确认已精确到达目标位置。 6. wait(duration): 等待指定秒数,用于避让或同步。{#/InputSlot#} - {#InputSlot placeholder="描述角色在互动过程中需要遵循的限制条件2" mode="input"#}地图yaml文件基本参数详解 image: my_map.png 作用:指定地图图像文件 说明: my_map.png 是实际的地图图像文件(png格式) 每个像素表示该位置是障碍物还是自由空间 mode: trinary 作用:指定地图的占用值解释模式 可选值: trinary(默认):三值模式 像素值 0-196:自由空间(白色) 像素值 197-252:未知区域(灰色) 像素值 253-255:障碍物(黑色) scale:缩放模式 像素值线性映射到占用概率 raw:原始模式 直接使用像素值作为占用概率 Nav2 推荐使用:trinary resolution: 0.050 作用:地图分辨率(米/像素) 说明: 0.050 表示每个像素代表现实世界的 0.05 米(5厘米) 这是地图的比例尺 计算示例: 100像素 × 0.05米/像素 = 5米 地图尺寸为 400×400 像素时: 宽度:400 × 0.05 = 20米 高度:400 × 0.05 = 20米 origin: [-0.966, -2.069, 0] 作用:地图左下角在世界坐标系中的位置 格式:[x, y, yaw] 说明: -0.966:地图左下角的 X 坐标(米) -2.069:地图左下角的 Y 坐标(米) 0:地图的旋转角度(弧度),通常为 0 重要: 这是地图坐标系到世界坐标系的变换 图像像素 (0,0) 对应世界坐标 (origin_x, origin_y) 图像像素 (width,height) 对应世界坐标 (origin_x+widthresolution, origin_y+heightresolution) negate: 0 作用:是否反转图像的黑白意义 可选值: 0:不反转(默认) 黑色像素 = 障碍物 白色像素 = 自由空间 1:反转 黑色像素 = 自由空间 白色像素 = 障碍物 通常设置:0(保持原样) occupied_thresh: 0.65 作用:判断为障碍物的阈值 范围:0.0 到 1.0 说明: 像素值 > 0.65(65%)被认为是障碍物 在 trinary 模式下: 像素值 253-255(99.2%-100%)> 0.65,所以是障碍物 调整建议: 值调高(如 0.8):更严格,减少误判为障碍物 值调低(如 0.5):更宽松,更多区域被认为是障碍物 free_thresh: 0.196 作用:判断为自由空间的阈值 范围:0.0 到 1.0 说明: 像素值 < 0.196(19.6%)被认为是自由空间 在 trinary 模式下: 像素值 0-196(0%-76.9%)< 0.196,所以是自由空间 注意:必须小于 occupied_thresh {#/InputSlot#} 

3.4 地图与任务描述

使用 tb3_simulation 的环境,需要提前自己建好图,运行导航仿真环境:

ros2 launch nav2_bringup tb3_simulation_launch.py slam:=False map:=my_map.yaml 

启动环境并初始化定位后,如下图:

在这里插入图片描述

示例任务指定机器人行走到地图的右上角区域,描述如下,保存到 command.txt 文件中:

地图格式说明: image: my_map.png mode: trinary resolution: 0.025 origin: [-0.966, -2.069, 0] negate: 0 occupied_thresh: 0.65 free_thresh: 0.196 任务说明: 1.走到地图右上角的区域,停留5s 

地图如下,保存到 my_map.png 中,

这里注意,本来地图格式为 my_map.pgm,但Coze的大模型不支持 .pgm 格式,所以妥协了一下,但转换时需要注意不要改变位深度,不好会损失精度。

在这里插入图片描述

3.5 本地调用

Coze提供了本地调用API,详见:https://www.coze.cn/open/playground

该工作流python调用示例如下:

""" This example describes how to use the workflow interface to chat. """import sys import json import parse_plan # Our official coze sdk for Python [cozepy](https://github.com/coze-dev/coze-py)from cozepy import COZE_CN_BASE_URL # Get an access_token through personal access token or oauth. coze_api_token ='cztei_xxxxxxxxxxxxxxxxxxxxxxxx'# The default access is api.coze.com, but if you need to access api.coze.cn,# please use base_url to configure the api endpoint to access coze_api_base = COZE_CN_BASE_URL from cozepy import Coze, TokenAuth, Message, ChatStatus, MessageContentType # noqadefword_to_action():# Init the Coze client through the access_token. coze = Coze(auth=TokenAuth(token=coze_api_token), base_url=coze_api_base)# Create a workflow instance in Coze, copy the last number from the web link as the workflow's ID. workflow_id ='xxxxxxxxxxxxxxxxx'iflen(sys.argv)<2: sys.exit(1) command_path = sys.argv[1]print(f"uploading command file: {command_path}") command = coze.files.upload(file=command_path)print(f"uploaded command file: {command.file_name}\n {command}") map_path = sys.argv[2]print(f"uploading command file: {map_path}") world_map = coze.files.upload(file=map_path)print(f"uploaded command file: {world_map.file_name}\n {world_map}") parameters ={"input":{"file_id": command.id},"map":{"file_id": world_map.id},}# Call the coze.workflows.runs.create method to create a workflow run. The create method# is a non-streaming chat and will return a WorkflowRunResult class. workflow = coze.workflows.runs.create( workflow_id=workflow_id, parameters=parameters ) action = json.loads(json.loads(workflow.data)['output'])print("action: ", action)return action if __name__ =="__main__": parse_plan.parse_action(word_to_action())

3.6 结果展示

运行脚本后,云端返回规划好的动作集,本地解析后发给机器人执行器:

在这里插入图片描述

Read more

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

文章目录 * 前言 * 一、什么是 Claude Code? * 1.1 定义与定位 * 1.2 技术优势 * 二、安装前的环境准备 * 2.1 系统要求 * 2.2 前置依赖 * 三、Claude Code 全平台安装教程 * 3.1 安装方式对比 * 3.2 Windows 系统安装 * 3.3 macOS 系统安装 * 3.5 安装后初始化 * 四、配置与优化 * 4.1 配置文件位置 * 4.2 跳过新手引导 * 4.3 接入国产大模型(免翻墙方案)

生物细胞学在AI时代下的最新进展(2026版)

生物细胞学在AI时代下的最新进展(2026版)

从“看细胞”到“预测细胞”,人工智能正在怎样改写细胞生物学? 过去几年,人工智能在生命科学中最出圈的应用,往往集中在蛋白质结构预测、分子设计和药物筛选上。AlphaFold让人们第一次如此直观地感受到:原来一个看似极度复杂的生物问题,真的可能被大规模数据、模型架构和计算能力共同推进到“范式改变”的节点。可如果把视角从蛋白质拉回实验室,从分子层面的结构预测,回到细胞生物学研究者每天面对的培养箱、显微镜、图像、单细胞测序矩阵和反复调参的分析脚本,你会发现另一场同样深刻、却更贴近日常科研的变化,也已经开始发生。(Nature) 这场变化的核心,不只是“AI 让分析更快”。更准确地说,AI正在把细胞生物学中的许多传统环节,从“依赖人工经验、低通量、强主观”的工作方式,改造成“高维、可重复、可批量、可预测”的数据流程。过去,研究者常常用显微镜“看见”细胞;现在,越来越多的工作开始让模型去“读懂”细胞。

Kubernetes与边缘AI最佳实践

Kubernetes与边缘AI最佳实践 1. 边缘AI核心概念 1.1 什么是边缘AI 边缘AI是指在边缘设备上运行AI模型,而不是在云端数据中心。边缘AI可以减少延迟、节省带宽、保护隐私,并在网络连接不稳定时保持服务可用性。 1.2 边缘AI的优势 * 低延迟:数据不需要传输到云端,响应时间更短 * 带宽节省:减少数据传输,降低网络成本 * 隐私保护:敏感数据在本地处理,不离开设备 * 离线运行:在网络连接中断时仍能正常工作 * 分布式计算:充分利用边缘设备的计算资源 2. 边缘Kubernetes集群搭建 2.1 边缘节点配置 边缘节点要求 * 硬件:至少2GB RAM,2核CPU,10GB存储空间 * 网络:稳定的网络连接 * 操作系统:支持Docker的Linux发行版 安装Docker和kubeadm # 安装Docker apt-get update apt-get install -y

从0到1:AI Coding新手入门全攻略

从0到1:AI Coding新手入门全攻略

目录 一、AI Coding 是什么 二、为什么要学习 AI Coding (一)提升效率 (二)降低门槛 (三)紧跟技术趋势 三、准备工作 (一)选择合适的 AI Coding 工具 (二)安装与配置 (三)基础知识储备 四、学习过程 (一)基础语法学习 (二)项目实践 (三)解决常见问题 五、高级技巧与优化 (一)提示词优化 (二)与其他工具协作 (三)持续学习与提升 六、总结与展望 一、AI Coding 是什么 AI Coding,