Phi-3-vision-128k-instruct开源镜像:支持国产昇腾/寒武纪平台适配指南

Phi-3-vision-128k-instruct开源镜像:支持国产昇腾/寒武纪平台适配指南

1. 模型简介

Phi-3-Vision-128K-Instruct是一个轻量级的多模态开源模型,支持128K超长上下文处理能力。该模型基于高质量文本和视觉数据训练,特别擅长图文对话任务。作为Phi-3模型家族成员,它经过监督微调和直接偏好优化,在指令遵循和安全性方面表现出色。

主要技术特点:

  • 支持图文多模态输入
  • 128K超长上下文处理
  • 轻量级架构设计
  • 强大的推理能力
  • 优化的安全机制

2. 环境准备与部署

2.1 硬件要求

本镜像适配国产昇腾(Ascend)和寒武纪(Cambricon)平台,建议配置:

  • 内存:32GB以上
  • 显存:16GB以上
  • 存储:50GB可用空间

2.2 部署验证

使用以下命令检查服务是否启动成功:

cat /root/workspace/llm.log 

成功部署后,日志将显示类似以下内容:

INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 

3. 模型调用方法

3.1 通过Chainlit前端调用

Chainlit提供了友好的Web界面与模型交互。启动后访问指定端口即可使用。

典型调用流程:

  1. 上传图片或输入文本
  2. 模型分析并生成响应
  3. 查看多轮对话结果

3.2 基础API调用

也可以通过REST API直接调用模型服务:

import requests url = "http://localhost:8000/v1/chat/completions" headers = {"Content-Type": "application/json"} data = { "model": "phi-3-vision-128k-instruct", "messages": [ {"role": "user", "content": "描述这张图片的内容"}, {"role": "user", "content": "图片base64编码数据"} ] } response = requests.post(url, headers=headers, json=data) print(response.json()) 

4. 使用示例

4.1 图片内容识别

上传图片后,可以询问关于图片内容的问题。例如:

图片中是什么? 

模型将准确识别并描述图片中的物体、场景等信息。

4.2 多轮图文对话

支持基于图片的连续问答,例如:

  1. 问:"图片中有几个人?"
  2. 问:"他们在做什么?"
  3. 问:"场景发生在什么时间?"

模型能保持上下文一致性,给出连贯回答。

5. 常见问题解决

5.1 服务启动失败

可能原因及解决方法:

  • 端口冲突:检查8000端口是否被占用
  • 内存不足:增加swap空间或物理内存
  • 模型加载失败:检查模型文件完整性

5.2 响应速度慢

优化建议:

  • 关闭不必要的后台进程
  • 确保硬件满足最低要求
  • 批量处理请求而非单条处理

6. 总结

Phi-3-Vision-128K-Instruct镜像为国产硬件平台提供了强大的多模态处理能力,特别适合:

  • 智能客服系统
  • 内容审核平台
  • 教育辅助工具
  • 智能办公应用

其轻量级设计和长上下文支持使其在资源受限环境下仍能保持优异性能。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

Jetson + OpenClaw + 飞书机器人:构建一个让边缘设备成为 AI Agent 助手的远程交互系统

Jetson + OpenClaw + 飞书机器人:构建一个让边缘设备成为 AI Agent 助手的远程交互系统

1. 背景 最近我希望在 Jetson 上部署一个本地 Openclaw,并通过飞书机器人进行远程交互,从而让闲置的边缘设备秒变我的高级AI助手。整体目标很简单: * 在 Jetson 上运行 OpenClaw * 接入自己的模型 API(我使用的是阿里的Coding Plan) * 通过飞书群聊 @机器人 或者私聊机器人直接调用本地 Agent 最终希望实现这样的工作流: Feishu Group ↓ Feishu Bot ↓ OpenClaw Gateway (Jetson) ↓ Agent ↓ LLM API ↓ 返回飞书消息 这篇文章记录一下从源码部署 OpenClaw,到接通飞书机器人的完整过程,以及过程中踩到的几个关键坑。 2. 环境信息 本文使用环境如下: Jetson 环境 uname -a # 输出 Linux agx229-desktop 5.10.216-tegra

具身智能与视觉:机器人如何“看懂”世界?

具身智能与视觉:机器人如何“看懂”世界?

具身智能与视觉:机器人如何“看懂”世界? * 前言 * 一、具身智能的奥秘探索 * 1.1 具身智能的深度剖析 * 1.2 具身智能的发展脉络梳理 * 二、视觉:机器人感知世界的 “慧眼” * 2.1 机器人视觉系统的架构解析 * 2.2 计算机视觉技术的关键支撑 * 三、机器人如何借助视觉 “看懂” 世界 * 3.1 视觉感知与环境理解 * 3.2 视觉引导下的决策与行动 * 3.3 视觉与其他传感器的融合 * 四、具身智能中视觉技术的挑战 * 4.1 复杂环境下的视觉鲁棒性 * 4.2 实时性与计算资源的平衡 * 4.3 语义理解与常识推理的欠缺 * 五、具身智能视觉技术的未来发展趋势 * 5.

后仿之SDF 反标Warning的描述和解决

在后仿中SDF的反标log中Error是必须要解决的,但是Warning有时候可能并不会影响到实际的内容,而是工具严格的检查得到的一些警告,因此可能就需要我们仔细的来甄别是否warning需要被解决;针对此,将平时看到的一些warning进行整理,帮助之后解决这些问题: 1. SDFCOM_UHICD:Up-hierarchy Interconnect Delay ignored      这个warning是指将hier间的delay放在device delay上体现,可以不用处理;对跨层次的端口标注INTERCONNECT delay时出现该warning,在层次铺平之后是不会有问题的。 2. SDFCOM_IWSBA:INTERCONNECT will still be annotated     也不用处理,delay实际上也是反标了。     vcs是无法识别assign语句代表的是单纯的连线还是作为一个device存在,所以当vcs检测到对assign语句反标INTERCONNECT delay时会报出该警告,但是依然会将INTERCONNECT delay标注。