阿里云的moltbot机器人使用钉钉的Stream流式接入

优质文章学习记录

07 Apr 2026 — 1 min read

注意

这个不需要工作流
这个不需要开放外网

具体方法：

1.check代码https://github.com/DingTalk-Real-AI/dingtalk-moltbot-connector

2.package.json增加如下代码

"moltbot": { "extensions": ["./plugin.ts"], "channels": ["dingtalk-connector"], "installDependencies": true }

3.安装插件

moltbot plugins install dingtalk-moltbot-connector

4.增加钉钉配置~/.moltbot/moltbot.json；如果有了进行提花

{ "channels": { "dingtalk-connector": { "enabled": true, "clientId": "dingxxxxxxxxx", // 钉钉 AppKey "clientSecret": "your_secret_here", // 钉钉 AppSecret "gatewayToken": "", // 可选：Gateway 认证 token, opencode.json配置中 gateway.auth.token 的值 "gatewayPassword": "", // 可选：Gateway 认证 password（与 token 二选一） "sessionTimeout": 1800000 // 可选：会话超时(ms)，默认 30 分钟 } }, "gateway": { // gateway通常是已有的节点，配置时注意把http部分追加到已有节点下 "http": { "endpoints": { "chatCompletions": { "enabled": true } } } } }

4.重启gateway

moltbot gateway restart

5.登录钉钉开发平台修改机器人配置

切换成stream，关闭工作流

Read more

一文熟悉新版llama.cpp使用并本地部署LLAMA

一文熟悉新版llama.cpp使用并本地部署LLAMA

0. 简介关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商，科创板上市，中国云计算第一股。 Compshare GPU算力平台隶属于UCloud，专注于提供高性价4090算力资源，配备独立IP，支持按时、按天、按月灵活计费，支持github、huggingface访问加速。使用下方链接注册可获得20元算力金，免费体验10小时4090云算力 https://www.compshare.cn/?ytag=GPU_lovelyyoshino_LZEEKLOG_ZEEKLOG_display 最近是快到双十一了再给大家上点干货。去年我们写了一个大模型的系列，经过一年，大模型的发展已经日新月异。这一次我们来看一下使用llama.cpp这个项目，其主要解决的是推理过程中的性能问题。主要有两点优化： * llama.cpp 使用的是 C 语言写的机器学习张量库 ggml llama.cpp 提供了模型量化的工具此项目的牛逼之处就是没有GPU也能跑LLaMA模型。llama.

SYCL并行计算揭秘：Intel GPU在llama.cpp中的性能突破

当传统CUDA生态遇到Intel GPU架构，一场关于异构计算的深度变革正在悄然发生。在Arch Linux平台上，SYCL后端为llama.cpp带来了全新的加速可能，实测显示在Intel Arc A770上，7B模型的推理速度相比CPU实现了21%-87%的性能提升。【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 技术架构解析：SYCL如何重构GPU加速范式 SYCL（发音为"sickle"）作为一种现代异构并行编程模型，其核心优势在于跨平台兼容性与内存管理智能化。与传统的OpenCL相比，SYCL通过基于C++17的单一源代码编程模式，实现了对Intel Xe架构GPU的深度优化。内存统一管理机制 SYCL的最大创新在于其统一共享内存（

Llama Factory微调优化：如何选择最佳的超参数

Llama Factory微调优化：如何选择最佳的超参数微调大语言模型（LLM）是让模型适应特定任务的关键步骤，而选择合适的超参数往往决定了微调效果的好坏。作为一名刚接触Llama模型微调的研究人员，面对众多超参数选项时可能会感到无从下手。本文将基于LLaMA-Factory框架，分享如何选择最佳超参数的实用指南，帮助你在有限资源下获得更好的微调效果。这类任务通常需要GPU环境支持，目前ZEEKLOG算力平台提供了包含LLaMA-Factory的预置镜像，可快速部署验证。下面我们将从关键参数解析、显存优化策略到典型配置方案，一步步拆解超参数选择的奥秘。关键超参数解析与作用 1. 学习率（Learning Rate） * 作用：控制模型参数更新的步长，是最重要的超参数之一 * 典型范围： * 全参数微调：1e-5到5e-5 * LoRA微调：1e-4到5e-4 * 调整建议： * 初始可设为3e-5（全参）或3e-4（LoRA） * 观察loss曲线，如果震荡剧烈则降低学习率 2. 批量大小（Batch Size） * 显存影响：与显存消耗成正比关系

VibeVoice Pro多模态扩展教程：与Whisper+Llama3构建语音交互链

VibeVoice Pro多模态扩展教程：与Whisper+Llama3构建语音交互链 1. 引言：从语音生成到语音交互的跨越想象一下这样的场景：你对着设备说话，它不仅能听懂你的意思，还能用自然的人声回应你，整个过程流畅得就像和真人对话一样。这就是我们要实现的语音交互链——将语音识别、语言理解和语音合成三个环节完美衔接。 VibeVoice Pro作为这个链条的最后一环，承担着将文本转换为自然语音的关键任务。与其他语音合成工具不同，它的核心优势在于实时流式处理能力。传统TTS需要等待整段文本生成完毕才能播放，而VibeVoice Pro实现了音素级别的流式输出，首包延迟低至300毫秒，让交互体验更加自然。本教程将带你一步步搭建完整的语音交互系统，让你快速掌握多模态AI应用的开发技巧。 2. 环境准备与组件部署 2.1 硬件与基础环境要求在开始之前，请确保你的系统满足以下要求： * GPU配置：NVIDIA RTX 3090/4090或同等级别显卡 * 显存需求：最低8GB，推荐12GB以上以确保流畅运行 * 系统环境：Ubuntu 20.04+或兼容的L