阿里云的moltbot机器人使用钉钉的Stream流式接入

注意

  1. 这个不需要工作流
  2. 这个不需要开放外网

具体方法:

1.check代码https://github.com/DingTalk-Real-AI/dingtalk-moltbot-connector

2.package.json增加如下代码

"moltbot": { "extensions": ["./plugin.ts"], "channels": ["dingtalk-connector"], "installDependencies": true }

3.安装插件

moltbot plugins install dingtalk-moltbot-connector

4.增加钉钉配置~/.moltbot/moltbot.json;如果有了进行提花

{ "channels": { "dingtalk-connector": { "enabled": true, "clientId": "dingxxxxxxxxx", // 钉钉 AppKey "clientSecret": "your_secret_here", // 钉钉 AppSecret "gatewayToken": "", // 可选:Gateway 认证 token, opencode.json配置中 gateway.auth.token 的值 "gatewayPassword": "", // 可选:Gateway 认证 password(与 token 二选一) "sessionTimeout": 1800000 // 可选:会话超时(ms),默认 30 分钟 } }, "gateway": { // gateway通常是已有的节点,配置时注意把http部分追加到已有节点下 "http": { "endpoints": { "chatCompletions": { "enabled": true } } } } }

4.重启gateway

moltbot gateway restart

5.登录钉钉开发平台修改机器人配置

   切换成stream,关闭工作流

Read more

一文熟悉新版llama.cpp使用并本地部署LLAMA

一文熟悉新版llama.cpp使用并本地部署LLAMA

0. 简介 关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商,科创板上市,中国云计算第一股。 Compshare GPU算力平台隶属于UCloud,专注于提供高性价4090算力资源,配备独立IP,支持按时、按天、按月灵活计费,支持github、huggingface访问加速。 使用下方链接注册可获得20元算力金,免费体验10小时4090云算力 https://www.compshare.cn/?ytag=GPU_lovelyyoshino_LZEEKLOG_ZEEKLOG_display 最近是快到双十一了再给大家上点干货。去年我们写了一个大模型的系列,经过一年,大模型的发展已经日新月异。这一次我们来看一下使用llama.cpp这个项目,其主要解决的是推理过程中的性能问题。主要有两点优化: * llama.cpp 使用的是 C 语言写的机器学习张量库 ggml llama.cpp 提供了模型量化的工具 此项目的牛逼之处就是没有GPU也能跑LLaMA模型。llama.

SYCL并行计算揭秘:Intel GPU在llama.cpp中的性能突破

当传统CUDA生态遇到Intel GPU架构,一场关于异构计算的深度变革正在悄然发生。在Arch Linux平台上,SYCL后端为llama.cpp带来了全新的加速可能,实测显示在Intel Arc A770上,7B模型的推理速度相比CPU实现了21%-87%的性能提升。 【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 技术架构解析:SYCL如何重构GPU加速范式 SYCL(发音为"sickle")作为一种现代异构并行编程模型,其核心优势在于跨平台兼容性与内存管理智能化。与传统的OpenCL相比,SYCL通过基于C++17的单一源代码编程模式,实现了对Intel Xe架构GPU的深度优化。 内存统一管理机制 SYCL的最大创新在于其统一共享内存(

Llama Factory微调优化:如何选择最佳的超参数

Llama Factory微调优化:如何选择最佳的超参数 微调大语言模型(LLM)是让模型适应特定任务的关键步骤,而选择合适的超参数往往决定了微调效果的好坏。作为一名刚接触Llama模型微调的研究人员,面对众多超参数选项时可能会感到无从下手。本文将基于LLaMA-Factory框架,分享如何选择最佳超参数的实用指南,帮助你在有限资源下获得更好的微调效果。 这类任务通常需要GPU环境支持,目前ZEEKLOG算力平台提供了包含LLaMA-Factory的预置镜像,可快速部署验证。下面我们将从关键参数解析、显存优化策略到典型配置方案,一步步拆解超参数选择的奥秘。 关键超参数解析与作用 1. 学习率(Learning Rate) * 作用:控制模型参数更新的步长,是最重要的超参数之一 * 典型范围: * 全参数微调:1e-5到5e-5 * LoRA微调:1e-4到5e-4 * 调整建议: * 初始可设为3e-5(全参)或3e-4(LoRA) * 观察loss曲线,如果震荡剧烈则降低学习率 2. 批量大小(Batch Size) * 显存影响:与显存消耗成正比关系

VibeVoice Pro多模态扩展教程:与Whisper+Llama3构建语音交互链

VibeVoice Pro多模态扩展教程:与Whisper+Llama3构建语音交互链 1. 引言:从语音生成到语音交互的跨越 想象一下这样的场景:你对着设备说话,它不仅能听懂你的意思,还能用自然的人声回应你,整个过程流畅得就像和真人对话一样。这就是我们要实现的语音交互链——将语音识别、语言理解和语音合成三个环节完美衔接。 VibeVoice Pro作为这个链条的最后一环,承担着将文本转换为自然语音的关键任务。与其他语音合成工具不同,它的核心优势在于实时流式处理能力。传统TTS需要等待整段文本生成完毕才能播放,而VibeVoice Pro实现了音素级别的流式输出,首包延迟低至300毫秒,让交互体验更加自然。 本教程将带你一步步搭建完整的语音交互系统,让你快速掌握多模态AI应用的开发技巧。 2. 环境准备与组件部署 2.1 硬件与基础环境要求 在开始之前,请确保你的系统满足以下要求: * GPU配置:NVIDIA RTX 3090/4090或同等级别显卡 * 显存需求:最低8GB,推荐12GB以上以确保流畅运行 * 系统环境:Ubuntu 20.04+或兼容的L