微软 Copilot Cowork 深度解析：用 Kotlin + 147API 手搓一个 AI Agent

优质文章学习记录

06 Apr 2026 — 3 min read

微软最近发布的 Copilot Cowork 在技术圈炸开了锅。它变了。它不再是那个只会补全代码的插件，而是变成了你的 “Coworker”（同事）。基于 Anthropic 的 Claude 构建，它现在能像真人一样处理复杂任务。

作为开发者，我们不仅要会用，更要懂得背后的原理。今天我们就来拆解一下 Copilot Cowork 的核心逻辑，并教你如何利用 Kotlin 和 147API 构建一个属于自己的简易 AI Agent。

从 Chatbot 到 Agent

传统的 Copilot 就像一个实习生，你给它一个指令，它执行一个动作。而 Copilot Cowork 更像是一个成熟的合作伙伴。它具备了 感知（Perception）、规划（Planning） 和 执行（Execution） 的完整闭环。

感知：读取邮件、文档、代码仓库。
规划：拆解任务，决定先做什么后做什么。
执行：调用工具，生成内容，发送反馈。

这种能力的背后，是大模型的进化。微软这次选择了 Claude，看中的就是它在长文本处理和逻辑推理上的优势。

实战：用 Kotlin 手搓一个 AI Agent

Copilot Cowork 是闭源的，但我们可以利用大模型 API 来模拟它的工作流。为了保证调用的稳定性和成本控制，我推荐使用 147API。

为什么选择 147API？

构建 Agent 需要频繁调用大模型进行推理。147API 是我目前的首选：

接口兼容：你可以直接使用标准的 OpenAI SDK，迁移成本几乎为零。
模型全：不仅支持 GPT-5.4，还支持 Claude 4.6 Sonnet（Copilot Cowork 同款核心），让你在同一个接口下体验不同模型的优势。
专线优化：Agent 的运行依赖于多次连续的 API 调用，任何一次失败都可能导致任务中断。147API 的专线优化能有效保障复杂任务链的执行。

代码实现

下面是一个简单的 Kotlin 示例，展示如何通过 147API 调用 Claude 模型来模拟一个简单的任务规划 Agent。

import okhttp3.MediaType.Companion.toMediaType import okhttp3.OkHttpClient import okhttp3.Request import okhttp3.RequestBody.Companion.toRequestBody import org.json.JSONObject import java.util.concurrent.TimeUnit // 配置 147APIconstval API_KEY ="sk-xxxxxxxxxxxxxxxxxxxxxxxx"// 替换为你的 147API Keyconstval BASE_URL ="https://api.147api.com/v1/chat/completions"// 147API 地址val client = OkHttpClient.Builder().connectTimeout(60, TimeUnit.SECONDS).readTimeout(60, TimeUnit.SECONDS).build()funmain(){val task ="帮我分析一下项目代码，并写一份重构计划"println("收到任务: $task")// 模拟 Agent 的思考过程val plan =think(task)println("Agent 规划如下:\n$plan")}funthink(task: String): String {val prompt =""" 你是一个高级软件工程师 Agent。请针对以下任务制定详细的执行步骤： 任务：$task 请以 JSON 格式输出步骤列表。 """.trimIndent()val jsonBody =JSONObject().apply{put("model","claude-3-5-sonnet-20240620")// 使用 Copilot Cowork 同款模型put("messages", org.json.JSONArray().put(JSONObject().apply{put("role","user")put("content", prompt)}))}.toString()val request = Request.Builder().url(BASE_URL).addHeader("Authorization","Bearer $API_KEY").addHeader("Content-Type","application/json").post(jsonBody.toRequestBody("application/json".toMediaType())).build() client.newCall(request).execute().use{ response ->if(!response.isSuccessful)throwRuntimeException("API 调用失败: ${response.code}")val responseBody = response.body?.string()val jsonResponse =JSONObject(responseBody)return jsonResponse.getJSONArray("choices").getJSONObject(0).getJSONObject("message").getString("content")}}

这段代码展示了如何利用 147API 快速接入 Claude 模型。通过简单的 Prompt Engineering，我们就能让模型输出结构化的执行计划。

总结

Copilot Cowork 的出现预示着 AI 开发的新范式。通过 147API 这样稳定且高性价比的中转服务，我们个人开发者也能以极低的门槛构建出具备 “Cowork” 能力的智能应用。与其担心被 AI 取代，不如现在就开始动手，打造你的 AI 队友。

B站直播神器：神奇弹幕场控机器人全方位使用指南

B站直播神器：神奇弹幕场控机器人全方位使用指南【免费下载链接】Bilibili-MagicalDanmaku【神奇弹幕】哔哩哔哩直播万能场控机器人，弹幕姬+答谢姬+回复姬+点歌姬+各种小骚操作，目前唯一可编程机器人项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-MagicalDanmaku 想要打造一个高互动、自动化的B站直播间吗？神奇弹幕作为目前唯一可编程的B站直播机器人，能够帮你实现弹幕互动、礼物答谢、智能点歌等多种功能，让你的直播变得更加高效和专业。无论你是新手主播还是经验丰富的UP主，这个工具都能为你节省大量时间精力。 🚀 快速启动：从零开始配置获取项目文件 git clone https://gitcode.com/gh_mirrors/bi/Bilibili-MagicalDanmaku 核心模块一览模块功能说明对应路径主界面程序核心控制mainwindow/服务层各项功能实现services/点歌系统智能音乐播放order_player/网页扩展丰富界面功能www/ 程序主界面功能齐全

无人机低空智能巡飞巡检平台：全域感知与智能决策的低空作业中枢

无人机低空智能巡飞巡检平台是融合无人机技术、AI 算法、5G/6G 通信、GIS 地理信息系统与物联网的一体化解决方案，通过 "空天地一体化" 协同作业，实现对 500 米以下低空空域目标的无人化、自动化、智能化巡检管理，彻底革新传统人工巡检模式，为能源、交通、市政、安防等多领域提供高效、安全、精准的巡检服务。一、核心架构：端 - 边 - 云协同的三层体系平台采用 "终端执行 - 边缘计算 - 云端管控" 的全栈架构，构建低空智能服务闭环：终端层：工业级无人机（多旋翼 / 固定翼 / 复合翼）+ 智能机场（换电 / 充电式）

FMC、FMC+ 详解

文章目录 * FMC 简介 * FMC 引脚输出定义 * High-pin count (HPC) connector, HPC pinout * Low-pin count (LPC) connector, LPC pinout * Pin and signal description * FMC+ 简介 * VITA57 标准更新历史 * VITA57.4 标准推出的原因 * FMC+ 引脚输出定义 * Altera 开发板的 FMC 引脚定义 * 英特尔® Arria® 10 GX FPGA 开发套件 * Xilinx 开发板的 FMC 引脚定义 * AMD Kintex 7 FPGA KC705 评估套件

【论文阅读】Gaussian Grouping: Segment and Edit Anything in 3D Scenes

摘要高斯投影（Gaussian Splatting）实现了高质量、实时的三维场景新视点合成。不过，它仅专注于外观和几何建模，缺乏对细粒度的物体级场景理解。为了解决这一问题，我们提出了 Gaussian Grouping，将高斯点扩展为联合重建和分割开放世界三维场景中的任意内容。我们为每个高斯添加了一个紧凑的身份编码（Identity Encoding），使得这些高斯点能够根据其在三维场景中的物体实例或“物体/背景”的成员关系进行分组。并不依赖昂贵的三维标签，我们在可微渲染过程中通过利用 Segment Anything Model (SAM) 的二维掩码预测，以及引入的三维空间一致性正则化，对身份编码进行监督。与隐式的 NeRF 表示相比，我们表明离散且分组的三维高斯点能够在三维中以高视觉质量、细粒度和高效性来重建、分割和编辑任意内容。引言本文旨在构建一个 expressive 的三维场景表示，不仅对外观和几何进行建模，还捕捉场景中每个实例和物体的身份信息。我们的方法以最近的三维高斯投影（Gaussian Splatting）为基础，将其从纯粹的三维重建扩展到细粒度的场景