Java 后端高效对接 Python 微调大模型的四种交互方案与实战

Java 后端高效对接 Python 微调大模型的四种交互方案与实战 | 极客日志

// 请求体（Request）
{
  "prompt": "请总结以下内容：xxx",
  "parameters": {
    "temperature": 0.7,
    "max_tokens": 512,
    "top_p": 0.9
  },
  "metadata": {
    "user_id": "U12345",
    "trace_id": "T-20251229-001"
  }
}

// 响应体（Response）
{
  "data": {
    "response": "这是模型生成的回答...",
    "tokens_used": 128
  },
  "status": "success",
  "timestamp": "2025-12-29T10:00:00Z"
}

[Java Spring Boot] --(POST /generate)--> [Python FastAPI + 微调 LLM]
↑ ↑
(JSON Request) (JSON Response)

# llm_service.py
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import logging

# 初始化日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

app = FastAPI(
    title="Fine-tuned LLM Service",
    description="基于微调 LLaMA 的智能问答服务"
)

# 加载微调模型（生产环境建议使用 GPU）
try:
    tokenizer = AutoTokenizer.from_pretrained("./fine_tuned_model")
    model = AutoModelForCausalLM.from_pretrained(
        "./fine_tuned_model", 
        torch_dtype=torch.float16, 
        device_map="auto"  # 自动分配到可用 GPU
    )
    logger.info("✅ 模型加载成功")
except Exception as e:
    logger.error(f"❌ 模型加载失败：{e}")
    raise

class LLMRequest(BaseModel):
    prompt: str
    temperature: float = 0.7
    max_tokens: int = 512

class LLMResponse(BaseModel):
    response: str
    tokens_used: int
    status: str = "success"

@app.post("/generate", response_model=LLMResponse)
async def generate(request: LLMRequest):
    try:
        logger.info(f"收到请求：prompt='{request.prompt[:50]}...'")
        inputs = tokenizer(request.prompt, return_tensors="pt").to(model.device)
        outputs = model.generate(
            **inputs, 
            max_new_tokens=request.max_tokens, 
            temperature=request.temperature, 
            do_sample=True, 
            pad_token_id=tokenizer.eos_token_id
        )
        response_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        tokens_used = len(outputs[0])
        logger.info(f"生成完成，使用 token 数：{tokens_used}")
        return LLMResponse(response=response_text, tokens_used=tokens_used)
    except Exception as e:
        logger.error(f"推理异常：{e}")
        raise HTTPException(status_code=500, detail="模型推理失败")

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000, log_level="info")

// LlmClient.java
import com.alibaba.fastjson2.JSON;
import okhttp3.*;
import java.io.IOException;
import java.util.concurrent.TimeUnit;

public class LlmClient {
    private final OkHttpClient httpClient;
    private final String baseUrl;

    public LlmClient(String baseUrl) {
        this.baseUrl = baseUrl;
        this.httpClient = new OkHttpClient.Builder()
                .connectTimeout(5, TimeUnit.SECONDS)
                .readTimeout(30, TimeUnit.SECONDS) // 大模型可能较慢
                .writeTimeout(30, TimeUnit.SECONDS)
                .build();
    }

    public LlmResponse callLlm(LlmRequest request) throws IOException {
        String jsonBody = JSON.toJSONString(request);
        RequestBody body = RequestBody.create(
            jsonBody, 
            MediaType.get("application/json; charset=utf-8")
        );
        Request httpRequest = new Request.Builder()
                .url(baseUrl + "/generate")
                .post(body)
                .build();
        try (Response response = httpClient.newCall(httpRequest).execute()) {
            if (!response.isSuccessful()) {
                throw new IOException("HTTP 错误：" + response.code() + " - " + response.message());
            }
            String responseBody = response.body().string();
            return JSON.parseObject(responseBody, LlmResponse.class);
        }
    }

    // DTO 类
    public static class LlmRequest {
        private String prompt;
        private float temperature = 0.7f;
        private int maxTokens = 512;

        // 构造器 & Getter/Setter
        public LlmRequest(String prompt) {
            this.prompt = prompt;
        }
        // ... 省略标准 getter/setter
    }

    public static class LlmResponse {
        private String response;
        private int tokensUsed;
        private String status;

        // Getter
        public String getResponse() { return response; }
        public int getTokensUsed() { return tokensUsed; }
    }
}

public class Main {
    public static void main(String[] args) throws IOException {
        LlmClient client = new LlmClient("http://localhost:8000");
        LlmClient.LlmRequest req = new LlmClient.LlmRequest("解释 RESTful API 的设计原则");
        LlmClient.LlmResponse resp = client.callLlm(req);
        System.out.println("AI 回答：" + resp.getResponse());
    }
}

// llm_service.proto
syntax = "proto3";
package llm;

message LLMRequest {
    string prompt = 1;
    float temperature = 2;
    int32 max_tokens = 3;
    string trace_id = 4;
}

message LLMResponse {
    string response = 1;
    int32 tokens_used = 2;
    string status = 3;
}

service LLMService {
    rpc Generate(LLMRequest) returns (LLMResponse);
}

# llm_local.py
import sys
import json
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

def main():
    # 从标准输入读取 JSON
    input_json = sys.stdin.read()
    data = json.loads(input_json)
    prompt = data["prompt"]
    temperature = data.get("temperature", 0.7)
    max_tokens = data.get("max_tokens", 512)

    # 加载模型（实际应预加载）
    tokenizer = AutoTokenizer.from_pretrained("./fine_tuned_model")
    model = AutoModelForCausalLM.from_pretrained("./fine_tuned_model")
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs, temperature=temperature, max_new_tokens=max_tokens)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # 输出结果到标准输出
    result = {"response": response, "status": "success"}
    print(json.dumps(result))
    sys.stdout.flush()

if __name__ == "__main__":
    main()

public static String callLlmLocally(String prompt) throws IOException {
    ProcessBuilder pb = new ProcessBuilder("python3", "/opt/ai/llm_local.py");
    pb.redirectErrorStream(true);
    Process process = pb.start();

    // 写入请求
    String requestJson = JSON.toJSONString(Map.of(
        "prompt", prompt,
        "temperature", 0.7,
        "max_tokens", 512
    ));
    try (var os = process.getOutputStream()) {
        os.write(requestJson.getBytes());
        os.flush();
    }

    // 读取响应
    StringBuilder output = new StringBuilder();
    try (var reader = new BufferedReader(new InputStreamReader(process.getInputStream()))) {
        String line;
        while ((line = reader.readLine()) != null) {
            output.append(line);
        }
    }

    // 解析
    Map<String, Object> resp = JSON.parseObject(output.toString(), Map.class);
    return (String) resp.get("response");
}

[Java] --(send JSON)--> [Kafka: llm_requests]
↓
[Python Consumer] → 调用大模型
↓
[Kafka: llm_responses] <--(send JSON)--
↓
[Java Listener]

// Java 发送请求
kafkaTemplate.send("llm_requests", JSON.toJSONString(request));

# Python 消费并处理
for msg in consumer:
    request = json.loads(msg.value)
    response = run_llm(request)
    producer.send("llm_responses", json.dumps(response))

方案	开发难度	性能	实时性	扩展性	适用场景
RESTful API	⭐☆	中	高	高	首选：Web 应用、智能客服
gRPC	⭐⭐⭐	高	高	高	高并发内部服务
本地进程	⭐	低	中	无	单机测试、POC
消息队列	⭐⭐⭐⭐	中	低	极高	异步任务、批处理

Java 后端高效对接 Python 微调大模型的四种交互方案与实战

Java 后端如何高效对接 Python 微调大模型？四种数据交互方案全解析

引言：当企业级后端遇上 AI 模型，如何打通'最后一公里'？

一、核心前提：统一数据契约——JSON 是跨语言的'通用语'

标准化请求/响应结构（建议）

二、方案一：RESTful API —— 最常用、最易上手的方案

2.1 架构原理

2.2 Python 端实现（服务提供方）

2.3 Java 端实现（调用方）

三、方案二：gRPC —— 高性能、低延迟的二进制通信

3.1 适用场景

3.2 定义 Protobuf 协议

3.3 生成代码 & 实现逻辑

四、方案三：本地进程调用 —— 无网络开销的轻量方案

4.1 适用场景

4.2 Python 脚本（从 STDIN 读取，STDOUT 输出）

4.3 Java 调用（ProcessBuilder）

五、方案四：消息队列 —— 异步、解耦、高容错

5.1 架构图

5.2 适用场景

5.3 核心代码逻辑（伪代码）

六、方案对比与选型建议

七、生产环境最佳实践

7.1 安全防护

7.2 性能优化

7.3 监控与可观测性

常见问题（FAQ）

Q1：两边都要写代码吗？

Q2：如何避免 JSON 字段不一致？

Q3：模型加载太慢怎么办？

Q4：能否在 Java 中直接调用 Python 模型（如 Jython）？

结语：构建 AI 原生系统的工程之道

扩展阅读

更多推荐文章

相关免费在线工具

Java 后端高效对接 Python 微调大模型的四种交互方案与实战

Java 后端如何高效对接 Python 微调大模型？四种数据交互方案全解析

引言：当企业级后端遇上 AI 模型，如何打通'最后一公里'？

一、核心前提：统一数据契约——JSON 是跨语言的'通用语'

标准化请求/响应结构（建议）

二、方案一：RESTful API —— 最常用、最易上手的方案

2.1 架构原理

2.2 Python 端实现（服务提供方）

2.3 Java 端实现（调用方）

三、方案二：gRPC —— 高性能、低延迟的二进制通信

3.1 适用场景

3.2 定义 Protobuf 协议

3.3 生成代码 & 实现逻辑

四、方案三：本地进程调用 —— 无网络开销的轻量方案

4.1 适用场景

4.2 Python 脚本（从 STDIN 读取，STDOUT 输出）

4.3 Java 调用（ProcessBuilder）

五、方案四：消息队列 —— 异步、解耦、高容错

5.1 架构图

5.2 适用场景

5.3 核心代码逻辑（伪代码）

六、方案对比与选型建议

七、生产环境最佳实践

7.1 安全防护

7.2 性能优化

7.3 监控与可观测性

常见问题（FAQ）

Q1：两边都要写代码吗？

Q2：如何避免 JSON 字段不一致？

Q3：模型加载太慢怎么办？

Q4：能否在 Java 中直接调用 Python 模型（如 Jython）？

结语：构建 AI 原生系统的工程之道

扩展阅读

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具