Java 工程师实战：Spring 集成 OCR 服务模块

Java 工程师实战：Spring 集成 OCR 服务模块 | 极客日志

import cv2
import numpy as np

def preprocess_image(image_path):
    # 读取图像
    img = cv2.imread(image_path)
    # 自动灰度化 & 直方图均衡化
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    equalized = cv2.equalizeHist(gray)
    # 自适应二值化（应对光照不均）
    binary = cv2.adaptiveThreshold(equalized, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
    # 尺寸归一化（宽高比保持不变）
    h, w = binary.shape
    target_height = 32
    scale = target_height / h
    resized = cv2.resize(binary, (int(w * scale), target_height))
    return resized

优化项	实现方式	效果
模型剪枝	移除冗余参数，降低 FLOPs	模型大小减少 40%
动态批处理	多请求合并推理	吞吐量提升 2.3 倍
ONNX Runtime	使用 ONNX 运行时替代原始框架	推理速度加快 1.8 倍

[前端] ↓ (上传图片) [Spring Boot 应用] ↓ (POST /ocr/recognize) [OCR Microservice (Flask + CRNN)] ↓ (返回 JSON 结果) [Spring 解析并存入数据库]

docker run -d \
  --name ocr-service \
  -p 5000:5000 \
  ocr-crnn-service:latest

@Service
public class OcrClientService {
    private static final String OCR_API_URL = "http://localhost:5000/ocr/recognize";
    @Autowired
    private RestTemplate restTemplate;

    public OcrResult recognizeText(MultipartFile file) {
        try {
            // 构造 multipart/form-data 请求
            LinkedMultiValueMap<String, Object> map = new LinkedMultiValueMap<>();
            map.add("image", new ByteArrayResource(file.getBytes()) {
                @Override
                public String getFilename() {
                    return file.getOriginalFilename();
                }
            });
            HttpHeaders headers = new HttpHeaders();
            headers.setContentType(MediaType.MULTIPART_FORM_DATA);
            HttpEntity<LinkedMultiValueMap<String, Object>> requestEntity = new HttpEntity<>(map, headers);
            ResponseEntity<OcrResponse> response = restTemplate.postForEntity(
                OCR_API_URL, requestEntity, OcrResponse.class);
            if (response.getStatusCode() == HttpStatus.OK) {
                return convertToDomainObject(response.getBody());
            } else {
                throw new RuntimeException("OCR 识别失败：" + response.getStatusCode());
            }
        } catch (IOException e) {
            throw new RuntimeException("文件读取异常", e);
        }
    }
}

@Data
public class OcrResponse {
    private boolean success;
    private List<TextBlock> data;
    private String message;
}

@Data
public class TextBlock {
    private List<List<Integer>> box; // 四点坐标
    private String text; // 识别文本
    private float confidence; // 置信度
}

@RestController
@RequestMapping("/api/document")
public class DocumentController {
    @Autowired
    private OcrClientService ocrClientService;

    @PostMapping("/scan")
    public ResponseEntity<?> scanDocument(@RequestParam("file") MultipartFile file) {
        try {
            OcrResult result = ocrClientService.recognizeText(file);
            return ResponseEntity.ok(Map.of(
                "status", "success",
                "text", result.getExtractedText(),
                "blocks", result.getTextBlocks()
            ));
        } catch (Exception e) {
            return ResponseEntity.badRequest().body(Map.of(
                "status", "error",
                "message", e.getMessage()
            ));
        }
    }
}

@Configuration
@EnableAsync
public class AsyncConfig {
    @Bean
    public TaskExecutor taskExecutor() {
        ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
        executor.setCorePoolSize(5);
        executor.setMaxPoolSize(10);
        executor.setQueueCapacity(100);
        executor.setThreadNamePrefix("ocr-thread-");
        executor.initialize();
        return executor;
    }
}

@Bean
public RestTemplate restTemplate() {
    HttpClient httpClient = HttpClients.custom()
        .setConnectionTimeToLive(30, TimeUnit.SECONDS)
        .build();
    RequestConfig config = RequestConfig.custom()
        .setConnectTimeout(5000)
        .setSocketTimeout(10000)
        .build();
    CloseableHttpClient client = HttpClientBuilder.create()
        .setDefaultRequestConfig(config)
        .setHttpClientConnectionManager(new PoolingHttpClientConnectionManager())
        .build();
    HttpComponentsClientHttpRequestFactory factory = new HttpComponentsClientHttpRequestFactory(client);
    return new RestTemplate(factory);
}

private void validateImageFile(MultipartFile file) {
    if (file == null || file.isEmpty()) {
        throw new IllegalArgumentException("文件不能为空");
    }
    if (!Arrays.asList("image/jpeg", "image/png", "image/jpg").contains(file.getContentType())) {
        throw new IllegalArgumentException("仅支持 JPG/PNG 格式");
    }
    if (file.getSize() > 10 * 1024 * 1024) { // 10MB 限制
        throw new IllegalArgumentException("图片大小不能超过 10MB");
    }
}

public BigDecimal extractAmount(List<TextBlock> blocks) {
    Pattern amountPattern = Pattern.compile("([￥¥])\\s*(\\d+\\.\\d{2})");
    for (TextBlock block : blocks) {
        Matcher m = amountPattern.matcher(block.getText());
        if (m.find()) {
            return new BigDecimal(m.group(2));
        }
    }
    return null;
}

resilience4j.retry:
  instances:
    ocrService:
      maxAttempts: 3
      waitDuration: 1s

@Retry(name = "ocrService", fallbackMethod = "fallbackRecognition")
public OcrResult recognizeText(MultipartFile file) {
    ...
}

实践项	建议
服务隔离	OCR 作为独立微服务部署，避免影响主应用稳定性
异步处理	对大批量文档识别采用消息队列 + 异步回调机制
缓存机制	对相同图片 MD5 做结果缓存，避免重复识别
监控告警	记录识别耗时、失败率，及时发现服务异常
模型热更新	支持动态加载新模型版本，无需重启服务

Java 工程师实战：Spring 集成 OCR 服务模块

Java 工程师实战：Spring 集成 OCR 服务模块

项目背景与技术选型动因

CRNN OCR 服务核心技术解析

1. 什么是 CRNN？为何选择它？

2. 图像预处理：让模糊图片也能'看清'

3. 推理性能优化：纯 CPU 也能秒级响应

Spring Boot 集成 OCR 服务：完整实践指南

1. 系统架构设计

2. 启动 OCR 服务容器

3. 定义 OCR 客户端接口

4. 控制器层暴露业务接口

5. 添加异步处理与超时控制（生产级建议）

实践难点与优化建议

1. 文件类型校验与安全防护

2. 识别结果后处理：提升可用性

3. 错误重试机制（Resilience4j 推荐）

总结与最佳实践建议

技术价值回顾

推荐的最佳实践清单

下一步演进方向

更多推荐文章

相关免费在线工具

Java 工程师实战：Spring 集成 OCR 服务模块

Java 工程师实战：Spring 集成 OCR 服务模块

项目背景与技术选型动因

CRNN OCR 服务核心技术解析

1. 什么是 CRNN？为何选择它？

2. 图像预处理：让模糊图片也能'看清'

3. 推理性能优化：纯 CPU 也能秒级响应

Spring Boot 集成 OCR 服务：完整实践指南

1. 系统架构设计

2. 启动 OCR 服务容器

3. 定义 OCR 客户端接口

4. 控制器层暴露业务接口

5. 添加异步处理与超时控制（生产级建议）

实践难点与优化建议

1. 文件类型校验与安全防护

2. 识别结果后处理：提升可用性

3. 错误重试机制（Resilience4j 推荐）

总结与最佳实践建议

技术价值回顾

推荐的最佳实践清单

下一步演进方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具