异构数据迁移工具:DataX、DataX-Web

异构数据迁移工具:DataX、DataX-Web

异构数据迁移工具:DataX、DataX-Web


一、DataX + DataX-Web 简介:

1. DataX 核心特性

DataX 是阿里开源的 基础数据迁移引擎(纯命令行工具,无界面),核心功能是跨数据源同步数据。

  • 架构:通过 “Reader(读数据插件)+ Writer(写数据插件)” 实现跨数据源(MySQL、Oracle、HDFS 等)数据搬运;
  • 局限性:本身不自带分表规则逻辑,需配合脚本预处理或自定义插件实现按分表规则拆分数据;
  • 优势:轻量、开源免费、跨数据源兼容性强,适合中小规模数据迁移。

2. DataX-Web 核心作用

DataX 是阿里开源的 基础数据迁移引擎(纯命令行工具,无界面),核心功能是跨数据源同步数据。

  • 核心功能:可视化配置迁移任务、定时调度(如每日增量同步)、迁移进度监控、日志查询与异常告警;
  • 依赖关系:必须与 DataX 引擎配合使用(部署时需关联 DataX 安装路径,无法独立工作);
  • 优势:降低操作门槛,支持多任务管理,适合非技术人员或批量任务场景。

二、DataX

1. 下载 (两种方式)

方式二:gitcode 下载:https://gitcode.com/gh_mirrors/da/DataX
下滑动到 Quick Start 章节

在这里插入图片描述

方式一:github 下载:https://github.com/alibaba/DataX
下滑动到 Quick Start 章节

在这里插入图片描述

2. 设置 支持 python3(可选)

原因:从github上下载的版本只支持python2.x版本

如果你的python环境是python3.0以上的话,
请到 https://github.com/WeiYe-Jing/datax-web/tree/master/doc/datax-web/datax-python3
下载对应的三个.py文件代替datax文件夹中bin目录下的三个.py文件即可。

在这里插入图片描述

3. 测试安装是否成功

cd的安装位置的bin目录下执行

//查看模板 python datax.py -r streamreader -w streamwriter 
在这里插入图片描述

2、进入windows中cmd命令环境中:
解压后,可直接运行样例,查看是否安装成功:

在这里插入图片描述

1、将datax压缩包解压在安装目录:

在这里插入图片描述

4. 简单的入门测试(mysql案例)

点击一下这个可以找到相关数据库的json脚本格式 进行参考

在这里插入图片描述


我这边就 把同一个库下面的 user表 里面的数据 写到 user_0 表里面,相关 json 如下:(我命名为job001.json)

{"job":{"setting":{"speed":{"channel":2}, "errorLimit":{"record":5, "percentage":0.03}}, "content":[{"reader":{"name":"mysqlreader", "parameter":{"username":"root", "password":"root", "column":["id", "username", "password_hash", "role_id", "real_name", "email", "phone", "deleted_at", "created_at", "updated_at"], "connection":[{"table":["users"], "jdbcUrl":["jdbc:mysql://localhost:3306/student_management?characterEncoding=utf8&useSSL=false"]}]}}, "writer":{"name":"mysqlwriter", "parameter":{"username":"root", "password":"root", "column":["id", "username", "password_hash", "role_id", "real_name", "email", "phone", "deleted_at", "created_at", "updated_at"], "connection":[{"table":["users_0"], "jdbcUrl":"jdbc:mysql://localhost:3306/student_management?characterEncoding=utf8&useSSL=false"}]}}}]}}

放到 datax\job 目录下,然后 到 datax\bin 下 打开 cmd 窗口,执行

python datax.py ../job/job001.json 
在这里插入图片描述


成功 复制过去了

在这里插入图片描述

三、DataX-Web

https://github.com/WeiYe-Jing/datax-web/releases
https://github.com/alibaba/DataX/releases

1. 下载源码

git clone https://github.com/WeiYe-Jing/datax-web.git 

2. 创建数据库

执行bin/db下面的datax_web.sql文件
先自己创建一个datax_web的数据库,再把这个脚本执行一下

在这里插入图片描述

3. 修改项目配置

1.修改datax_admin下resources/application.yml文件(按需调整)

修改datax-admin项目中的配置文件application.yml,其配置文件中不少配置项是通过配置环境变量获取的,我这里直接定义在配置文件中了。需要重点调整的就是data.path目录,数据库地址、账号密码、服务端口等
server: port: 8080# port: ${server.port} spring: #数据源 datasource: username: root password: root url: jdbc:mysql://localhost:3306/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8 # password: ${DB_PASSWORD:password}# username: ${DB_USERNAME:username}# url: jdbc:mysql://${DB_HOST:127.0.0.1}:${DB_PORT:3306}/${DB_DATABASE:dataxweb}?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8 driver-class-name: com.mysql.jdbc.Driver hikari: ## 最小空闲连接数量 minimum-idle: 5## 空闲连接存活最大时间,默认600000(10分钟) idle-timeout: 180000## 连接池最大连接数,默认是10 maximum-pool-size: 10## 数据库连接超时时间,默认30秒,即30000 connection-timeout: 30000 connection-test-query: SELECT 1##此属性控制池中连接的最长生命周期,值0表示无限生命周期,默认1800000即30分钟 max-lifetime: 1800000# datax-web email mail: host: smtp.qq.com port: 25 username: [email protected] password: xxx # username: ${mail.username}# password: ${mail.password} properties: mail: smtp: auth: true starttls: enable: true required: true socketFactory: class: javax.net.ssl.SSLSocketFactory management: health: mail: enabled: false server: servlet: context-path: /actuator mybatis-plus: # mapper.xml文件扫描 mapper-locations: classpath*:/mybatis-mapper/*Mapper.xml # 实体扫描,多个package用逗号或者分号分隔#typeAliasesPackage: com.yibo.essyncclient.*.entity global-config: # 数据库相关配置 db-config: # 主键类型 AUTO:"数据库ID自增", INPUT:"用户输入ID", ID_WORKER:"全局唯一ID (数字类型唯一ID)", UUID:"全局唯一ID UUID"; id-type: AUTO # 字段策略 IGNORED:"忽略判断",NOT_NULL:"非 NULL 判断"),NOT_EMPTY:"非空判断" field-strategy: NOT_NULL # 驼峰下划线转换 column-underline: true# 逻辑删除 logic-delete-value: 0 logic-not-delete-value: 1# 数据库类型 db-type: mysql banner: false# mybatis原生配置 configuration: map-underscore-to-camel-case: true cache-enabled: false call-setters-on-nulls: true jdbc-type-for-null: 'null' type-handlers-package: com.wugui.datax.admin.core.handler # 配置mybatis-plus打印sql日志 logging: level: com.wugui.datax.admin.mapper: info path: ./data/applogs/admin # level:# com.wugui.datax.admin.mapper: error# path: ${data.path}/applogs/admin#datax-job, access token datax: job: accessToken: #i18n (default empty as chinese, "en" as english) i18n: ## triggerpool max size triggerpool: fast: max: 200 slow: max: 100### log retention days logretentiondays: 30 datasource: aes: key: AD42F6697B035B75 

2.修改datax_executor下resources/application.yml文件(按需调整)

# web port server: # port: ${server.port} port: 8081# log config logging: config: classpath:logback.xml # path: ${data.path}/applogs/executor/jobhandler path: ./data/applogs/executor/jobhandler datax: job: admin: ### datax admin address list, such as "http://address" or "http://address01,http://address02" addresses: http://127.0.0.1:8080 # addresses: http://127.0.0.1:${datax.admin.port} executor: appname: datax-executor ip: #port: 9999 port: ${executor.port:9999}### job log path logpath: ./data/applogs/executor/jobhandler # logpath: ${data.path}/applogs/executor/jobhandler### job log retention days logretentiondays: 30### job, access token accessToken: executor: jsonpath: D:\\temp\\executor\\json\\# jsonpath: ${json.path} pypath: D:\Develop\MigraTools\datax\bin\datax.py # pypath: ${python.path}
  • admin.addresses datax_admin部署地址,如调度中心集群部署存在多个地址则用逗号分隔,执行器将会使用该地址进行"执行器心跳注册"和"任务结果回调";
  • executor.appname 执行器AppName,每个执行器机器集群的唯一标示,执行器心跳注册分组依据;
  • executor.ip 默认为空表示自动获取IP,多网卡时可手动设置指定IP,该IP不会绑定Host仅作为通讯实用;地址信息用于 “执行器注册” 和 “调度中心请求并触发任务”;
  • executor.port 执行器Server端口号,默认端口为9999,单机部署多个执行器时,注意要配置不同执行器端口;
  • executor.logpath 执行器运行日志文件存储磁盘路径,需要对该路径拥有读写权限;
  • executor.logretentiondays 执行器日志文件保存天数,过期日志自动清理, 限制值大于等于3时生效; 否则, 如-1, 关闭自动清理功能;
  • executor.jsonpath datax json临时文件保存路径
  • pypath DataX启动脚本地址,例如:xxx/datax/bin/datax.py(这个路径是上面搭建 dataX 已经创建好的启动脚本)
    如果系统配置DataX环境变量(DATAX_HOME),logpath、jsonpath、pypath可不配,log文件和临时json存放在环境变量路径下。

4. 启动项目

  • 1.运行datax_admin下 DataXAdminApplication

2.运行datax_executor下 DataXExecutorApplication

在这里插入图片描述


admin启动成功后日志会输出三个地址,两个接口文档地址,一个前端页面地址

在这里插入图片描述

5. 启动成功

启动成功后打开页面(默认管理员用户名:admin 密码:123456)
http://127.0.0.1:8080/index.html

在这里插入图片描述

6. 实战

1. 项目管理-添加项目

2. 配置数据源

注意:驱动和数据库版本一定要一致!!!

DataX-Admin 的 MySQL 驱动默认是 用的 5.1.49 , DataX 的 mysqlreader 和 mysqlwriter 的 mysql 驱动插件 默认也是 5.1.49
而我的mysql数据库是8.0.44版本的,所以导致定时任务一直是在连接中,没有往下跑
所以我将 DataX-Admin 的 MySQL 驱动 和 DataX 的 mysqlreader 和 mysqlwriter 的 mysql 驱动插件 都换成了 8.0.33版本的
DataX-Admin 具体操作如下

DataX 的 mysqlreader 和 mysqlwriter 的 操作如下
旧的mysql驱动版本我删除掉了
mysql8.0.33这个jar的下载地址为https://mvnrepository.com/artifact/com.mysql/mysql-connector-j/8.0.33

在这里插入图片描述

DataX-Admin 具体操作如下

在这里插入图片描述


在这里插入图片描述
3. 创建执行器
在这里插入图片描述
4. 创建DataX任务模板
在这里插入图片描述
5. 构建任务生成同步 json
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述
  • 再点击下一步

点击选择模板

在这里插入图片描述


以下情况才是表示选中成功

在这里插入图片描述

点击构建

在这里插入图片描述
6. 任务管理
在这里插入图片描述

数据库的情况

在这里插入图片描述

点击执行一次看看效果

在这里插入图片描述


在这里插入图片描述

四、报错

1.在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数

原来的如下:

"setting":{"speed":{"byte":1048576,"channel":3}}

删除 speed.byte 配置,仅保留 channel 数(由 DataX 自动适配):

"setting":{"speed":{"channel":3}}

2.windows下乱码修复

cmd窗口下,输入指令:chcp 65001

3.报winutils缺失请下载

在这里插入图片描述

下载后的路径

在这里插入图片描述
在这里插入图片描述

五、参考文章

【1】window10本地运行datax与datax-web

Read more

Flutter for OpenHarmony:web3dart 连接以太坊区块链,构建去中心化应用(DApp 开发与智能合约调用深度实战)深度解析与鸿蒙适配指南

Flutter for OpenHarmony:web3dart 连接以太坊区块链,构建去中心化应用(DApp 开发与智能合约调用深度实战)深度解析与鸿蒙适配指南

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 随着 Web3.0 概念的普及,区块链技术已从早期的极客玩具逐渐走向主流应用。无论是 DeFi(去中心化金融)、NFT(非同质化代币)还是 DAO(去中心化组织),都离不开与区块链网络的交互。 以太坊 (Ethereum) 作为目前最成熟的智能合约平台,其客户端通信协议 JSON-RPC 是行业标准。要在移动端(Flutter/OpenHarmony)与以太坊网络通信,我们不可能手动构造那些复杂的十六进制数据包。 web3dart 是 Dart 生态中唯一的、功能完备的 Web3 客户端库。它可以让你: 1. 管理账户:生成私钥、助记词,导入 keystore。 2. 发送交易:转账 ETH,部署合约。

跨平台字体渲染方案:Web字体性能优化的技术实践与效益分析

跨平台字体渲染方案:Web字体性能优化的技术实践与效益分析 【免费下载链接】PingFangSCPingFangSC字体包文件、苹果平方字体文件,包含ttf和woff2格式 项目地址: https://gitcode.com/gh_mirrors/pi/PingFangSC 在Web开发中,字体渲染的一致性与性能优化一直是前端工程师面临的重要挑战。不同操作系统对字体的支持差异,常常导致设计稿在Mac上完美呈现,而在Windows或Linux系统中出现字体缺失、样式偏差等问题。本文将深入探讨跨平台字体渲染的核心痛点,解析创新的技术解决方案,并通过实际案例展示其在企业官网和移动应用场景中的应用价值,帮助开发者实现高性能、高一致性的Web字体体验。 核心痛点解析:跨平台字体渲染的三大技术瓶颈 跨平台字体渲染面临着诸多技术难题,这些问题直接影响着用户体验和开发效率。首先,字体兼容性问题是最突出的痛点之一。苹果的PingFangSC字体在非Mac系统中往往无法正常显示,导致设计稿与实际效果产生偏差。其次,字体文件体积过大会严重影响页面加载速度,特别是在移动网络环境下,大体积的字体文件可

用一篇文章带你搞懂 WebRTC + Java 信令服务器 + Vue 实时视频聊天

很多同学用过微信、QQ 视频聊天,但一问到底层怎么实现,十有八九只会说一句:“应该是 WebSocket / WebRTC 吧?”——但是: * WebRTC 到底负责什么? * WebSocket / Netty 在里面干嘛? * STUN / ICE / SDP 是啥?为什么一上来就一堆名词? 这篇文章会用一套完整的小项目,从 0 到 1 带你实现一个: 基于 WebRTC + Java(SpringBoot + Netty)+ Vue 的点对点视频聊天 Demo 重点是: 不是只给你一堆代码,而是把每个概念都讲清楚,让小白也能看懂、改得动、举一反三。 一、整体架构总览:谁负责干什么? 先看一张逻辑图(可以脑补成 PPT): ┌────────────────────────────────────────────┐ │ 后端(Java) │ │ │ │ SpringBoot 负责:

Flutter for OpenHarmony:web_socket 纯 Dart 标准 WebSocket 客户端(跨平台兼容性之王) 深度解析与鸿蒙

Flutter for OpenHarmony:web_socket 纯 Dart 标准 WebSocket 客户端(跨平台兼容性之王) 深度解析与鸿蒙

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net 前言 虽然 dart:io 提供了 WebSocket 类,dart:html 也提供了 WebSocket 类,但这种“分裂”的 API 设计让编写跨平台(同时支持 Mobile/Web/Desktop)的代码变得异常痛苦。你需要使用条件导入 (if (dart.library.io) ...) 来分别处理。 web_socket 库就是为了解决这个问题而诞生的。它提供了一个统一的、平台无关的WebSocket 接口。 无论你的代码运行在 Android、iOS、Web 还是 OpenHarmony 上,它都会自动选择最底层的实现(在鸿蒙上通常是 dart:io)