Python 实现 Markdown 转 Word 文档（markdown+python-docx 方案）

Python 实现 Markdown 转 Word（markdown+python-docx 方案）

一、核心方案说明

要实现 Markdown 文件 → Word(.docx) 文件 的格式转换，核心思路是： ✅ 先用 python-markdown 库把 Markdown 文本/文件解析成 HTML 格式； ✅ 再用 python-docx 库将解析后的 HTML 内容，逐节点渲染到 Word 文档中，完成最终转换。

二、完整环境安装（一键执行）

该方案依赖 3 个核心库，直接在终端执行以下命令安装所有依赖：

import markdown from docx import Document from docx.shared import Pt, Inches from docx.enum.text import WD_ALIGN_PARAGRAPH, WD_PARAGRAPH_ALIGNMENT from docx.oxml.ns import qn from bs4 import BeautifulSoup import os def markdown_to_word(md_file_path, docx_file_path=None): """ Markdown 文件转 Word 文档核心函数 :param md_file_path: 源 Markdown 文件路径（必填，如：./test.md） :param docx_file_path: 输出 Word 文件路径（可选，默认同目录同名.docx） """ # 1. 校验源文件是否存在 if not os.path.exists(md_file_path): print(f"错误：源文件 {md_file_path} 不存在！") return # 2. 默认输出路径（同目录、同名，后缀替换为.docx） if docx_file_path is None: docx_file_path = os.path.splitext(md_file_path)[0]+".docx" # 3. 读取 Markdown 文件内容（指定 UTF-8 编码，避免中文乱码） with open(md_file_path,"r", encoding="utf-8") as f: md_content = f.read() # 4. Markdown → HTML（启用扩展，支持更完整语法） html_content = markdown.markdown( md_content, extensions=['extra', 'sane_lists', 'nl2br'], extension_configs={} ) # 5. 初始化 Word 文档对象 doc = Document() # 6. 全局样式配置（统一字体、避免中文宋体异常） doc.styles['Normal'].font.name = '宋体' doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') doc.styles['Normal'].font.size = Pt(12) # 7. 解析 HTML 并渲染到 Word soup = BeautifulSoup(html_content,"html.parser") parse_html_node(soup, doc) # 8. 保存 Word 文档 doc.save(docx_file_path) print(f"转换成功！Word 文件已保存至：{docx_file_path}") def parse_html_node(node, doc): """递归解析 HTML 节点，映射为 Word 对应样式""" # 处理标题（h1-h6） if node.name in [f'h{i}' for i in range(1,7)]: level = int(node.name[1]) p = doc.add_paragraph() run = p.add_run(node.get_text(strip=True)) # 标题样式：字号随级别递减，加粗 run.font.size = Pt(20- level *2) run.font.bold = True run.font.name = '黑体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'黑体') p.alignment = WD_ALIGN_PARAGRAPH.LEFT # 处理段落 elif node.name == 'p': p = doc.add_paragraph() parse_inline_content(node, p) # 处理无序列表 elif node.name == 'ul': for li in node.find_all('li', recursive=False): p = doc.add_paragraph(style='List Bullet') parse_inline_content(li, p) # 处理有序列表 elif node.name == 'ol': for li in node.find_all('li', recursive=False): p = doc.add_paragraph(style='List Number') parse_inline_content(li, p) # 处理换行 elif node.name == 'br': doc.add_paragraph() # 递归处理子节点（兼容嵌套结构） for child in node.children: if child.name: parse_html_node(child, doc) def parse_inline_content(node, paragraph): """解析行内元素（加粗、斜体、超链接等），添加到指定段落""" for content in node.contents: if isinstance(content,str): # 纯文本内容 run = paragraph.add_run(content) run.font.name = '宋体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') run.font.size = Pt(12) elif content.name == 'strong': # 加粗文本（MD：**内容**） run = paragraph.add_run(content.get_text()) run.font.bold = True run.font.name = '宋体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') elif content.name == 'em': # 斜体文本（MD：*内容*） run = paragraph.add_run(content.get_text()) run.font.italic = True run.font.name = '宋体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') elif content.name == 'a': # 超链接（MD：[文本](链接)） text = content.get_text() link = content.get('href','') run = paragraph.add_run(f"{text}({link})") run.font.color.rgb = None run.font.name = '宋体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') # ------------------- 调用示例 ------------------- if __name__ == "__main__": # 替换为你的 Markdown 文件路径（相对路径/绝对路径均可） INPUT_MD_FILE = "./test.md" # 可选：指定输出 Word 路径，如 "./转换结果.docx" OUTPUT_DOCX_FILE = None markdown_to_word(INPUT_MD_FILE, OUTPUT_DOCX_FILE)

import markdown from docx import Document from docx.shared import Pt, Inches, RGBColor from docx.enum.text import WD_ALIGN_PARAGRAPH from docx.enum.table import WD_TABLE_ALIGNMENT, WD_ALIGN_VERTICAL from docx.oxml.ns import qn from bs4 import BeautifulSoup import os def markdown_to_word(md_file_path, docx_file_path=None): if not os.path.exists(md_file_path): print(f"错误：源文件 {md_file_path} 不存在！") return if docx_file_path is None: docx_file_path = os.path.splitext(md_file_path)[0]+".docx" with open(md_file_path,"r", encoding="utf-8") as f: md_content = f.read() # 启用表格、代码块扩展 html_content = markdown.markdown( md_content, extensions=['extra','sane_lists','nl2br','codehilite'], extension_configs={} ) doc = Document() doc.styles['Normal'].font.name = '宋体' doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') doc.styles['Normal'].font.size = Pt(12) soup = BeautifulSoup(html_content,"html.parser") parse_html_node(soup, doc) doc.save(docx_file_path) print(f"转换成功！Word 文件已保存至：{docx_file_path}") def parse_html_node(node, doc): # 基础节点（标题、段落、列表）- 同基础版，此处省略，完整代码包含 if node.name in [f'h{i}' for i in range(1,7)]: level = int(node.name[1]) p = doc.add_paragraph() run = p.add_run(node.get_text(strip=True)) run.font.size = Pt(20- level *2) run.font.bold = True run.font.name = '黑体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'黑体') elif node.name == 'p': p = doc.add_paragraph() parse_inline_content(node, p) elif node.name == 'ul': for li in node.find_all('li', recursive=False): p = doc.add_paragraph(style='List Bullet') parse_inline_content(li, p) elif node.name == 'ol': for li in node.find_all('li', recursive=False): p = doc.add_paragraph(style='List Number') parse_inline_content(li, p) # 新增：处理表格 elif node.name == 'table': rows = node.find_all('tr') row_count = len(rows) col_count = len(rows[0].find_all(['th','td'])) if row_count > 0 else 0 if row_count == 0 or col_count == 0: return # 创建 Word 表格 table = doc.add_table(rows=row_count, cols=col_count) table.alignment = WD_TABLE_ALIGNMENT.CENTER for r_idx, row in enumerate(rows): cells = row.find_all(['th','td']) for c_idx, cell in enumerate(cells): tc = table.cell(r_idx, c_idx) tc.vertical_alignment = WD_ALIGN_VERTICAL.CENTER p = tc.paragraphs[0] parse_inline_content(cell, p) # 表头样式加粗 if cell.name == 'th': for run in p.runs: run.font.bold = True # 新增：处理代码块 elif node.name == 'pre': code_node = node.find('code') if code_node: p = doc.add_paragraph() run = p.add_run(code_node.get_text()) run.font.name = 'Consolas' # 代码专用等宽字体 run.font.size = Pt(10) run.font.color.rgb = RGBColor(0,0,0) # 黑色 # 新增：处理图片（MD：![描述](图片路径)） elif node.name == 'img': img_src = node.get('src','') img_alt = node.get('alt','图片') if os.path.exists(img_src): try: doc.add_picture(img_src, width=Inches(4)) # 限制图片宽度 p = doc.add_paragraph(img_alt) p.alignment = WD_ALIGN_PARAGRAPH.CENTER except Exception as e: doc.add_paragraph(f"图片加载失败：{img_src} | 错误：{str(e)}") else: doc.add_paragraph(f"图片不存在：{img_src}（描述：{img_alt}）") for child in node.children: if child.name: parse_html_node(child, doc) def parse_inline_content(node, paragraph): # 行内元素（加粗、斜体、超链接）- 同基础版 for content in node.contents: if isinstance(content,str): run = paragraph.add_run(content) run.font.name = '宋体' run._element.rPr.rFonts.set(qn('w:eastAsia'),'宋体') run.font.size = Pt(12) elif content.name == 'strong': run = paragraph.add_run(content.get_text()) run.font.bold = True elif content.name == 'em': run = paragraph.add_run(content.get_text()) run.font.italic = True elif content.name == 'a': text = content.get_text() link = content.get('href','') run = paragraph.add_run(f"{text}({link})") # ------------------- 调用示例 ------------------- if __name__ == "__main__": INPUT_MD_FILE = "./test.md" # 替换为你的 MD 文件路径 markdown_to_word(INPUT_MD_FILE)

Python 实现 Markdown 转 Word 文档（markdown+python-docx 方案）

Python 实现 Markdown 转 Word（markdown+python-docx 方案）

一、核心方案说明

二、完整环境安装（一键执行）

三、完整可运行代码（直接复用）

版本 1：基础版（支持绝大多数 MD 语法，满足日常需求）

版本 2：增强版（额外支持表格、代码块、图片语法）

四、使用方法（3 步极简操作）

步骤 1：准备源文件

步骤 2：修改文件路径

步骤 3：运行代码

五、关键优化点（解决常见坑）

✅ 坑 1：中文乱码/字体异常

✅ 坑 2：Markdown 语法解析不全

✅ 坑 3：列表嵌套/格式错乱

✅ 坑 4：图片加载失败

六、支持的 Markdown 语法清单

✅ 基础语法（基础版 + 增强版均支持）

✅ 扩展语法（仅增强版支持）

七、备选方案（更轻量化，一行命令转换）

1．安装 pandoc

2．一行命令转换

总结

更多推荐文章

相关免费在线工具

Python 实现 Markdown 转 Word 文档（markdown+python-docx 方案）

Python 实现 Markdown 转 Word（markdown+python-docx 方案）

一、核心方案说明

二、完整环境安装（一键执行）

三、完整可运行代码（直接复用）

版本 1：基础版（支持绝大多数 MD 语法，满足日常需求）

版本 2：增强版（额外支持 表格、代码块、图片 语法）

四、使用方法（3 步极简操作）

步骤 1：准备源文件

步骤 2：修改文件路径

步骤 3：运行代码

五、关键优化点（解决常见坑）

✅ 坑 1：中文乱码/字体异常

✅ 坑 2：Markdown 语法解析不全

✅ 坑 3：列表嵌套/格式错乱

✅ 坑 4：图片加载失败

六、支持的 Markdown 语法清单

✅ 基础语法（基础版 + 增强版均支持）

✅ 扩展语法（仅增强版支持）

七、备选方案（更轻量化，一行命令转换）

1．安装 pandoc

2．一行命令转换

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

版本 2：增强版（额外支持表格、代码块、图片语法）