HeartMuLa：输入歌词生成音乐的AI工具支持多语言与本地部署

文章配图

HeartMuLa 是一个开源的'音乐大模型工具库'，能够将歌词和标签转化为完整的音乐作品，还具备歌词转录、音乐编码和跨模态检索等功能。其主要特性包括多语言支持（中、英、日、韩、西班牙语等）、高保真音频生成以及与文字描述的高度结合。适用于音乐创作、歌词转录、音乐检索、AI伴奏及多媒体内容生产。

简单来说，只需提供几句歌词加上风格描述（例如'伤感钢琴情歌'、'激昂摇滚'、'古风仙侠'），即可自动生成包含人声和伴奏的歌曲，无需专业音乐知识或复杂参数设置。

该一键包基于最新发布的 HeartMuLa 3B 模型打包而成，实测效果出色，尤其在中文歌词方面表现优异。尽管生成速度较慢且资源占用较高，但经过优化已有所改善。官方也在后续规划中加入了性能提升计划。

核心功能

音乐生成模型 HeartMuLa：输入歌词和标签（如'浪漫、钢琴、婚礼'）即可生成相应风格的音乐，支持多种语言。
高保真音乐编码 HeartCodec：采用 12.5Hz 编码器，高质量重建音频，确保音质清晰。
歌词转录 HeartTranscriptor：基于 Whisper 调优，专用于识别歌曲中的歌词。
跨模态检索 HeartCLAP：将音乐与文字映射至同一向量空间，便于通过文本搜索音乐或反之。
多语言支持：涵盖中文、英文、日文、韩文、西班牙文等多种语言。
开源与本地部署：遵循 Apache 2.0 许可协议，允许用户下载模型并在本地运行。

应用场景

音乐创作：辅助创作者快速生成伴奏或完整曲目，适合灵感记录与初稿制作。
歌词转录：自动提取歌词，适用于字幕制作或音乐数据分析。
音乐检索：根据文字描述查找匹配音乐片段，可用于音乐库管理和推荐系统。
多媒体制作：为视频、游戏、广告等内容定制背景音乐。
教育与研究：作为 AI 音乐生成的研究平台，探索跨模态学习和音乐语言建模。

使用方法（建议 NVIDIA 显卡，显存 ≥12GB，兼容 50 系列）

下载主程序压缩包和模型文件（ckpt 文件夹）。
解压主程序，并将模型文件移入主程序目录。
输入歌词，参考默认标签（如副歌、桥段等），设定参数（如最大音频长度）。
启动生成流程。

目前官方提供了 3B 版本模型，未来还将发布 7B 模型以供切换。

目录结构示例

📂 HeartMuLa/
├── 📂 ckpt/
│   ├── 📂 HeartMuLa-oss-3B/
│   │      └── model-00001-of-00004.safetensors
│   │      └── model-00002-of-00004.safetensors
│   ├── 📂 HeartCodec-oss/
│   │      └── model.safetensors
📂 deepface/
...

HeartMuLa：输入歌词生成音乐的AI工具支持多语言与本地部署

核心功能

应用场景

使用方法（建议 NVIDIA 显卡，显存 ≥12GB，兼容 50 系列）

目录结构示例

更多推荐文章

相关免费在线工具

HeartMuLa：输入歌词生成音乐的AI工具 支持多语言与本地部署

核心功能

应用场景

使用方法（建议 NVIDIA 显卡，显存 ≥12GB，兼容 50 系列）

目录结构示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

HeartMuLa：输入歌词生成音乐的AI工具支持多语言与本地部署