

HeartMuLa 是一个开源的'音乐大模型工具库',能够将歌词和标签转化为完整的音乐作品,还具备歌词转录、音乐编码和跨模态检索等功能。其主要特性包括多语言支持(中、英、日、韩、西班牙语等)、高保真音频生成以及与文字描述的高度结合。适用于音乐创作、歌词转录、音乐检索、AI伴奏及多媒体内容生产。
简单来说,只需提供几句歌词加上风格描述(例如'伤感钢琴情歌'、'激昂摇滚'、'古风仙侠'),即可自动生成包含人声和伴奏的歌曲,无需专业音乐知识或复杂参数设置。
该一键包基于最新发布的 HeartMuLa 3B 模型打包而成,实测效果出色,尤其在中文歌词方面表现优异。尽管生成速度较慢且资源占用较高,但经过优化已有所改善。官方也在后续规划中加入了性能提升计划。
核心功能
- 音乐生成模型 HeartMuLa:输入歌词和标签(如'浪漫、钢琴、婚礼')即可生成相应风格的音乐,支持多种语言。
- 高保真音乐编码 HeartCodec:采用 12.5Hz 编码器,高质量重建音频,确保音质清晰。
- 歌词转录 HeartTranscriptor:基于 Whisper 调优,专用于识别歌曲中的歌词。
- 跨模态检索 HeartCLAP:将音乐与文字映射至同一向量空间,便于通过文本搜索音乐或反之。
- 多语言支持:涵盖中文、英文、日文、韩文、西班牙文等多种语言。
- 开源与本地部署:遵循 Apache 2.0 许可协议,允许用户下载模型并在本地运行。
应用场景
- 音乐创作:辅助创作者快速生成伴奏或完整曲目,适合灵感记录与初稿制作。
- 歌词转录:自动提取歌词,适用于字幕制作或音乐数据分析。
- 音乐检索:根据文字描述查找匹配音乐片段,可用于音乐库管理和推荐系统。
- 多媒体制作:为视频、游戏、广告等内容定制背景音乐。
- 教育与研究:作为 AI 音乐生成的研究平台,探索跨模态学习和音乐语言建模。
使用方法(建议 NVIDIA 显卡,显存 ≥12GB,兼容 50 系列)
- 下载主程序压缩包和模型文件(ckpt 文件夹)。
- 解压主程序,并将模型文件移入主程序目录。
- 输入歌词,参考默认标签(如副歌、桥段等),设定参数(如最大音频长度)。
- 启动生成流程。
目前官方提供了 3B 版本模型,未来还将发布 7B 模型以供切换。
目录结构示例
📂 HeartMuLa/
├── 📂 ckpt/
│ ├── 📂 HeartMuLa-oss-3B/
│ │ └── model-00001-of-00004.safetensors
│ │ └── model-00002-of-00004.safetensors
│ ├── 📂 HeartCodec-oss/
│ │ └── model.safetensors
📂 deepface/
...


