—— 使用 yt-dlp + Whisper 的完整教程(Windows 版)
你是否也曾被 B站上的某段配乐、翻唱、演讲打动,想提取音频、生成歌词并同步播放?本教程将手把手带你完成 从下载音频、提取 MP3、生成歌词字幕、转为 LRC 同步歌词 的全过程。
🧰 核心工具简介
- 🎬 yt-dlp:下载 B站等平台视频/音频内容的命令行工具
- 🛠 FFmpeg:音视频处理工具,是 yt-dlp 和 Whisper 的必要依赖
- 🧠 Whisper:OpenAI 开源语音识别工具,可自动生成带时间戳的字幕
- 🐍 Python:Whisper 所需运行环境(需预先安装,建议使用 3.8+)
🛠 第一步:环境准备与工具安装
1.1 安装 FFmpeg 🧪
- 打开 FFmpeg 官网 https://ffmpeg.org/download.html
- 点击 Windows 图标,推荐选择
Windows builds by Gyan.dev - 下载如
ffmpeg-release-full.7z的压缩包并解压(推荐目录如D:\tools\ffmpeg) - 确保
D:\tools\ffmpeg\bin目录下有ffmpeg.exe和ffprobe.exe - 将
D:\tools\ffmpeg\bin添加到系统环境变量 Path - 打开命令提示符,输入:
ffmpeg -version
若看到版本信息,说明安装成功 ✅
1.2 安装 yt-dlp 🎬
使用 pip 安装(适合 Python 用户)
如果你已经安装了 Python,可以直接使用 pip 安装 yt-dlp:
pip install -U yt-dlp
安装完成后,执行:
yt-dlp --version
如果提示找不到命令,说明 Scripts 目录未添加到环境变量,可手动添加:
C:\Users\你的用户名\AppData\Local\Programs\Python\PythonXX\Scripts
1.3 安装 Whisper 🤖
Whisper 是基于 Python 的命令行工具,可自动生成带时间戳的字幕文件。
确保已安装 Python 后,在命令行中运行:
pip install -U openai-whisper
⚠️ 如你使用 NVIDIA 显卡,建议先安装 支持 CUDA 的 PyTorch,再安装 Whisper,可加速识别过程。
🎵 第二步:下载 B站视频并提取 MP3 音频
打开 PowerShell 或命令提示符,切换到保存音频的目录,例如:
cd F:\music
然后执行下载命令(以示例视频为例):
yt-dlp -x --audio-format mp3 --audio-quality 0 "https://www.bilibili.com/video/BV1pf4y1g7qE/" -o "%(title)s.%(ext)s"
📌 参数说明:
-x:仅提取音频--audio-format mp3:转为 MP3 格式--audio-quality 0:最高音质-o:按视频标题命名输出文件
成功后,你将获得一个 .mp3 文件。
🧠 第三步:使用 Whisper 生成字幕文本
确保当前目录下已有 MP3 文件,或指定其完整路径。
执行如下命令开始识别:
whisper "文件名.mp3" --model medium --language Chinese --verbose True
📌 参数说明:
--model medium:模型越大识别越准(可选 tiny, base, small, medium, large)--language Chinese:指定中文语言--verbose True:显示详细进度
📝 生成结果包括:
文件名.txt:纯文本文件名.srt✅:带时间戳的字幕(可转为 LRC)文件名.vtt:网络视频字幕格式文件名.tsv / .json:其他分析数据
✍️ 第四步:校对字幕并转换为 LRC 同步歌词
打开 .srt 文件,手动校对句子内容(尤其是歌曲、诗朗诵等),格式如下:
1
00:00:00,000 --> 00:00:08,000
我独自一人 躲在无人的角落里
🎵 LRC 格式只需“开始时间 + 歌词内容”,格式如下:
[00:00.00] 我独自一人 躲在无人的角落里
[00:08.00] 细数你给的伤悲
可以使用如下方式进行转换:
- 在线工具(搜索“SRT 转 LRC”)
- 使用简单 Python 脚本(支持批量处理)
- 手动编辑(适合少量歌词)
🎧 (可选)播放测试 LRC 歌词
使用支持 LRC 的音乐播放器播放并同步歌词:
- 🎵 Foobar2000 + 歌词插件
- 🎶 AIMP
- 📺 Jellyfin、MPV 等也支持字幕文件同步播放
✅ 结语
现在,你已经掌握了完整流程:
- 🎬 使用 yt-dlp 下载并提取音频
- 🛠 借助 FFmpeg 完成格式转换
- 🧠 用 Whisper 自动转录并生成字幕
- ✍️ 校对 + 转换为 LRC 歌词
虽然 Whisper 非常强大,但最终歌词质量仍需你亲自打磨。 你的耳朵,是最好的校对器!👂🎧
评论区(0 条)
发表评论⏳ 加载编辑器…