你记得那个词,ClipCatalog 记得那一刻。
输入视频中有人说过的几个词,播放器就会直接跳到那句话被说出的那一秒。访谈、讲座、直播、家庭录像 — 你档案库里的每一条音轨,都能像文本文档一样被检索。
转录使用 Whisper 在你本机完成,无需上传、无需按分钟付费、无需云端账户。一次性 99 美元的许可证,转录时长无上限。
"我知道有人说过"的难题
你记得一个词、一个名字,或一段话里几个有辨识度的词,但不记得是哪个文件。如果没有可搜索的转录,只能手动翻看。在 ClipCatalog 中,输入你记得的内容,匹配的片段几秒内就会出现。
没有转录搜索时
- 你记得有人说过重要的话,却不知道在哪个文件里
- 为了找一句话翻看好几个小时的素材
- 云转录服务按分钟收费,而且必须上传素材
有了 ClipCatalog
- 输入这个词,便能获得每一个包含它的视频,并附带准确的时间戳
- 点击结果,直接跳到说出这句话的那一秒
- 你工作时,转录在后台进行——无需上传,无需等待
按口语内容检索视频是怎么工作的
要让口语检索感觉像在整个视频库里 Ctrl+F,需要三样东西:准确的转录、覆盖整个库的索引、以及一条快速回到精确时刻的路径。ClipCatalog 在本地把这三件事都搞定。
记录检索 →指向一个文件夹
添加一个或多个文件夹。ClipCatalog 会扫描视频文件,并将每个文件加入本地转录队列。你的文件夹结构保持不变。
本地的 Whisper 在干活
ClipCatalog 内置 whisper.cpp,并在你的硬件上运行——有 Vulkan GPU 就用 GPU,没有就回退到 CPU。任何内容都不会被上传。
按口语检索
打开转录过滤器,输入像 闭幕 这样的单词,或者把 闭幕 + 致辞 两个词都要求出现,从而进一步收窄结果。点击结果即可跳转到这些词被说出的那一刻。
瞬间变简单的搜索例子
你的视频库一旦完成索引,找到某个具体的口语瞬间就和打一个词一样快。转录搜索过滤器按词级检索;组合多个词时,可以要求 全部都要出现 来收窄结果,或者只要 任意一个出现 即可来放宽。
谁需要按口语内容搜索视频?
任何手里有一堆从未被建索引的语音录像的人。一些真实的情形:
拥有访谈档案的记者
三年下来八十小时的原始采访素材。ClipCatalog 在本地把它们转录;搜索你只记得一半的那句话,直接跳过去。原始素材始终不会离开你的笔记本。
录制视频播客的主播
嘉宾每次提到竞争对手、每次回扣到之前一期、每个可以做成 Shorts 的笑点。在所有节目里一次性搜索。
讲师和课程作者
学生问"您是在哪里讲到 X 的?",可以用时间戳回答,而不是"第四周的某处"。
处理证词录像的法务团队
按精确短语检索证词录像——录像始终不离开事务所的机器,客户材料完全不经过第三方转录服务。
纪录片导演
翻查三年的访谈花絮素材,把每一段提到某个人、某个地点或某个主题的片段都找出来——不必按分钟付费,也不必等云端往返。
家族史记录者
长辈讲过的故事你只记下了一部分。视频里有真正的版本。不用看完四十小时,就能找到"爷爷讲那艘船的那段"。
口语视频检索能给你什么
ClipCatalog 的转录流程力求务实和诚实。下面是开工前就成立的事实。
多语种转录
Whisper 支持数十种语言,按每段视频自动识别——无需手动配置。完整支持的语言列表请见下方 FAQ。
Windows 10/11,GPU 可选
ClipCatalog 在 Windows 10 和 11 上运行。性能不错的 GPU 能让转录更快;仅用 CPU 较慢但也能工作。无论哪种方式都只是一次性投入——存档建立索引后,搜索是即时的。
硬盘没插也能搜
文件夹一旦建好索引,转录文字就会留在你的电脑上。即使外置硬盘已经拔下,你依然可以搜索其中的片段——只有真的要播放原文件时才需要重新插上。
导出为 SRT 或 TXT
把完成的转录文字以 SRT 字幕方式拖进你的剪辑软件,或者导出为纯文本,跟视频一起发布。
为什么本地优先对口语内容尤其重要
口语录像是硬盘上最敏感的内容之一。带禁令的采访、证词、心理咨询会谈、家族故事。把这些上传的转录服务,等于让你信任他们的基础设施——而且在数据已经是他们的之后,还得继续信任。
ClipCatalog 在你的硬件上运行 Whisper。视频留在硬盘上。转录文字保存在你电脑里的本地 SQLite 数据库中。除非你主动选择分享,否则任何内容都不会外流。
如果你想把本地优先的视频工具放在一起比较,可以看看 隐私优先视频管理横评,了解 ClipCatalog 在离线转录和整库检索方面的定位。
按口语搜索视频 —— 常见问题
这会把我的视频上传到任何地方吗?
不会。转录完全在你本机进行,使用随软件附带的本地 Whisper 模型。首次启动下载完模型后,就不需要联网。
支持哪些语言?
几十种 —— 英语、德语、法语、西班牙语、葡萄牙语、俄语、阿拉伯语、日语、韩语、普通话等等。ClipCatalog 会按片段自动识别口语语言 —— 无需任何手动配置。
和 Otter、Rev 或 Trint 相比准确度如何?
ClipCatalog 使用 Whisper —— 多个商用服务都是基于这一模型系列构建的 —— 具体来说是 large-v3-turbo 模型,目前是 Whisper 系列中精度与速度平衡得最好的型号。精度可以对标使用同一模型系列的商用云服务。
可以一次性在多个视频里搜索吗?
是的——这正是重点。云端转录工具通常按文件处理;ClipCatalog 索引整个文件夹,让您一次性查询整个视频库。
在外置硬盘上能用吗?
可以。硬盘会被跟踪;即使硬盘没插,你仍然能在转录里搜索。结果会显示为不可用,直到你重新插上硬盘。
转录有多快?
ClipCatalog 仅内置一个 Whisper 模型(large-v3-turbo)——速度取决于您的硬件。在现代 GPU 上,转录通常以数倍于实时的速度进行。
可以把转录导出成字幕吗?
可以——每段视频的转录都可以导出为 SRT 字幕或纯文本。可以拖进剪辑软件,或者跟视频一起发布。
免费试用版包含转录功能吗?
包含——最多 500 段视频、总时长 10 小时,可完整使用包括转录搜索和人脸识别在内的所有功能。无需账号或信用卡。
音质很差的视频会怎样?
Whisper 在处理背景噪声和口音方面比旧的语音识别系统更好,但不是魔法。严重失真或音量很低的音频,转出来的文字也会不那么准确。
Mac 或 Linux 上能用吗?
ClipCatalog 目前仅支持 Windows(Windows 10 和 11)。短期内不会加入 Mac 和 Linux 支持。
把转录搜索和其他一切组合起来
口语搜索叠加在其他过滤器之上时最强大。每一层都会缩小结果列表,让你不必再去翻找误报。
相关比较
如果你正在将这一工作流程与其他工具比较,请先查看这些并排对比页面。
相关的问题导向指南
搜索 TB 级的视频库
当转录索引存在于一个多 TB 的档案中时,真正起作用的是层叠过滤器和保存的预设。大规模检索的伴随指南。
按画面内容查找空镜
如果你记得的不是某句台词,就从转录切到视觉标签 — 自动生成、覆盖整个视频库、无需手工打标。
整理硬盘和 NAS 上的素材
转录文本只有在目录真正覆盖每一块硬盘后才能发挥作用 — 这是把存储层统一起来的姊妹指南。
在你的视频库里找一个人
跨文件夹、跨硬盘、跨数年素材的人脸搜索——和口语搜索互为伴生的问题。
浏览所有 ClipCatalog 使用场景
用于在你本地视频库里找东西的、以问题为中心的指南和按受众分组的工作流。
免费试用 ClipCatalog — 最多可索引 500 个视频
无需注册账户。您的视频素材将始终保存在您的电脑上。