Búsqueda por transcripción: encuentra clips de vídeo por lo que se dijo.
ClipCatalog convierte el audio de tus vídeos en texto que se puede buscar, de forma local, en tu PC Windows. Escribe una palabra pronunciada y salta directamente al momento en que se dijo. Perfecto para entrevistas, fragmentos de audio, locuciones y cualquier material en el que el diálogo sea importante.
Prueba ClipCatalog gratis: hasta 500 vídeos.
No es necesario crear una cuenta. Las imágenes permanecen en tu ordenador.
Busca nombres y palabras clave en toda tu biblioteca, sin necesidad de desplazarte por la línea de tiempo. Encuentra la línea que necesitas en segundos, en lugar de volver a ver horas de metraje.
Los resultados enlazan directamente con el clip que contiene las palabras coincidentes. Previsualiza para confirmar y, a continuación, envíalo a tu editor: ya no tendrás que adivinar qué archivo contiene la toma que necesitas.
Descarga los subtítulos como texto sin formato o archivos de subtítulos SRT. Úsalos en tu editor de vídeo no lineal, súbelos a YouTube o archívalos junto con tu material de vídeo para consultarlos en el futuro.
Exportar como texto sin formato, subtítulos SRT o copiar al portapapeles.
Cómo funciona la búsqueda de transcripciones
ClipCatalog extrae el audio de cada vídeo, lo procesa mediante un motor local de conversión de voz a texto Whisper y almacena las transcripciones alineadas en el tiempo en su biblioteca cifrada. A continuación, todas las palabras pronunciadas se pueden buscar al instante.
Añade cualquier carpeta de vídeo: unidad interna, SSD externa o un volcado de proyecto. ClipCatalog escanea y detecta automáticamente todos los archivos de vídeo compatibles.
ClipCatalog extrae el audio y ejecuta la transcripción de Whisper en tu máquina. La aceleración GPU a través de Vulkan está disponible si tu hardware lo admite; de lo contrario, se recurre automáticamente a CPU.
Escribe cualquier palabra y ClipCatalog mostrará los clips coincidentes. Combina las palabras de la transcripción con el contenido detectado, los filtros faciales, los rangos de fechas y mucho más para encontrar exactamente lo que necesitas.
Filtros de transcripción: palabras, idioma y cobertura del habla.
ClipCatalog le ofrece tres filtros basados en transcripciones que van más allá de la simple búsqueda por palabras clave:
Busca una palabra pronunciada para encontrar clips en los que se haya dicho.
Filtrar por idioma detectado: útil cuando tu biblioteca contiene material en varios idiomas y deseas limitar la búsqueda a uno solo.
Establezca un porcentaje mínimo/máximo de diálogo para encontrar clips «principalmente hablados» (entrevistas, narraciones) o clips «principalmente silenciosos» (ambiente, tomas secundarias panorámicas).
Ejemplos de búsqueda en transcripciones
La búsqueda en transcripciones resulta muy útil cuando recuerdas una palabra que alguien dijo, pero no sabes dónde se encuentra el archivo. Estos son los tipos de búsquedas de palabras que realizan los creadores:
Puedes combinar las búsquedas de transcripciones con otros filtros; por ejemplo, buscar una palabra y luego limitar la búsqueda a un intervalo de fechas específico, una carpeta concreta o clips en los que aparezca el rostro de una persona determinada. Explora todos los filtros de búsqueda →
Flujos de trabajo de búsqueda de transcripciones para editores de vídeo
Tienes 20 horas de grabaciones de entrevistas realizadas durante varios días. En lugar de volver a verlas todas, busca el tema o las palabras clave que necesitas (infancia, primer trabajo, punto de inflexión) y ve directamente a los momentos que son importantes para montar tu historia.
Tu cliente quiere un clip de 15 segundos del director ejecutivo hablando sobre un lanzamiento para LinkedIn. En lugar de revisar toda la charla, busca un par de palabras clave y extrae el clip directamente.
Has grabado una transmisión de dos horas y necesitas encontrar los mejores momentos para recortar. Busca palabras clave o reacciones que recuerdes, previsualiza los resultados y exporta los clips, sin necesidad de revisar manualmente toda la grabación.
¿Necesitas archivos SRT por motivos de accesibilidad o requisitos de la plataforma? ClipCatalog transcribe como parte del proceso de indexación, por lo que puedes exportar archivos de subtítulos directamente, sin necesidad de realizar una transcripción por separado ni recurrir a servicios de terceros.
Categorización automática de tipos de metraje
Una vez que ClipCatalog ha procesado el habla, detectado el contenido y los rostros de tus clips, clasifica automáticamente cada vídeo en tipos de metraje: diálogo, voz en off y escenario.


Clips con personas hablando ante la cámara: entrevistas, tertulianos, conversaciones. Ideal para encontrar fragmentos de entrevistas o material de archivo.
Discurso sin un orador visible: narración, comentarios sobre material de archivo, audio tutorial. Útil para separar las pistas de narración del contenido visual.
Imágenes con poco o ningún diálogo: paisajes, material de archivo, tomas de establecimiento, clips ambientales. Filtra estas imágenes cuando necesites material visual sin diálogo.
Puedes filtrar y ordenar por tipo de metraje compartido para encontrar rápidamente el clip adecuado para tu edición. Esto funciona junto con la búsqueda de transcripciones; por ejemplo, busca una palabra y filtra solo los clips con diálogo. Explora todos los filtros de búsqueda →
Qué esperar de la búsqueda de expedientes académicos
La transcripción funciona mejor con audio claro y bien grabado: entrevistas en una sala silenciosa, narraciones, voces en off. Estos son precisamente los tipos de clips en los que encontrar una línea específica ahorra más tiempo.
El ruido de fondo intenso, la superposición de voces y los acentos marcados pueden reducir la precisión. ClipCatalog incluye controles de calidad para suprimir las transcripciones de baja fiabilidad, de modo que no obtengas resultados basura que obstaculicen tus búsquedas.
En Windows, la transcripción puede utilizar su GPU a través de Vulkan para un procesamiento más rápido. ClipCatalog incluso incluye una prueba de rendimiento integrada para comparar las velocidades de CPU y GPU en su hardware y seleccionar automáticamente el mejor backend. Más información sobre la aceleración GPU →
El audio nunca sale de tu ordenador. El motor Whisper se ejecuta íntegramente en tu equipo, por lo que el contenido confidencial de las entrevistas, las grabaciones de los clientes y las grabaciones personales permanecen privados. Más información sobre la privacidad local primero →
Preguntas frecuentes
No, ClipCatalog ejecuta la conversión de voz a texto íntegramente en tu ordenador utilizando un motor Whisper local. Tus archivos de audio y vídeo nunca se suben a un servicio en la nube.
Todavía no. ClipCatalog busca palabras transcritas (palabras sueltas), no frases exactas ni citas en orden.
ClipCatalog utiliza Whisper, un modelo de reconocimiento de voz muy apreciado. La precisión suele ser buena para el habla clara en los idiomas compatibles, pero puede variar en caso de acentos marcados, ruido de fondo o solapamiento de voces. La aplicación incluye controles de calidad para suprimir los resultados poco fiables.
Whisper admite muchos idiomas. ClipCatalog detecta automáticamente el idioma hablado y puedes filtrar tu biblioteca por idioma de transcripción. La interfaz de usuario de la aplicación y el contenido detectado están localizados en 10 idiomas.
Sí, las transcripciones se pueden exportar como archivos de texto sin formato o archivos de subtítulos SRT, listos para usar en tu editor o para publicar subtítulos en plataformas como YouTube.
Una vez descargados los modelos de IA en el primer inicio, la transcripción y la búsqueda se realizan localmente sin conexión a Internet. La validación de la licencia requiere conexión a Internet de vez en cuando.
La transcripción se ejecuta durante el paso de procesamiento único, no cada vez que se realiza una búsqueda. Después de la indexación, las búsquedas se realizan al instante. Si dispone de un GPU capaz, el procesamiento es más rápido con la transcripción acelerada por Vulkan.
Sí. Puede combinar palabras transcritas con contenido detectado, filtros faciales, rangos de fechas, carpetas, metadatos de la cámara y mucho más, todo en una sola consulta. Cada filtro reduce aún más los resultados.
Combinar la búsqueda de transcripciones con otros filtros
La búsqueda de transcripciones es muy potente por sí sola, pero la verdadera ventaja es combinarla con otras dimensiones de búsqueda en ClipCatalog para pasar de miles de clips al momento exacto que necesitas. Entre palabras, etiquetas y rostros, puedes cambiar entre Todas/Cualquiera coincidencia (AND/OR).
Combina lo que se dice con lo que aparece en pantalla: busca por diálogo y contenido de la escena al mismo tiempo.
Busca clips en los que una persona concreta hable sobre un tema específico: filtra por rostro y transcripción a la vez.
Busque transcripciones en unidades de archivo, incluso en aquellas que estén desconectadas actualmente.
Superponga palabras transcritas con la fecha, la carpeta, la resolución, la velocidad de fotogramas, la cobertura del discurso y mucho más.
Lo mejor para
- Los realizadores de documentales extraen citas de horas de material de entrevistas.
- YouTubers y vloggers recopilan fragmentos destacados de grabaciones largas.
- Editores de podcasts que buscan temas específicos en los episodios.
- Equipos de vídeo corporativo que buscan fragmentos de audio para redes sociales o comunicaciones internas.
Pruébalas con una carpeta.
La mejor manera de comprobar si la búsqueda de transcripciones funciona con tu material: elige una carpeta con clips que contengan muchas entrevistas o diálogos, deja que ClipCatalog la procese y, a continuación, intenta buscar entre 3 y 5 cosas específicas que haya dicho alguien. Notarás la diferencia inmediatamente.
Comprender la búsqueda de transcripciones para vídeos
Ya sea que lo llames búsqueda de voz a texto, búsqueda de diálogo o «Ctrl+F para vídeo», la idea es la misma: dejar que el software convierta las palabras habladas en texto para que puedas buscar en tus grabaciones por lo que se dijo, y no solo por los nombres de los archivos o la estructura de las carpetas.
Los servicios de transcripción en la nube cobran por minuto de audio. Con ClipCatalog, el modelo Whisper se ejecuta en tu hardware, sin costes por vídeo, sin tiempos de espera para la carga y sin suscripciones continuas. La velocidad de procesamiento depende de su máquina: un GPU potente lo hace rápido, mientras que solo con CPU será más lento para bibliotecas grandes. En cualquier caso, es un coste único: una vez que su archivo está indexado, las búsquedas son instantáneas y nunca más tendrá que volver a pagar.
Los editores suelen recordar algunas palabras o un tema de una grabación, pero no tienen ni idea de en qué archivo se encuentra. Sin la búsqueda de transcripciones, la única opción es revisar los clips uno por uno o volver a ver las entrevistas completas. Con las transcripciones buscables, solo hay que escribir lo que se recuerda y los clips coincidentes aparecen en cuestión de segundos, lo que ahorra horas de revisión manual.
Una búsqueda de una sola palabra puede arrojar docenas de clips. El verdadero poder de la búsqueda de transcripciones de ClipCatalog reside en combinarla con otros filtros: busque «presupuesto» y limite los resultados a clips de un intervalo de fechas específico, una carpeta concreta o clips etiquetados con «entrevista» por el etiquetador visual de IA. Cada filtro adicional reduce los resultados, por lo que no tendrá que revisar falsos positivos. Explora todos los filtros de búsqueda →
ClipCatalog realiza un seguimiento de la cantidad de cada clip que contiene diálogo (cobertura de diálogo). Esto le permite hacer cosas como «mostrarme clips que sean principalmente diálogos» (selecciones de entrevistas) o «mostrarme clips con muy poco diálogo» (material adicional de escenas). Es una forma sorprendentemente útil de separar el metraje con mucho diálogo del contenido ambiental o musical.
Prueba ClipCatalog gratis: hasta 500 vídeos.
No es necesario crear una cuenta. Las imágenes permanecen en tu ordenador.