Categories: Empresas

Marvel, el buscador de vídeo y audio

Los investigadores de IBM están intentando crear un motor de búsqueda, llamado en clave Marvel, que intentará recuperar vídeo y audio a través de Internet.

La idea es que en el futuro, un usuario sea capaz de describir una escena o buscar un debate y conseguir archivos de vídeo procedentes de las miles de horas de audio y vídeo que generan los medios de comunicación audiovisuales, los estudios y, quizá, los propios usuarios cada año.

Aunque los actuales motores de búsqueda como Google o Yahoo pueden ofrecer entre sus resultados de búsqueda imágenes o vídeo clips, no buscan realmente entre las imágenes que contienen esos archivos, sino en el texto adjunto a ellos. De esta forma, sólo pueden ofrecer un pequeño número de archivos que han sido apropiadamente identificados.

“Actualmente, indexar el contenido requiere un etiquetado manual de ese contenido”, comentaba John R. Smith, director señor de gestión de información inteligente en IBM Research. “Estamos intentando indexar contenido in utilizar textos ni anotaciones manuales”.

El etiquetado manual supone demasiado esfuerzo. Una secuencia de vídeo de 30 minutos puede llevar cinco horas de análisis y clasificación. Y lo que es peor, la información que necesita ser clasificada, se deshecha. Una encuesta llevada a cabo por la Universidad de California determinó que las televisiones de todo el mundo produjeron cerca de 123 millones de horas de programación en 2002. Del total, sólo 31 millones de horas representaban la programación original, lo que se traduce en 70.000 terabytes de datos. Y esto sin tener en cuenta los vídeos de las cámaras de seguridad ni los vídeos caseros.

A diferencia del etiquetado manual, Marvel está diseñado para categorizar automáticamente los clips utilizando frases como “ruido de motor”, “paisaje urbano”, “aire libre”, “interiores”, que describen las acciones del clip.

El equipo de investigación de Marvel, que está trabajando en el proyecto con librerías y unas cuentas organizaciones de noticias seleccionadas, como CNN, mostraron los primeros prototipos de su investigación en una conferencia celebrada en la Universidad de Cambridge el pasado mes de agosto. El sistema prototipo puede examinar una base de datos de más de 200 horas de vídeos de noticias y utilizar 100 términos descriptivos diferentes e identificar escenas. IBM espera tener 1.000 etiquetas descriptivas en abril.

Una petición puede responderse en unos dos o tres segundos. Marvel está basado en el formato de datos MPEG-7, aunque puede buscar en cualquier otro formato de vídeo estándar.

Redacción

Recent Posts

Google paga 5.000 millones de dólares para resolver una demanda colectiva

Los usuarios denunciaban que la compañía los había rastreado incluso cuando usaban el modo privado…

11 meses ago

Las pymes valencianas pueden optar a ayudas de 5,5 millones de euros por proyectos de I+D

El Instituto Valenciano de Competitividad Empresarial financiará aquellas iniciativas que puedan solucionar incertidumbres científicas o…

11 meses ago

La guerra entre Israel y Gaza no acobarda a los inversores extranjeros de startups

Solo en el cuarto trimestre las empresas emergentes del país han levantado 1.500 millones de…

11 meses ago

Navarra ya cuenta con más de 80 startups

La región tiene 13 scaleups y destaca por sus empresas emergentes de salud y agrotech.

11 meses ago

Las startups valencianas progresaron adecuadamente en 2023

Valencia ha atraído en el primer semestre del año 30 millones de euros de inversión…

11 meses ago

El New York Times acusa a Open AI y Microsoft de infringir sus derechos de autor

El diario estadounidense demanda a las dos compañías tecnológicas por haber usado sus contenidos para…

11 meses ago