Vision Warehouse est une API qui permet aux développeurs d'intégrer le stockage et la recherche basée sur l'IA de contenus multimédias non structurés (vidéos en streaming, images et vidéos par lot) dans les outils et applications existants.
Vision Warehouse est un composant majeur de Gemini Enterprise Agent Platform Vision. Il sert de dépôt de stockage et fournit des fonctionnalités de recherche avancées pour plusieurs types de données et cas d'utilisation. Plus spécifiquement :
- Vidéo en streaming : vous pouvez importer des flux vidéo en direct et des données d'analyse vidéo en direct à l'aide de l'application Vision de la plate-forme Gemini Enterprise Agent ou de l'API entrepôt Vision, et rechercher des images à l'aide de l'API entrepôt Vision ou de la console Google Cloud .
- Image : vous pouvez importer des images et des métadonnées à l'aide de l'API entrepôt Vision, analyser des images à l'aide de l'API entrepôt Vision et rechercher des images à l'aide de l'API entrepôt Vision ou de la console Google Cloud .
- Vidéos par lot : vous pouvez importer des vidéos et des métadonnées par lot à l'aide de l'API entrepôt Vision, analyser des vidéos par lot à l'aide de l'API entrepôt Vision et rechercher des vidéos par lot à l'aide de l'API entrepôt Vision ou de la console Google Cloud .
Présentation des ressources d'API

Ressources de l'API Storage
Corpus : conteneur qui contient des composants multimédias d'un type particulier. Vous pouvez créer plusieurs corpus pour organiser différents types de composants multimédias.
Élément : objet multimédia stocké dans un corpus. Les composants peuvent être des images, des vidéos par lot ou des flux vidéo. Un corpus contient généralement de nombreux composants du même type. Vous pouvez spécifier des annotations associées aux composants. Les composants peuvent également être regroupés dans des collections pour être gérés.
Collection : ressource d'un corpus qui sert de conteneur de références à des composants.
Annotation : métadonnées fournies par l'utilisateur ou données dérivées de la fonctionnalité Vision de Gemini Enterprise Agent Platform associées à un composant. Un élément peut comporter plusieurs annotations.
- Exemple 1 : Spécifiez une annotation de texte nommée "video-title" pour les composants vidéo par lot.
- Exemple 2 : Stocker les données analysées à partir des modèles Vision de Gemini Enterprise Agent Platform sous forme d'annotations. Par exemple, les libellés de reconnaissance d'objets dans différentes périodes d'une vidéo peuvent être stockés sous forme d'annotations.
Schéma de données : définit la façon dont une annotation est interprétée dans un corpus. Un schéma de données définit un type d'annotation et sa stratégie de recherche. Chaque annotation doit être associée à un schéma de données.
Ressources de l'API Search
Index (disponible pour les secteurs verticaux des images et des vidéos par lot) : ressource au niveau du corpus qui est une représentation gérée des composants et des annotations analysés. Un index peut être considéré comme un ensemble de données de vecteurs d'embedding et de restrictions sémantiques qui représentent la signification du contenu multimédia. Les index peuvent être déployés dans des points de terminaison d'index pour la recherche.
Point de terminaison d'index (disponible pour les secteurs verticaux des images et des vidéos par lot) : environnement géré qui diffuse les index Vision Warehouse. Les points de terminaison d'index fournissent un point d'accès unique pour l'envoi de requêtes de recherche.
Configuration de la recherche : stocke différentes propriétés qui affectent les comportements de recherche et les résultats de recherche.
- Propriété de facette (disponible pour le secteur des vidéos en streaming) : crée une configuration pour activer les résultats de recherche d'histogrammes basés sur des facettes.
- Propriété des critères de recherche (disponible pour les secteurs des vidéos en streaming et des vidéos par lot) : crée un mappage entre un critère de recherche personnalisé et une ou plusieurs clés de schéma de données.
Rechercher un hypernyme : type spécifique de configuration de recherche qui vous permet de personnaliser la capacité du service de recherche à reconnaître les hypernymes de mots. Par exemple, les utilisateurs peuvent spécifier "animal" comme hypernyme de "chat" et "chien". Si vous recherchez "animal", vous obtiendrez également des résultats contenant "chat" et "chien" dans les données d'index.
Langues disponibles
Les entrepôts de vidéos et d'images par lot sont compatibles avec les langues suivantes pour la recherche sémantique :
- Anglais
- Espagnol
- Portugais
- Français
- Japonais
- Chinois
Streaming Warehouse n'est pas soumis à des restrictions linguistiques.
Étapes suivantes
- Comprenez les principaux parcours utilisateur de l'API pour chaque verticale média : streaming vidéo, image et vidéo par lot.
- Découvrez les quotas et les limites de l'entrepôt Vision.
- Familiarisez-vous avec la tarification.
- Découvrez comment obtenir de l'aide.