Gli embedding sono rappresentazioni numeriche di testo, immagini o video che acquisiscono le relazioni tra gli input. I modelli di machine learning, in particolare i modelli di AI generativa, sono adatti alla creazione di embedding perché identificano i pattern all'interno di set di dati di grandi dimensioni. Le applicazioni possono utilizzare gli embedding per elaborare e produrre il linguaggio, riconoscendo significati complessi e relazioni semantiche specifiche per i tuoi contenuti. Interagisci con gli embedding ogni volta che completi una Ricerca Google o vedi i consigli per lo streaming musicale.
Gli embedding funzionano convertendo testo, immagini e video in array di numeri in virgola mobile, chiamati vettori. Questi vettori sono progettati per acquisire il significato di testo, immagini e video. La lunghezza dell'array di embedding è chiamata dimensionalità del vettore. Ad esempio, un passaggio di testo potrebbe essere rappresentato da un vettore contenente centinaia di dimensioni. Quindi, calcolando la distanza numerica tra le rappresentazioni vettoriali di due brani di testo, un'applicazione può determinare la somiglianza tra gli oggetti.
Gemini Enterprise Agent Platform supporta i modelli di embedding di testo e multimodali.
Casi d'uso degli embedding di testo
Ecco alcuni casi d'uso comuni degli embedding di testo:
- Ricerca semantica: cerca testo classificato in base alla somiglianza semantica.
- Classificazione: restituisce la classe degli elementi i cui attributi di testo sono simili al testo specificato.
- Clustering: raggruppa gli elementi i cui attributi di testo sono simili al testo specificato.
- Rilevamento di valori anomali: restituisce gli elementi in cui gli attributi di testo sono meno correlati al testo specificato.
- Interfaccia conversazionale: raggruppa gruppi di frasi che possono portare a risposte simili, come in uno spazio di embedding a livello di conversazione.
Esempio di caso d'uso: sviluppare un chatbot di consigli sui libri
Se vuoi sviluppare un chatbot di consigli sui libri, la prima cosa da fare è utilizzare una rete neurale profonda (DNN) per convertire ogni libro in un vettore di embedding, dove un vettore di embedding rappresenta un libro. Puoi inserire come input nella DNN solo il titolo del libro o solo il contenuto testuale. In alternativa, puoi utilizzare entrambi insieme ad altri metadati che descrivono il libro, ad esempio il genere.
Gli embedding in questo esempio potrebbero essere composti da migliaia di titoli di libri con riepiloghi e il loro genere e potrebbero avere rappresentazioni di libri come Cime tempestose di Emily Brontë e Persuasione di Jane Austen simili tra loro (piccola distanza tra la rappresentazione numerica). La rappresentazione numerica del libro Il grande Gatsby di F. Scott Fitzgerald sarebbe più lontana, poiché il periodo di tempo, il genere e il riepilogo sono meno simili.
Gli input sono l'influenza principale sull'orientamento dello spazio di embedding. Ad esempio, se avessimo solo input di titoli di libri, due libri con titoli simili, ma riepiloghi molto diversi, potrebbero essere vicini. Tuttavia, se includiamo il titolo e il riepilogo, questi stessi libri sono meno simili (più distanti) nello spazio di embedding.
Utilizzando l'AI generativa, questo chatbot di suggerimenti sui libri potrebbe riassumere, suggerire e mostrarti i libri che potrebbero piacerti (o non piacerti) in base alla tua query.
Casi d'uso degli embedding multimodali
Ecco alcuni casi d'uso comuni degli embedding multimodali:
Casi d'uso di immagini e testo:
- Classificazione delle immagini: prende un'immagine come input e prevede una o più classi (etichette).
- Ricerca di immagini: cerca immagini pertinenti o simili.
- Consigli: genera consigli su prodotti o annunci in base alle immagini.
Casi d'uso di immagini, testo e video:
- Consigli: genera consigli su prodotti o annunci in base ai video (ricerca di somiglianza).
- Cerca contenuti video
- Utilizzo della ricerca semantica: prendi un testo come input e restituisci un insieme di frame classificati che corrispondono alla query.
- Utilizzo della ricerca di somiglianza:
- Prendi un video come input e restituisci un insieme di video che corrispondono alla query.
- Prendi un'immagine come input e restituisci un insieme di video che corrispondono alla query.
- Classificazione dei video: prende un video come input e prevede una o più classi.
Esempio di caso d'uso: esperienza di vendita al dettaglio online
I rivenditori online sfruttano sempre più gli embedding multimodali per migliorare l'esperienza dei clienti. Ogni volta che vedi consigli sui prodotti personalizzati durante lo shopping e ottieni risultati visivi da una ricerca di testo, interagisci con un embedding.
Se vuoi creare un embedding multimodale per un caso d'uso di vendita al dettaglio online, inizia elaborando ogni immagine prodotto per generare un embedding di immagine univoco, ovvero una rappresentazione matematica del suo stile visivo, della tavolozza dei colori, dei dettagli chiave e altro ancora. Allo stesso tempo, converti le descrizioni dei prodotti, le recensioni dei clienti e altri dati testuali pertinenti in embedding di testo che acquisiscono il loro significato semantico e il contesto. Unendo questi embedding di immagini e testo in un motore di ricerca e suggerimenti unificato, il negozio può offrire suggerimenti personalizzati di articoli visivamente simili in base alla cronologia di navigazione e alle preferenze di un cliente. Inoltre, consente ai clienti di cercare i prodotti utilizzando descrizioni in linguaggio naturale, con il motore che recupera e visualizza gli articoli visivamente più simili che corrispondono alla query di ricerca. Ad esempio, se un cliente cerca "Abito estivo nero", il motore di ricerca può mostrare abiti neri, con tagli estivi, realizzati in materiale più leggero e senza maniche. Questa potente combinazione di comprensione visiva e testuale crea un'esperienza di acquisto semplificata che migliora il coinvolgimento del cliente, la soddisfazione e, in definitiva, può aumentare le vendite.
Passaggi successivi
- Per scoprire di più sugli embedding, consulta Scopri lo strumento multiuso dell'AI: gli embedding vettoriali.
- Per seguire un corso intensivo di ML di base sugli embedding, consulta Embedding.
- Per scoprire di più su come archiviare gli embedding vettoriali in un database, consulta la Panoramica della ricerca vettoriale.
- Per scoprire di più sulle best practice per l'AI responsabile e sui filtri di sicurezza di Gemini Enterprise Agent Platform, consulta AI responsabile.
- Per scoprire come ottenere gli embedding, consulta i seguenti documenti: