Panoramica delle API Embeddings

Gli embedding sono rappresentazioni numeriche di testo, immagini o video che acquisiscono le relazioni tra gli input. I modelli di machine learning, in particolare quelli di AI generativa, sono adatti alla creazione di incorporamenti identificando pattern all'interno di grandi set di dati. Le applicazioni possono utilizzare gli incorporamenti per elaborare e produrre il linguaggio, riconoscendo significati complessi e relazioni semantiche specifiche per i tuoi contenuti. Interagisci con gli incorporamenti ogni volta che completi una Ricerca Google o visualizzi consigli di streaming musicale.

Gli embedding funzionano convertendo testo, immagini e video in array di numeri in virgola mobile, chiamati vettori. Questi vettori sono progettati per acquisire il significato di testo, immagini e video. La lunghezza dell'array di embedding è chiamata dimensionalità del vettore. Ad esempio, un passaggio di testo potrebbe essere rappresentato da un vettore contenente centinaia di dimensioni. Quindi, calcolando la distanza numerica tra le rappresentazioni vettoriali di due porzioni di testo, un'applicazione può determinare la somiglianza tra gli oggetti.

Vertex AI supporta due tipi di modelli di embedding: di testo e multimodali.

Casi d'uso degli incorporamenti di testo

Alcuni casi d'uso comuni per gli incorporamenti di testo includono:

  • Ricerca semantica: ricerca di testo classificato in base alla similarità semantica.
  • Classificazione: restituisce la classe degli elementi i cui attributi di testo sono simili al testo specificato.
  • Clustering: raggruppa gli articoli i cui attributi di testo sono simili al testo fornito.
  • Rilevamento di valori anomali: restituisce gli elementi in cui gli attributi di testo sono meno correlati al testo specificato.
  • Interfaccia conversazionale: raggruppa gruppi di frasi che possono portare a risposte simili, come in uno spazio di incorporamento a livello di conversazione.

Caso d'uso di esempio: sviluppare un chatbot per consigli sui libri

Se vuoi sviluppare un chatbot per consigli sui libri, la prima cosa da fare è utilizzare una rete neurale profonda (DNN) per convertire ogni libro in un vettore di incorporamento, in cui un vettore di incorporamento rappresenta un libro. Puoi fornire come input alla DNN solo il titolo del libro o solo il contenuto del testo. In alternativa, puoi utilizzare entrambi insieme, insieme a qualsiasi altro metadato che descriva il libro, come il genere.

Gli incorporamenti in questo esempio potrebbero essere costituiti da migliaia di titoli di libri con riassunti e genere e potrebbero avere rappresentazioni per libri come Cime tempestose di Emily Brontë e Persuasione di Jane Austen che sono simili tra loro (piccola distanza tra la rappresentazione numerica). Mentre la rappresentazione numerica del libro Il grande Gatsby di F. Scott Fitzgerald sarebbe più lontano, in quanto il periodo di tempo, il genere e il riepilogo sono meno simili.

Gli input sono l'influenza principale sull'orientamento dello spazio di incorporamento. Ad esempio, se avessimo solo input di titoli di libri, due libri con titoli simili, ma riassunti molto diversi, potrebbero essere vicini. Tuttavia, se includiamo il titolo e il riepilogo, questi stessi libri sono meno simili (più distanti) nello spazio di embedding.

Grazie all'AI generativa, questo chatbot di suggerimenti di libri può riassumere, suggerire e mostrarti libri che potrebbero piacerti (o non piacerti) in base alla tua query.

Casi d'uso degli embedding multimodali

Alcuni casi d'uso comuni per gli incorporamenti multimodali includono:

  • Casi d'uso di immagini e testo:

    • Classificazione delle immagini: prende un'immagine come input e prevede una o più classi (etichette).
    • Ricerca di immagini: cerca immagini pertinenti o simili.
    • Suggerimenti: genera consigli su prodotti o annunci in base alle immagini.
  • Casi d'uso di immagini, testo e video:

    • Consigli: genera consigli su prodotti o pubblicità in base ai video (ricerca per somiglianza).
    • Ricerca di contenuti video
    • Utilizzo della ricerca semantica: prendi un testo come input e restituisci un insieme di frame classificati che corrispondono alla query.
    • Utilizzare la ricerca per somiglianza:
      • Prendi un video come input e restituisci un insieme di video corrispondenti alla query.
      • Prende un'immagine come input e restituisce un insieme di video corrispondenti alla query.
    • Classificazione dei video: prende un video come input e prevede una o più classi.

Esempio di caso d'uso: esperienza di vendita al dettaglio online

I rivenditori online sfruttano sempre più gli incorporamenti multimodali per migliorare l'esperienza dei clienti. Ogni volta che vedi consigli sui prodotti personalizzati mentre fai acquisti e ottieni risultati visivi da una ricerca di testo, stai interagendo con un embedding.

Se vuoi creare un incorporamento multimodale per un caso d'uso di vendita al dettaglio online, inizia elaborando ogni immagine del prodotto per generare un incorporamento unico dell'immagine, che è una rappresentazione matematica del suo stile visivo, della tavolozza dei colori, dei dettagli chiave e altro ancora. Contemporaneamente, converti le descrizioni dei prodotti, le recensioni dei clienti e altri dati testuali pertinenti in incorporamenti di testo che acquisiscono il significato semantico e il contesto. Unendo questi incorporamenti di immagini e testo in un motore di ricerca e consigli unificato, il negozio può offrire consigli personalizzati di articoli visivamente simili in base alla cronologia di navigazione e alle preferenze di un cliente. Inoltre, consente ai clienti di cercare prodotti utilizzando descrizioni in linguaggio naturale, con il motore che recupera e mostra gli articoli visivamente più simili che corrispondono alla query di ricerca. Ad esempio, se un cliente cerca "abito estivo nero", il motore di ricerca può mostrare abiti neri, con taglio estivo, realizzati in materiale più leggero e senza maniche. Questa potente combinazione di comprensione visiva e testuale crea un'esperienza di acquisto semplificata che migliora il coinvolgimento, la soddisfazione e, in definitiva, può aumentare le vendite.

Passaggi successivi