Einbettungs-APIs – Übersicht

Einbettungen sind numerische Darstellungen von Text, Bildern oder Videos, die Beziehungen zwischen Eingaben aufnehmen. Modelle für maschinelles Lernen, insbesondere generative KI-Modelle, eignen sich zum Erstellen von Einbettungen, da sie Muster in großen Datasets erkennen. Anwendungen können Einbettungen verwenden, um Sprache zu verarbeiten und zu erzeugen und komplexe Bedeutungen und semantische Beziehungen zu erkennen, die für Ihre Inhalte spezifisch sind. Sie interagieren mit Einbettungen jedes Mal, wenn Sie eine Google Suche durchführen oder Empfehlungen für Musikstreaming sehen.

Bei Einbettungen werden Text, Bilder und Videos in Arrays von Gleitkommazahlen umgewandelt, die als Vektoren bezeichnet werden. Diese Vektoren sind so konzipiert, dass sie die Bedeutung von Text, Bildern und Videos erfassen. Die Länge des Einbettungsarrays wird als Dimensionalität des Vektors bezeichnet. Ein Textabschnitt kann beispielsweise durch einen Vektor mit Hunderten von Dimensionen dargestellt werden. Durch die Berechnung des numerischen Abstands zwischen den Vektordarstellungen von zwei Texten kann eine Anwendung die Ähnlichkeit zwischen den Objekten bestimmen.

Die Gemini Enterprise Agent Platform unterstützt Text- und multimodale Einbettungsmodelle.

Anwendungsfälle für Texteinbettungen

Typische Anwendungsfälle für Texteinbettungen:

  • Semantische Suche: Suchtext, geordnet nach der semantischen Ähnlichkeit.
  • Klassifizierung: Gibt die Klasse von Elementen zurück, deren Textattribute dem angegebenen Text ähneln.
  • Clustering: Clusterelemente, deren Textattribute dem angegebenen Text ähneln.
  • Ausreißererkennung: Gibt Elemente zurück, bei denen Textattribute am wenigsten mit dem angegebenen Text zusammenhängen.
  • Unterhaltungsschnittstelle: Gruppiert Gruppen von Sätzen, die zu ähnlichen Antworten führen können, z. B. in einem Einbettungsbereich auf Unterhaltungsebene.

Beispiel für einen Anwendungsfall: Entwicklung eines Chatbots für Buchempfehlungen

Wenn Sie einen Chatbot für Buchempfehlungen entwickeln möchten, müssen Sie zuerst ein neuronales Deep-Learning-Netzwerk (DNN, Deep Neural Network) verwenden, um die einzelnen Bücher in Einbettungsvektoren umzuwandeln, wobei ein Einbettungsvektor ein Buch darstellt. Als Eingabe in den DNN können wir nur den Buchtitel oder nur den Textinhalt einspeisen. Oder Sie verwenden beide zusammen mit anderen Metadaten, die das Buch beschreiben, z. B. das Genre.

Die Einbettungen in diesem Beispiel könnten aus Tausenden von Buchtiteln mit Zusammenfassungen und ihrem Genre bestehen und möglicherweise Darstellungen für Bücher wie diese haben. Sturmhöhe von Emily Brontë und Anne Elliot von Jane Austen, die sich gegenseitig ähneln (kleine Entfernung zwischen numerischer Darstellung). Die numerische Darstellung für das Buch Der große Gatsby von F. Scott Fitzgerald wäre weniger nah, da Zeitraum, Genre und Zusammenfassung weniger ähnlich sind.

Die Eingaben stellen den wichtigsten Einfluss auf die Ausrichtung des Einbettungsbereichs dar. Wenn wir beispielsweise nur Buch-Titel als Eingabe haben, könnten zwei Bücher mit ähnlichen Titeln, aber sehr unterschiedlichen Zusammenfassungen, nahe beieinander liegen. Wenn wir jedoch den Titel und die Zusammenfassung einschließen, sind diese Bücher im Einbettungsbereich weniger ähnlich (weiter weg).

Wenn dieser Chatbot mit Generative AI arbeitet, kann er anhand Ihrer Abfrage Bücher zusammenfassen, vorschlagen und Ihnen Bücher anzeigen, die Ihnen gefallen oder nicht gefallen könnten.

Anwendungsfälle für multimodale Einbettungen

Typische Anwendungsfälle für multimodale Einbettungen:

  • Anwendungsfälle für Bilder und Text:

    • Bildklassifizierung: Nimmt ein Bild als Eingabe und sagt eine oder mehrere Klassen (Labels) vorher.
    • Bildersuche: Nach relevanten oder ähnlichen Bildern suchen.
    • Empfehlungen: Generiert Produkt- oder Anzeigenempfehlungen auf Basis von Bildern.
  • Anwendungsfälle für Bilder, Text und Videos:

    • Empfehlungen: Produkt- oder Werbeempfehlungen auf Basis von Videos generieren (Ähnlichkeitssuche).
    • Suche nach Videoinhalten
    • Semantische Suche verwenden: Nimmt einen Text als Eingabe und gibt eine Reihe von eingestuften Frames zurück, die mit der Abfrage übereinstimmen.
    • Ähnlichkeitssuche verwenden:
      • Nehmen Sie ein Video als Eingabe und geben Sie eine Reihe von Videos zurück, die der Abfrage entsprechen.
      • Nehmen Sie ein Bild als Eingabe und geben Sie eine Reihe von Videos zurück, die der Abfrage entsprechen.
    • Videoklassifizierung: Nimmt ein Video als Eingabe und sagt eine oder mehrere Klassen vorher.

Beispiel für einen Anwendungsfall: Onlinehandel

Onlinehändler nutzen zunehmend multimodale Einbettungen, um das Kundenerlebnis zu verbessern. Jedes Mal, wenn Sie beim Einkaufen personalisierte Produktempfehlungen sehen und visuelle Ergebnisse aus einer Textsuche erhalten, interagieren Sie mit einem Embedding.

Wenn Sie eine multimodale Einbettung für einen Online-Einzelhandelsanwendungsfall erstellen möchten, verarbeiten Sie zuerst jedes Produktbild, um eine eindeutige Bildeinbettung zu erstellen. Dabei handelt es sich um eine mathematische Darstellung des visuellen Stils, der Farbpalette und Schlüsseldetails und mehr. Sie können gleichzeitig Produktbeschreibungen, Kundenrezensionen und andere relevante Textdaten in Texteinbettungen umwandeln, die ihre semantische Bedeutung und ihren Kontext erfassen Durch das Zusammenführen dieser Bild- und Texteinbettungen in eine einheitliche Such- und Empfehlungsmaschine kann der Shop personalisierte Empfehlungen für visuell ähnliche Artikel basierend auf dem Browserverlauf und den Einstellungen eines Kunden anbieten. Außerdem können Kunden damit über Beschreibungen in natürlicher Sprache nach Produkten suchen, wobei die Suchmaschine die Produkte abruft und darstellt, die der Suchanfrage visuell am ähnlichsten sind. Wenn ein Kunde zum Beispiel nach "Schwarzes Sommerkleid" sucht, kann die Suchmaschine Kleider anzeigen lassen, die schwarz sind und auch Damenkleider mit sommerlichen ärmellosen Schnitten aus leichterem Material. Diese leistungsstarke Kombination aus visueller und textbasierter Analyse sorgt für ein optimiertes Einkaufserlebnis, das die Kundeninteraktion und ‑zufriedenheit steigert und letztendlich den Umsatz steigern kann.

Nächste Schritte