Guida per principianti all'IA generativa

Questa guida per principianti ti introduce alle tecnologie di base dell'AI generativa e spiega come si combinano per alimentare chatbot e applicazioni. L'AI generativa (nota anche come genAI o gen AI) è un campo del machine learning (ML) che sviluppa e utilizza modelli di ML per generare nuovi contenuti.

I modelli di AI generativa vengono spesso chiamati modelli linguistici di grandi dimensioni (LLM) a causa delle loro dimensioni e della loro capacità di comprendere e generare il linguaggio naturale. Tuttavia, a seconda dei dati su cui vengono addestrati, questi modelli possono comprendere e generare contenuti da più modalità, tra cui testo, immagini, video e audio. I modelli che funzionano con più modalità di dati sono chiamati modelli multimodali.

Google fornisce la Gemini di modelli di AI generativa Gemini progettati per casi d'uso multimodali, in grado di elaborare informazioni da più modalità, tra cui immagini, video, e testo.

Generazione di contenuti

Affinché i modelli di AI generativa generino contenuti utili nelle applicazioni del mondo reale, devono avere le seguenti funzionalità:

Imparare a svolgere nuove attività:

I modelli di AI generativa sono progettati per svolgere attività generiche. Se vuoi che un modello svolga attività specifiche per il tuo caso d'uso, devi essere in grado di personalizzarlo. Su Gemini Enterprise Agent Platform, puoi personalizzare il modello tramite l'ottimizzazione del modello.
Accedere a informazioni esterne:

I modelli di AI generativa vengono addestrati su grandi quantità di dati. Tuttavia, affinché questi modelli siano utili, devono essere in grado di accedere a informazioni esterne ai dati di addestramento. Ad esempio, se vuoi creare un chatbot di assistenza clienti basato su un modello di AI generativa, il modello deve avere accesso alle informazioni sui prodotti e sui servizi che offri. In Gemini Enterprise Agent Platform, utilizzi le funzionalità di grounding e chiamata di funzione per aiutare il modello ad accedere a informazioni esterne.
Bloccare i contenuti dannosi:

I modelli di AI generativa potrebbero generare output imprevisti, incluso testo offensivo o insensibile. Per mantenere la sicurezza e prevenire l'uso improprio, i modelli hanno bisogno di filtri di sicurezza per bloccare i prompt e le risposte che vengono considerati potenzialmente dannosi. Gemini Enterprise Agent Platform include funzionalità di sicurezza integrate che promuovono l'uso responsabile dei nostri servizi di AI generativa.

Prompt

Il flusso di lavoro dell'AI generativa in genere inizia con il prompting. Un prompt è una richiesta in linguaggio naturale inviata a un modello di AI generativa per ottenere una risposta. A seconda del modello, un prompt può contenere testo, immagini, video, audio, documenti e altre modalità o anche più modalità (multimodale).

La creazione di un prompt per ottenere la risposta desiderata dal modello è una pratica chiamata progettazione prompt. Sebbene la progettazione dei prompt sia un processo di tentativi ed errori, esistono prompt design principles and strategies that you can use to nudge the model to behave in the desired way. Gemini Enterprise Agent Platform Studio offre uno strumento di gestione dei prompt per aiutarti a gestire i tuoi prompt.

Modelli di base

I prompt vengono inviati a un modello di AI generativa per la generazione di risposte. Gemini Enterprise Agent Platform offre una varietà di modelli di base di AI generativa accessibili tramite un'API gestita, tra cui:

API Gemini: ragionamento avanzato, chat in più passaggi, generazione di codice e prompt multimodali.

I modelli differiscono per dimensioni, modalità e costi. Puoi esplorare i modelli di Google, nonché i modelli open e i modelli dei partner di Google, in Model Garden.

Personalizzazione dei modelli

Puoi personalizzare il comportamento predefinito dei modelli di base di Google in modo che generino costantemente i risultati desiderati senza utilizzare prompt complessi. Questo processo di personalizzazione è chiamato ottimizzazione del modello. L'ottimizzazione del modello ti aiuta a ridurre i costi e la latenza delle richieste consentendoti di semplificare i prompt.

Gemini Enterprise Agent Platform offre anche strumenti di valutazione dei modelli per aiutarti a valutare le prestazioni del modello ottimizzato. Una volta che il modello ottimizzato è pronto per la produzione, puoi eseguirne il deployment in un endpoint e monitorare le prestazioni come nei flussi di lavoro MLOps standard.

Accedere a informazioni esterne

Gemini Enterprise Agent Platform offre diversi modi per consentire al modello di accedere ad API esterne e informazioni in tempo reale.

Grounding: collega le risposte del modello a una fonte di verità, come i tuoi dati o la Ricerca web, contribuendo a ridurre le allucinazioni.
RAG: collega i modelli a fonti di conoscenza esterne, come documenti e database, per generare risposte più accurate e informative.
Chiamata di funzione: consente al modello di interagire con le API esterne per ottenere informazioni in tempo reale ed eseguire attività del mondo reale.

Verifica delle citazioni

Dopo aver generato la risposta, Gemini Enterprise Agent Platform verifica se è necessario includere le citazioni nella risposta. Se una quantità significativa di testo nella risposta proviene da una determinata origine, questa origine viene aggiunta a i metadati delle citazioni nella risposta.

AI responsabile e sicurezza

L'ultimo livello di controlli a cui vengono sottoposti il prompt e la risposta prima di essere restituiti sono i filtri di sicurezza. Gemini Enterprise Agent Platform controlla sia il prompt sia la risposta per verificare la quantità di prompt o risposta appartenente a una categoria di sicurezza. Se la soglia viene superata per una o più categorie, la risposta viene bloccata e Gemini Enterprise Agent Platform restituisce una risposta di fallback.

Risposta

Se il prompt e la risposta superano i controlli del filtro di sicurezza, la risposta viene restituita. In genere, la risposta viene restituita tutta in una volta. Tuttavia, con Agent Platform puoi anche ricevere le risposte in modo progressivo durante la generazione attivando lo streaming.

Inizia

Per iniziare a utilizzare l'AI generativa su Agent Platform, prova una di queste guide rapide:

Generare testo utilizzando l'API Gemini di Agent Platform: utilizza l'SDK per inviare richieste all'API Gemini
Generare un'immagine utilizzando Gemini: genera immagini da un prompt di testo

Guida per principianti all'IA generativa Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.