Diffuser des LLM ouverts sur GKE à l'aide de TPU avec une architecture préconfigurée

Autopilot Standard

Cette page vous explique comment déployer et diffuser rapidement des grands modèles de langage (LLM) open source populaires sur GKE avec des TPU pour l'inférence à l'aide d'une architecture de référence pour l'inférence GKE préconfigurée et prête pour la production. Cette approche utilise l'infrastructure as code (IaC), avec Terraform encapsulé dans des scripts CLI, pour créer un environnement GKE standardisé, sécurisé et évolutif conçu pour les charges de travail d'inférence d'IA.

Dans ce guide, vous allez déployer et diffuser des LLM à l'aide de nœuds TPU à hôte unique sur GKE avec le framework de diffusion vLLM. Ce guide fournit des instructions et des configurations pour déployer les modèles ouverts suivants :

Ce guide est destiné aux ingénieurs en machine learning (ML) et aux spécialistes des données et de l'IA qui souhaitent explorer les fonctionnalités d'orchestration de conteneurs Kubernetes pour diffuser des modèles ouverts pour l'inférence. Pour en savoir plus sur les rôles courants et les exemples de tâches cités dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.

Avant de commencer

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Make sure that you have the following role or roles on the project: roles/artifactregistry.admin, roles/browser, roles/compute.networkAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin, and roles/serviceusage.serviceUsageAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Accéder à IAM
2. Sélectionnez le projet.
3. Cliquez sur Accorder l'accès.
4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.
5. Cliquez sur Sélectionner un rôle, puis recherchez le rôle.
6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez tous les rôles supplémentaires.
7. Cliquez sur Enregistrer.

Diffuser des LLM ouverts sur GKE à l'aide de TPU avec une architecture préconfigurée

Avant de commencer

Check for the roles

Grant the roles

Accéder au modèle

Provisionner l'environnement d'inférence GKE

Lancer Cloud Shell

Déployer l'architecture de base

Autopilot

Standard

Déployer un modèle ouvert

Sélectionnez un modèle

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Télécharger le modèle

Déployer le modèle

Tester votre déploiement

Effectuer un nettoyage

Autopilot

Standard

Étapes suivantes

Diffuser des LLM ouverts sur GKE à l'aide de TPU avec une architecture préconfigurée Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Avant de commencer

Check for the roles

Grant the roles

Accéder au modèle

Provisionner l'environnement d'inférence GKE

Lancer Cloud Shell

Déployer l'architecture de base

Autopilot

Standard

Déployer un modèle ouvert

Sélectionnez un modèle

Gemma 3 1B-it

Gemma 3 4B-it

Gemma 3 27B-it

Télécharger le modèle

Déployer le modèle

Tester votre déploiement

Effectuer un nettoyage

Autopilot

Standard

Étapes suivantes

Diffuser des LLM ouverts sur GKE à l'aide de TPU avec une architecture préconfigurée