Questo tutorial eroga il modello Qwen/Qwen2-7B-Instruct utilizzando il framework di erogazione vLLM TPU su una VM TPU v6e.
Obiettivi
- Configurare l'ambiente.
- Esegui vLLM con Qwen2-7B-Instruct.
- Invia una richiesta di inferenza.
- Esegui un carico di lavoro di benchmark.
- Eseguire la pulizia.
Costi
Questo tutorial utilizza i componenti fatturabili di Google Cloud, tra cui:
Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.
Prima di iniziare
Prima di seguire questo tutorial, segui le istruzioni nella pagina Configura l'ambiente Cloud TPU. Le istruzioni ti guidano nei passaggi necessari per creare un progetto Google Cloud e configurarlo per l'utilizzo di Cloud TPU. Puoi anche utilizzare un progettoGoogle Cloud esistente. Se scegli di farlo, puoi saltare il passaggio di creazione di un Google Cloud progetto e iniziare con Configura l'ambiente per utilizzare Cloud TPU.
Per utilizzare questo tutorial, è necessario un token di accesso a Hugging Face. Puoi registrarti per un account senza costi su Hugging Face. Una volta creato un account, genera un token di accesso:
- Nella pagina Benvenuto in Hugging Face, fai clic sull'avatar del tuo account e seleziona Token di accesso.
- Nella pagina Token di accesso, fai clic su Crea nuovo token.
- Seleziona il tipo di token Lettura e inserisci un nome per il token.
- Viene visualizzato il token di accesso. Salva il token in un luogo sicuro.
Configura l'ambiente
Crea una VM Cloud TPU v6e utilizzando l'API Queued Resources. Per qwen2-7b-instruct, ti consigliamo di utilizzare una TPU v6e-1.
export PROJECT_ID=YOUR_PROJECT_ID export TPU_NAME=qwen2-7b-instruct-tutorial export ZONE=us-east5-a export QR_ID=qwen2-7b-instruct-qr gcloud alpha compute tpus queued-resources create $QR_ID \ --node-id $TPU_NAME \ --project $PROJECT_ID \ --zone $ZONE \ --accelerator-type v6e-1 \ --runtime-version v2-alpha-tpuv6eVerifica che la VM TPU sia pronta.
gcloud compute tpus queued-resources describe $QR_ID \ --project $PROJECT_ID \ --zone $ZONEUna volta creata la VM TPU, lo stato della richiesta di risorse in coda verrà impostato su
ACTIVE. Ad esempio:name: projects/your-project-id/locations/your-zone/queuedResources/your-queued-resource-id state: state: ACTIVE tpu: nodeSpec: - node: acceleratorType: v6e-1 bootDisk: {} networkConfig: enableExternalIps: true queuedResource: projects/your-project-number/locations/your-zone/queuedResources/your-queued-resource-id runtimeVersion: v2-alpha-tpuv6e schedulingConfig: {} serviceAccount: {} shieldedInstanceConfig: {} useTpuVm: true nodeId: your-node-id parent: projects/your-project-number/locations/your-zoneConnettiti alla VM TPU.
gcloud compute tpus tpu-vm ssh $TPU_NAME \ --project $PROJECT_ID \ --zone $ZONE
Esegui vLLM con Qwen2-7B-instruct
All'interno della VM TPU, esegui il container Docker vLLM. Questo comando utilizza una dimensione della memoria condivisa di 10 GB.
export DOCKER_URI=vllm/vllm-tpu:latest sudo docker run -it --rm --name $USER-vllm --privileged --net=host \ -v /dev/shm:/dev/shm \ --shm-size 10gb \ -p 8000:8000 \ --entrypoint /bin/bash ${DOCKER_URI}All'interno del container, imposta il token Hugging Face. Sostituisci
YOUR_HF_TOKENcon il tuo token Hugging Face.export HF_HOME=/dev/shm export HF_TOKEN=YOUR_HF_TOKENAvvia il server vLLM utilizzando il comando
vllm serve.export MAX_MODEL_LEN=4096 export TP=1 # number of chips vllm serve Qwen/Qwen2-7B-Instruct \ --seed 42 \ --disable-log-requests \ --gpu-memory-utilization 0.98 \ --max-num-batched-tokens 1024 \ --max-num-seqs 128 \ --tensor-parallel-size $TP \ --max-model-len $MAX_MODEL_LENQuando il server vLLM è in esecuzione, vedrai un output simile al seguente:
(APIServer pid=7) INFO: Started server process [7] (APIServer pid=7) INFO: Waiting for application startup. (APIServer pid=7) INFO: Application startup complete.
Inviare una richiesta di inferenza
Una volta che il server vLLM è in esecuzione, puoi inviargli richieste da una nuova shell.
Apri una nuova shell e connettiti alla VM TPU.
export PROJECT_ID=YOUR_PROJECT_ID export TPU_NAME=qwen2-7b-instruct-tutorial export ZONE=us-east5-a gcloud compute tpus tpu-vm ssh $TPU_NAME \ --project $PROJECT_ID \ --zone=$ZONEApri una shell nel container Docker in esecuzione.
sudo docker exec -it $USER-vllm /bin/bashInvia una richiesta di test al server utilizzando
curl.curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen/Qwen2-7B-Instruct", "prompt": "The future of AI is", "max_tokens": 200, "temperature": 0 }'
La risposta viene restituita in formato JSON.
Esegui un carico di lavoro di benchmark
Puoi eseguire benchmark sul server in esecuzione dal secondo terminale.
All'interno del contenitore, installa la libreria
datasets.pip install datasetsEsegui il comando
vllm bench serve.export HF_HOME=/dev/shm cd /workspace/vllm vllm bench serve \ --backend vllm \ --model "Qwen/Qwen2-7B-Instruct" \ --dataset-name random \ --num-prompts 1000 \ --seed 100
I risultati del benchmark sono simili ai seguenti:
============ Serving Benchmark Result ============
Successful requests: 1000
Benchmark duration (s): 45.35
Total input tokens: 1024000
Total generated tokens: 126848
Request throughput (req/s): 22.05
Output token throughput (tok/s): 2797.15
Peak output token throughput (tok/s): 4258.00
Peak concurrent requests: 1000.00
Total Token throughput (tok/s): 25377.57
---------------Time to First Token----------------
Mean TTFT (ms): 21332.46
Median TTFT (ms): 21330.37
P99 TTFT (ms): 42436.47
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms): 37.36
Median TPOT (ms): 38.56
P99 TPOT (ms): 38.69
---------------Inter-token Latency----------------
Mean ITL (ms): 37.35
Median ITL (ms): 38.55
P99 ITL (ms): 39.43
==================================================
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
- Nella seconda shell, digita exit per uscire dal container vLLM.
- Nella seconda shell, digita il comando exit per chiudere il terminale.
- Nella prima shell, digita Ctrl+C per arrestare il server vLLM.
- Nella prima shell, digita exit per uscire dal contenitore vLLM.
- Nella prima shell, digita exit per disconnetterti dalla VM TPU.
Eliminare le risorse
Puoi eliminare il progetto, il che comporterà l'eliminazione di tutte le risorse, oppure puoi mantenerlo ed eliminare le risorse.
Elimina il progetto
Per eliminare il tuo progetto Google Cloud e tutte le risorse associate, esegui:
gcloud projects delete $PROJECT_ID
Elimina risorse TPU
Elimina le risorse Cloud TPU. Il comando seguente elimina sia la
richiesta di risorse in coda sia la VM TPU utilizzando il parametro --force.
gcloud alpha compute tpus queued-resources delete $QR_ID \
--project=$PROJECT_ID \
--zone=$ZONE \
--force
Passaggi successivi
- Scopri di più su vLLM su Cloud TPU.
- Scopri di più su Cloud TPU.