Gestisci Qwen2-7B-Instruct con vLLM su TPU

Questo tutorial eroga il modello Qwen/Qwen2-7B-Instruct utilizzando il framework di erogazione vLLM TPU su una VM TPU v6e.

Obiettivi

  1. Configurare l'ambiente.
  2. Esegui vLLM con Qwen2-7B-Instruct.
  3. Invia una richiesta di inferenza.
  4. Esegui un carico di lavoro di benchmark.
  5. Eseguire la pulizia.

Costi

Questo tutorial utilizza i componenti fatturabili di Google Cloud, tra cui:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

Prima di iniziare

Prima di seguire questo tutorial, segui le istruzioni nella pagina Configura l'ambiente Cloud TPU. Le istruzioni ti guidano nei passaggi necessari per creare un progetto Google Cloud e configurarlo per l'utilizzo di Cloud TPU. Puoi anche utilizzare un progettoGoogle Cloud esistente. Se scegli di farlo, puoi saltare il passaggio di creazione di un Google Cloud progetto e iniziare con Configura l'ambiente per utilizzare Cloud TPU.

Per utilizzare questo tutorial, è necessario un token di accesso a Hugging Face. Puoi registrarti per un account senza costi su Hugging Face. Una volta creato un account, genera un token di accesso:

  1. Nella pagina Benvenuto in Hugging Face, fai clic sull'avatar del tuo account e seleziona Token di accesso.
  2. Nella pagina Token di accesso, fai clic su Crea nuovo token.
  3. Seleziona il tipo di token Lettura e inserisci un nome per il token.
  4. Viene visualizzato il token di accesso. Salva il token in un luogo sicuro.

Configura l'ambiente

  1. Crea una VM Cloud TPU v6e utilizzando l'API Queued Resources. Per qwen2-7b-instruct, ti consigliamo di utilizzare una TPU v6e-1.

    export PROJECT_ID=YOUR_PROJECT_ID
    export TPU_NAME=qwen2-7b-instruct-tutorial
    export ZONE=us-east5-a
    export QR_ID=qwen2-7b-instruct-qr
    
    gcloud alpha compute tpus queued-resources create $QR_ID \
     --node-id $TPU_NAME \
     --project $PROJECT_ID \
     --zone $ZONE \
     --accelerator-type v6e-1 \
     --runtime-version v2-alpha-tpuv6e
    
  2. Verifica che la VM TPU sia pronta.

    gcloud compute tpus queued-resources describe $QR_ID \
      --project $PROJECT_ID \
      --zone $ZONE
    

    Una volta creata la VM TPU, lo stato della richiesta di risorse in coda verrà impostato su ACTIVE. Ad esempio:

    name: projects/your-project-id/locations/your-zone/queuedResources/your-queued-resource-id
      state:
      state: ACTIVE
      tpu:
      nodeSpec:
      - node:
          acceleratorType: v6e-1
          bootDisk: {}
          networkConfig:
              enableExternalIps: true
          queuedResource: projects/your-project-number/locations/your-zone/queuedResources/your-queued-resource-id
          runtimeVersion: v2-alpha-tpuv6e
          schedulingConfig: {}
          serviceAccount: {}
          shieldedInstanceConfig: {}
          useTpuVm: true
          nodeId: your-node-id
          parent: projects/your-project-number/locations/your-zone
    
  3. Connettiti alla VM TPU.

      gcloud compute tpus tpu-vm ssh $TPU_NAME \
        --project $PROJECT_ID \
        --zone $ZONE
    

Esegui vLLM con Qwen2-7B-instruct

  1. All'interno della VM TPU, esegui il container Docker vLLM. Questo comando utilizza una dimensione della memoria condivisa di 10 GB.

      export DOCKER_URI=vllm/vllm-tpu:latest
    
      sudo docker run -it --rm --name $USER-vllm --privileged --net=host \
        -v /dev/shm:/dev/shm \
        --shm-size 10gb \
        -p 8000:8000 \
        --entrypoint /bin/bash ${DOCKER_URI}
    
  2. All'interno del container, imposta il token Hugging Face. Sostituisci YOUR_HF_TOKEN con il tuo token Hugging Face.

    export HF_HOME=/dev/shm
    export HF_TOKEN=YOUR_HF_TOKEN
    
  3. Avvia il server vLLM utilizzando il comando vllm serve.

    export MAX_MODEL_LEN=4096
    export TP=1 # number of chips
    
    vllm serve Qwen/Qwen2-7B-Instruct \
        --seed 42 \
        --disable-log-requests \
        --gpu-memory-utilization 0.98 \
        --max-num-batched-tokens 1024 \
        --max-num-seqs 128 \
        --tensor-parallel-size $TP \
        --max-model-len $MAX_MODEL_LEN
    

    Quando il server vLLM è in esecuzione, vedrai un output simile al seguente:

    (APIServer pid=7) INFO:     Started server process [7]
    (APIServer pid=7) INFO:     Waiting for application startup.
    (APIServer pid=7) INFO:     Application startup complete.
    

Inviare una richiesta di inferenza

Una volta che il server vLLM è in esecuzione, puoi inviargli richieste da una nuova shell.

  1. Apri una nuova shell e connettiti alla VM TPU.

      export PROJECT_ID=YOUR_PROJECT_ID
      export TPU_NAME=qwen2-7b-instruct-tutorial
      export ZONE=us-east5-a
    
      gcloud compute tpus tpu-vm ssh $TPU_NAME \
        --project $PROJECT_ID \
        --zone=$ZONE
    
  2. Apri una shell nel container Docker in esecuzione.

      sudo docker exec -it $USER-vllm /bin/bash
    
  3. Invia una richiesta di test al server utilizzando curl.

      curl http://localhost:8000/v1/completions \
        -H "Content-Type: application/json" \
        -d '{
            "model": "Qwen/Qwen2-7B-Instruct",
            "prompt": "The future of AI is",
            "max_tokens": 200,
            "temperature": 0
          }'
    

La risposta viene restituita in formato JSON.

Esegui un carico di lavoro di benchmark

Puoi eseguire benchmark sul server in esecuzione dal secondo terminale.

  1. All'interno del contenitore, installa la libreria datasets.

    pip install datasets
    
  2. Esegui il comando vllm bench serve.

    export HF_HOME=/dev/shm
    cd /workspace/vllm
    
    vllm bench serve \
        --backend vllm \
        --model "Qwen/Qwen2-7B-Instruct"  \
        --dataset-name random \
        --num-prompts 1000 \
        --seed 100
    

I risultati del benchmark sono simili ai seguenti:

============ Serving Benchmark Result ============
Successful requests:                     1000
Benchmark duration (s):                  45.35
Total input tokens:                      1024000
Total generated tokens:                  126848
Request throughput (req/s):              22.05
Output token throughput (tok/s):         2797.15
Peak output token throughput (tok/s):    4258.00
Peak concurrent requests:                1000.00
Total Token throughput (tok/s):          25377.57
---------------Time to First Token----------------
Mean TTFT (ms):                          21332.46
Median TTFT (ms):                        21330.37
P99 TTFT (ms):                           42436.47
-----Time per Output Token (excl. 1st token)------
Mean TPOT (ms):                          37.36
Median TPOT (ms):                        38.56
P99 TPOT (ms):                           38.69
---------------Inter-token Latency----------------
Mean ITL (ms):                           37.35
Median ITL (ms):                         38.55
P99 ITL (ms):                            39.43
==================================================

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

  1. Nella seconda shell, digita exit per uscire dal container vLLM.
  2. Nella seconda shell, digita il comando exit per chiudere il terminale.
  3. Nella prima shell, digita Ctrl+C per arrestare il server vLLM.
  4. Nella prima shell, digita exit per uscire dal contenitore vLLM.
  5. Nella prima shell, digita exit per disconnetterti dalla VM TPU.

Eliminare le risorse

Puoi eliminare il progetto, il che comporterà l'eliminazione di tutte le risorse, oppure puoi mantenerlo ed eliminare le risorse.

Elimina il progetto

Per eliminare il tuo progetto Google Cloud e tutte le risorse associate, esegui:

    gcloud projects delete $PROJECT_ID

Elimina risorse TPU

Elimina le risorse Cloud TPU. Il comando seguente elimina sia la richiesta di risorse in coda sia la VM TPU utilizzando il parametro --force.

  gcloud alpha compute tpus queued-resources delete $QR_ID \
    --project=$PROJECT_ID \
    --zone=$ZONE \
    --force

Passaggi successivi