Architettura di cluster multi-tenancy

Questa pagina spiega la multi-tenancy del cluster su Google Kubernetes Engine (GKE). Sono inclusi i cluster condivisi da utenti diversi di una singola organizzazione e i cluster condivisi da istanze per cliente di un'applicazione software as a service (SaaS). Il multi-tenancy del cluster è un'alternativa alla gestione di molti cluster single-tenant.

Questa pagina riassume anche le funzionalità di Kubernetes e GKE che possono essere utilizzate per gestire cluster multi-tenant.

Che cos'è l'architettura multi-tenancy?

Un cluster multi-tenant è condiviso da più utenti e/o workload, che vengono definiti "tenant". Gli operatori di cluster multi-tenant devono isolare i tenant l'uno dall'altro per ridurre al minimo i danni che un tenant compromesso o dannoso può causare al cluster e ad altri tenant. Inoltre, le risorse del cluster devono essere equamente distribuite tra i tenant.

Quando pianifichi un'architettura multi-tenant, devi considerare i livelli di isolamento delle risorse in Kubernetes: cluster, spazio dei nomi, nodo, pod e container. Devi anche considerare le implicazioni di sicurezza della condivisione di diversi tipi di risorse tra i tenant. Ad esempio, la pianificazione dei pod di tenant diversi sullo stesso nodo potrebbe ridurre il numero di macchine necessarie nel cluster. D'altra parte, potresti dover impedire la collocazione congiunta di determinati workload. Ad esempio, potresti non consentire l'esecuzione di codice non attendibile proveniente dall'esterno della tua organizzazione sullo stesso nodo dei container che elaborano informazioni sensibili.

Sebbene Kubernetes non possa garantire un isolamento perfettamente sicuro tra i tenant, offre funzionalità che potrebbero essere sufficienti per casi d'uso specifici. Puoi separare ogni tenant e le relative risorse Kubernetes nei propri spazi dei nomi. Puoi quindi utilizzare i criteri per applicare l'isolamento dei tenant. Le policy di solito sono delimitate dallo spazio dei nomi e possono essere utilizzate per limitare l'accesso API, per vincolare l'utilizzo delle risorse e per limitare le azioni consentite ai container.

I tenant di un cluster multi-tenant condividono:

L'utilizzo di un cluster multi-tenant presenta diversi vantaggi rispetto all'utilizzo di più cluster single-tenant:

  • Overhead di gestione ridotto
  • Riduzione della frammentazione delle risorse
  • Non è necessario attendere la creazione del cluster per i nuovi tenant

Casi d'uso multi-tenant

Questa sezione descrive come configurare un cluster per vari casi d'uso multi-tenant.

Architettura multi-tenancy aziendale

In un ambiente aziendale, i tenant di un cluster sono team distinti all'interno dell'organizzazione. In genere, ogni tenant ha uno spazio dei nomi corrispondente. Modelli alternativi di multi-tenancy con un tenant per cluster o un tenant per progettoGoogle Cloud sono più difficili da gestire. Il traffico di rete all'interno di uno spazio dei nomi non è limitato. Il traffico di rete tra gli spazi dei nomi deve essere consentito esplicitamente. Questi criteri possono essere applicati utilizzando i criteri di rete di Kubernetes.

Gli utenti del cluster sono suddivisi in tre ruoli diversi, a seconda del loro privilegio:

Amministratore cluster
Questo ruolo è destinato agli amministratori dell'intero cluster, che gestiscono tutti i tenant. Gli amministratori del cluster possono creare, leggere, aggiornare ed eliminare qualsiasi oggetto policy. Possono creare spazi dei nomi e assegnarli agli amministratori degli spazi dei nomi.
Amministratore dello spazio dei nomi
Questo ruolo è destinato agli amministratori di singoli tenant specifici. Un amministratore dello spazio dei nomi può gestire gli utenti nel proprio spazio dei nomi.
Sviluppatore
I membri di questo ruolo possono creare, leggere, aggiornare ed eliminare oggetti non policy con spazio dei nomi come pod, job e ingress. Gli sviluppatori dispongono di questi privilegi solo negli spazi dei nomi a cui hanno accesso.

Per informazioni sulla configurazione di più cluster multi-tenant per un'organizzazione aziendale, consulta Best practice per la multitenancy aziendale.

Multitenancy del fornitore SaaS

I tenant del cluster di un fornitore SaaS sono le istanze per cliente dell'applicazione e il piano di controllo del SaaS. Per sfruttare i vantaggi delle policy con ambito dello spazio dei nomi, le istanze dell'applicazione devono essere organizzate nei propri spazi dei nomi, così come i componenti del control plane del SaaS. Gli utenti finali non possono interagire direttamente con il piano di controllo Kubernetes, ma utilizzano l'interfaccia SaaS, che a sua volta interagisce con il piano di controllo Kubernetes.

Ad esempio, una piattaforma di blogging potrebbe essere eseguita su un cluster multi-tenant. In questo caso, i tenant sono l'istanza del blog di ogni cliente e il control plane della piattaforma. Il control plane della piattaforma e ogni blog ospitato verrebbero eseguiti in spazi dei nomi separati. I clienti creavano ed eliminavano blog, aggiornavano le versioni del software di blogging tramite l'interfaccia della piattaforma senza visibilità sul funzionamento del cluster.

Applicazione delle norme multitenant

GKE e Kubernetes forniscono diverse funzionalità che possono essere utilizzate per gestire cluster multi-tenant. Le sezioni seguenti forniscono una panoramica di queste funzionalità.

Controllo degli accessi

GKE dispone di due sistemi di controllo dell'accesso dell'accesso: Identity and Access Management (IAM) e controllo dell'accesso basato sui ruoli (RBAC). IAM è il sistema di controllo dell'accesso di Google Cloud per la gestione dell'autenticazione e dell'autorizzazione per le risorse Google Cloud. Utilizzi IAM per concedere agli utenti l'accesso a GKE e alle risorse Kubernetes. RBAC è integrato in Kubernetes e concede autorizzazioni granulari per risorse e operazioni specifiche all'interno dei cluster.

Per saperne di più su queste opzioni e su quando utilizzarle, consulta la panoramica del controllo dell'accesso.

Consulta la guida illustrativa RBAC e la guida illustrativa IAM per scoprire come utilizzare questi sistemi di controllo dell'accesso#39;accesso.

Puoi utilizzare le autorizzazioni IAM e RBAC insieme agli spazi dei nomi per limitare le interazioni degli utenti con le risorse del cluster nella console Google Cloud . Per maggiori informazioni, consulta Attivare l'accesso e visualizzare le risorse del cluster per spazio dei nomi.

Criteri di rete

I criteri di rete del cluster ti consentono di controllare la comunicazione tra i pod del cluster. Le norme specificano con quali spazi dei nomi, etichette e intervalli di indirizzi IP un pod può comunicare.

Consulta la guida pratica sui criteri di rete per istruzioni sull'abilitazione dell'applicazione dei criteri di rete su GKE.

Segui il tutorial sui criteri di rete per imparare a scrivere criteri di rete.

Quote delle risorse

Le quote di risorse gestiscono la quantità di risorse utilizzate dagli oggetti in un namespace. Puoi impostare le quote in termini di utilizzo di CPU e memoria utilizzata o in termini di conteggi degli oggetti. Le quote delle risorse ti consentono di assicurarti che nessun tenant utilizzi più della quota assegnata di risorse del cluster.

Per ulteriori informazioni, consulta la documentazione relativa alle quote delle risorse.

Controllo dell'ammissione dei pod basato su policy

Per impedire l'esecuzione nel cluster di pod che violano i limiti di sicurezza, utilizza un controller di ammissione. I controller di ammissione possono controllare le specifiche dei pod in base ai criteri che definisci e possono impedire l'esecuzione nel cluster dei pod che violano questi criteri.

GKE supporta i seguenti tipi di controllo dell'ammissione:

Anti-affinità tra pod

Puoi utilizzare l'anti-affinità dei pod per impedire la pianificazione dei pod di tenant diversi sullo stesso nodo. I vincoli di anti-affinità si basano sulle etichette dei pod. Ad esempio, la specifica del pod riportata di seguito descrive un pod con l'etichetta "team": "billing" e una regola di anti-affinità che impedisce la pianificazione del pod insieme ai pod senza l'etichetta.

apiVersion: v1
kind: Pod
metadata:
  name: bar
  labels:
    team: "billing"
spec:
  affinity:
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - topologyKey: "kubernetes.io/hostname"
        labelSelector:
          matchExpressions:
          - key: "team"
            operator: NotIn
            values: ["billing"]

Lo svantaggio di questa tecnica è che gli utenti malintenzionati potrebbero aggirare la regola applicando l'etichetta team: billing a un pod arbitrario. L'anti-affinità dei pod da sola non può applicare in modo sicuro i criteri sui cluster con tenant non attendibili.

Per ulteriori informazioni, consulta la documentazione relativa all'anti-affinità dei pod.

Nodi dedicati con incompatibilità e tolleranze

Le incompatibilità dei nodi sono un altro modo per controllare la pianificazione dei workload. Puoi utilizzare le incompatibilità dei nodi per riservare nodi specializzati per l'utilizzo da parte di determinati tenant. Ad esempio, puoi dedicare nodi dotati di GPU ai tenant specifici i cui carichi di lavoro richiedono GPU. Per i cluster Autopilot, le tolleranze dei nodi sono supportate solo per la separazione dei carichi di lavoro. I taint dei nodi vengono aggiunti automaticamente dal provisioning automatico dei nodi in base alle esigenze.

Per dedicare un node pool a un determinato tenant, applica un taint con effect: "NoSchedule" al pool di nodi. In questo modo, solo i pod con una tolleranza corrispondente possono essere pianificati sui nodi del pool di nodi.

Lo svantaggio di questa tecnica è che gli utenti malintenzionati potrebbero aggiungere una tolleranza ai loro pod per ottenere l'accesso al pool di nodi dedicato. Le incompatibilità e le tolleranze dei nodi da sole non possono applicare in modo sicuro le norme sui cluster con tenant non attendibili.

Per saperne di più, consulta Incompatibilità e tolleranze nella documentazione di Kubernetes.

GKE Sandbox

GKE Sandbox fornisce un ulteriore livello di sicurezza per i cluster multi-tenant isolando i workload non attendibili dal kernel host sui nodi del cluster. GKE Sandbox utilizza gVisor, una tecnologia di sandboxing dei container open source, per fornire un kernel user-space separato per ogni pod.

GKE Sandbox è particolarmente utile per i fornitori SaaS o le organizzazioni che eseguono codice non attendibile, perché impedisce a un tenant malintenzionato di uscire dal container o di influire sul kernel host. Per maggiori informazioni, consulta GKE Sandbox.

Condivisione di acceleratori come GPU e TPU

La condivisione di acceleratori GPU o TPU tra i pod comporta un rischio aggiuntivo. Le GPU e le TPU potrebbero fornire o meno protezioni contro l'accesso condiviso. Queste protezioni possono dipendere dalla versione dell'hardware, dalla versione del driver e dalla configurazione del sistema di runtime. La tabella seguente evidenzia diversi approcci e il rischio associato a ciascuno.

I pod che si fidano l'uno dell'altro possono decidere di accettare un ampio spettro di rischi. La tabella indica il livello di rischio per ogni livello di isolamento.

Architettura Superficie di attacco principale Riepilogo della sicurezza
I pod sullo stesso nodo condividono direttamente un acceleratore, inclusi il time-sharing della GPU e NVIDIA MPS. Memoria GPU e stato globale I pod sono vulnerabili l'uno all'altro e devono essere attendibili.
I pod sullo stesso nodo condividono direttamente un acceleratore e utilizzano GKE Sandbox, inclusa la condivisione del tempo della GPU e NVIDIA MPS. Memoria GPU e driver host GKE Sandbox isola il kernel del carico di lavoro dal kernel host. Non fornisce alcuna separazione all'interno dell'ambiente GPU, che rimane condiviso.
I pod sullo stesso nodo hanno acceleratori dedicati, inclusi i MIG NVIDIA. Kernel host (tramite driver) I pod potrebbero comunque essere compromessi da vulnerabilità dell'acceleratore o del driver che consentono l'escalation al kernel host.
I pod sullo stesso nodo hanno acceleratori dedicati, inclusi NVIDIA MIG, e utilizzano GKE Sandbox. Interfaccia driver host (nvproxy) GKE Sandbox isola il kernel, ma l'interfaccia del driver GPU host (nvproxy) rimane una superficie di attacco condivisa. Un exploit del driver potrebbe consentire l'escape del kernel host. Sono possibili anche perdite di canali laterali tra le istanze MIG.
Ogni pod viene eseguito su un nodo dedicato, che dispone di acceleratori dedicati. Confine VM / hypervisor Consigliata per i carichi di lavoro non attendibili. Qualsiasi compromissione è limitata a una VM.

Passaggi successivi