GKE 기반 AI/ML 조정 문서

Google Kubernetes Engine (GKE)은 전체 AI/ML 수명 주기를 오케스트레이션할 수 있는 단일 통합 플랫폼을 제공합니다. 학습, 추론, 에이전트 워크로드를 강화할 수 있는 강력한 기능과 유연성을 제공하므로 인프라를 간소화하고 결과를 제공할 수 있습니다. GKE의 최첨단 조정 기능은 다음을 제공합니다.

  • 하드웨어 가속기: 학습과 추론 모두를 위해 필요한 강력한 GPU와 TPU에 액세스하고 이를 대규모로 관리합니다.
  • 스택 유연성: 이미 알고 신뢰하는 분산 컴퓨팅, 데이터 처리, 모델 서빙 프레임워크와 통합합니다.
  • 관리형 Kubernetes의 간편함: 관리형 플랫폼의 모든 이점을 활용하여 유연성을 유지하면서 전체 AI/ML 수명 주기를 자동화하고 확장하고 보안을 강화할 수 있습니다.

블로그, 튜토리얼, 권장사항을 살펴보고 GKE로 AI/ML 워크로드를 최적화하는 방법을 알아보세요. 이점 및 사용 가능한 기능에 대한 자세한 내용은 GKE의 AI/ML 워크로드 소개 개요를 참고하세요.

  • Gemini 2.0 Flash Thinking 이용
  • AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
  • 자동 청구, 약정 없음

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.

문서 리소스

빠른 시작 및 가이드를 찾고 주요 참조를 검토하며 일반적인 문제에 대한 도움을 받을 수 있습니다.
사용자 주도형 학습, 사용 사례, 참조 아키텍처, 코드 샘플을 통해 Google Cloud 서비스 사용 및 연결 방법의 예시를 살펴보세요.
학습
교육 및 튜토리얼

에이전트 개발 키트 (ADK)와 vLLM을 사용하여 Llama 3.1로 확장 가능한 추론을 위해 GKE에 컨테이너화된 에이전트 AI 애플리케이션을 배포하고 관리하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 에이전트 AI

학습
교육 및 튜토리얼

에이전트 개발 키트(ADK)와 Vertex AI를 사용하여 Gemini 2.0 Flash로 확장 가능한 추론을 위해 GKE에 컨테이너화된 에이전트 AI 애플리케이션을 배포하고 관리하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 에이전트 AI

학습
교육 및 튜토리얼

Hugging Face의 Optimum TPU 서빙 프레임워크와 함께 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 배포하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 TPU

학습
교육 및 튜토리얼

완전 관리형 Parallelstore 인스턴스에서 지원하는 스토리지를 만들고 볼륨으로 액세스하는 방법을 알아봅니다. CSI 드라이버는 작은 파일 크기와 무작위 읽기가 포함된 AI/ML 학습 워크로드에 최적화되어 있습니다.

튜토리얼 AI/ML 데이터 로드

학습
교육 및 튜토리얼

DWS flex-start를 사용하여 GKE에서 LLM 서빙 워크로드의 비용을 최적화하는 방법을 알아봅니다.

비용 최적화 GPU DWS

학습
교육 및 튜토리얼

TPU에서 KubeRay로 대규모 언어 모델 (LLM)을 제공하는 방법과 이를 통해 모델의 성능을 개선하는 방법을 알아봅니다.

동영상 Ray TPU

학습
교육 및 튜토리얼

Hyperdisk ML을 사용하여 GKE에서 AI/ML 모델 가중치 로드를 간소화하고 가속화하는 방법을 알아봅니다.

튜토리얼 AI/ML 데이터 로드

학습
교육 및 튜토리얼

PyTorch를 통해 JetStream을 사용하여 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 TPU

학습
교육 및 튜토리얼

vLLM 및 텍스트 생성 추론(TGI) 서빙 프레임워크를 사용하여 GKE에서 GPU로 LLM 추론 성능을 최적화하기 위한 권장사항을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

학습
교육 및 튜토리얼

NVIDIA GPU Operator를 사용해야 하는 경우와 GKE에서 NVIDIA GPU Operator를 사용 설정하는 방법을 알아봅니다.

튜토리얼 GPU

학습
교육 및 튜토리얼

GKE 수평형 포드 자동 확장 처리(HPA)를 통해 단일 호스트 JetStream을 사용하여 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.

튜토리얼 TPU

학습
교육 및 튜토리얼

GKE에서 GPU를 Hugging Face Transformers 라이브러리와 함께 사용하여 Gemma LLM을 파인 튜닝하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

학습
교육 및 튜토리얼

TPU, Ray Serve, Ray Operator 부가기능을 사용하여 GKE에서 Stable Diffusion 모델을 배포하고 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 Ray TPU

학습
교육 및 튜토리얼

GKE 수평형 포드 자동 확장 처리(HPA)를 사용하여 Hugging Face 텍스트 생성 인터페이스(TGI) 제공 프레임워크와 함께 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.

튜토리얼 GPU

학습
교육 및 튜토리얼

A3 Mega에서 컨테이너 기반 Megatron-LM PyTorch 워크로드를 실행하는 방법을 알아봅니다.

튜토리얼 AI/ML 학습 GPU

학습
교육 및 튜토리얼

GKE Autopilot 워크로드에서 하드웨어 가속기(GPU)를 요청하는 방법을 알아봅니다.

튜토리얼 GPU

학습
교육 및 튜토리얼

GKE에서 여러 NVIDIA L4 GPU를 사용해서 Llama 2 70B 또는 Falcon 40B를 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

학습
교육 및 튜토리얼

Ray 클러스터에서 워크로드를 실행하여 GKE에서 Ray를 손쉽게 시작하는 방법을 알아봅니다.

가이드 Ray

학습
교육 및 튜토리얼

GKE에서 Ray 프레임워크를 사용해서 Falcon 7b, Llama2 7b, Falcon 40b, Llama2 70b를 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 Ray GPU

학습
교육 및 튜토리얼

JobSet 및 Kueue를 사용하여 GKE의 여러 TPU 슬라이스에서 Jax 워크로드를 조정하는 방법을 알아봅니다.

튜토리얼 TPU

학습
교육 및 튜토리얼

NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드를 관찰하는 방법을 알아봅니다.

튜토리얼 AI/ML 관측 가능성 GPU

학습
교육 및 튜토리얼

이 빠른 시작에서는 GKE에서 GPU를 사용하여 학습 모델을 배포하고 Cloud Storage에 예측을 저장하는 방법을 보여줍니다.

튜토리얼 AI/ML 학습 GPU

학습
교육 및 튜토리얼

이 동영상은 GKE를 사용하여 대규모 AI 모델을 규모에 맞게 학습하는 데 따르는 일반적인 문제를 해결하는 방법과 GKE에서 대규모 머신러닝 모델을 학습시키고 제공하기 위한 권장사항을 보여줍니다.

동영상 AI/ML 학습 AI/ML 추론

학습
교육 및 튜토리얼

이 블로그 게시물은 Tensorflow가 지원되는 Jupiter 노트북의 생성, 실행, 분해에 대한 단계별 안내입니다.

블로그 AI/ML 학습 AI ML 추론 GPU

학습
교육 및 튜토리얼

이 튜토리얼에서는 Kueue를 사용하여 작업 큐 추가 시스템을 구현하고 GKE에서 다른 네임스페이스 간 워크로드 리소스 및 할당량 공유를 구성하는 방법을 보여줍니다.

튜토리얼 AI/ML 배치

학습
교육 및 튜토리얼

이 튜토리얼에서는 검색 증강 생성을 기반으로 하는 대규모 언어 모델 애플리케이션을 Cloud Storage 버킷에 업로드하는 PDF 파일과 통합하는 방법을 보여줍니다.

튜토리얼 AI/ML 데이터 로드

학습
교육 및 튜토리얼

이 튜토리얼에서는 데이터 저장 및 처리를 위해 BigQuery를 활용하고, 요청 처리를 위해 Cloud Run을 활용하고, 데이터 분석 및 예측을 위해 Gemma LLM을 활용하여 GKE에서 대규모 데이터 세트를 분석하는 방법을 보여줍니다.

튜토리얼 AI/ML 데이터 로드

사용 사례
사용 사례

GKE와 Ray를 활용하여 머신러닝을 위한 대규모 데이터 세트를 효율적으로 사전 처리하는 방법을 알아보세요.

MLOps 학습 Ray

사용 사례
사용 사례

Google Kubernetes Engine에서 머신러닝 애플리케이션의 데이터 로드 시간을 단축하는 방법을 알아봅니다.

추론 Hyperdisk ML Cloud Storage FUSE

사용 사례
사용 사례

최대 효율을 위해 GKE의 수평형 포드 자동 확장 처리를 미세 조정하여 GPU 추론 비용을 최적화하는 방법을 알아봅니다.

추론 GPU HPA

사용 사례
사용 사례

GKE에 최첨단 NVIDIA NIM 마이크로서비스를 손쉽게 배포하고 AI 워크로드를 가속화하는 방법을 알아보세요.

AI NVIDIA NIM

사용 사례
사용 사례

GKE의 Ray 연산자가 AI/ML 프로덕션 배포를 간소화하여 성능과 확장성을 높이는 방법을 알아보세요.

AI TPU Ray

사용 사례
사용 사례

인프라 결정 및 모델 서버 최적화를 비롯하여 GKE에서 GPU의 대규모 언어 모델 (LLM) 서빙 처리량을 극대화하는 방법을 알아봅니다.

LLM GPU NVIDIA

사용 사례
사용 사례

GKE에서 일괄 처리 플랫폼을 빌드하고 최적화하는 방법 알아보기

배치 성능 비용 최적화

사용 사례
사용 사례

로컬 SSD를 사용하여 GKE에서 고성능 AI/ML 스토리지를 제공하는 방법을 알아봅니다.

AI NVMe 로컬 SSD

사용 사례
사용 사례

NVIDIA GPU를 사용하여 GKE에서 JAX 멀티 GPU, 멀티 노드 애플리케이션을 실행하는 방법을 알아봅니다.

GPU JAX ML

사용 사례
사용 사례

Vertex AI Agent Builder, Vertex AI Search, GKE를 사용하여 Google Cloud로 검색엔진을 빌드하는 방법

Search Agent Vertex AI

사용 사례
사용 사례

LiveX AI가 GKE를 사용하여 고객 만족도를 높이고 비용을 절감하는 AI 에이전트를 구축하는 방법

GenAI NVIDIA GPU

사용 사례
사용 사례

GKE, Cloud SQL, Ray, Hugging Face, LangChain을 사용하여 검색 증강 생성(RAG)으로 생성형 AI 애플리케이션을 실행하기 위한 참조 아키텍처입니다.

GenAI GenAI GenAI

사용 사례
사용 사례

Kueue를 사용하여 리소스 할당량을 관리하는 Standard 모드의 GKE에 있는 일괄 처리 플랫폼의 참조 아키텍처

AI Kueue Batch

사용 사례
사용 사례

IPRally가 GKE와 Ray를 사용해 확장 가능하고 효율적인 ML 플랫폼을 빌드하여 더 높은 정확도로 특허 검색을 신속하게 수행하는 방법을 알아봅니다.

AI Ray GPU

사용 사례
사용 사례

GKE에서 추론 및 학습 효율성을 위해 Cloud GPU 및 Cloud TPU에서 Gemma를 활용하세요.

AI Gemma 성능

사용 사례
사용 사례

최고 수준의 Gemma 개방형 모델을 사용하여 이식 가능하고 맞춤설정 가능한 AI 애플리케이션을 빌드하고 GKE에 배포하세요.

AI Gemma 성능

사용 사례
사용 사례

KubeRay 및 Kueue를 사용하여 GKE에서 Ray 애플리케이션을 조정합니다.

Kueue Ray KubeRay

사용 사례
사용 사례

GKE의 Ray를 사용하여 AI/ML 워크로드를 학습하기 위한 보안 통계 및 강화 기술을 적용합니다.

AI Ray 보안

사용 사례
사용 사례

Google Cloud의 AI 및 ML 워크로드를 위한 최적의 스토리지 옵션 조합을 선택하세요.

AI ML 스토리지

사용 사례
사용 사례

GKE에 Nvidia GPU 드라이버를 자동으로 설치합니다.

GPU NVIDIA 설치

사용 사례
사용 사례

GKE 및 NVIDIA NeMo 프레임워크를 사용하여 생성형 AI 모델을 학습시킵니다.

GenAI NVIDIA NeMo

사용 사례
사용 사례

Ray 워크로드에 GKE를 사용하여 확장성, 비용 효율성, 내결함성, 격리, 이동성을 개선합니다.

AI Ray 확장

사용 사례
사용 사례

GKE와 함께 Weights & Biases를 사용하여 모델 개발 및 배포 프로세스를 간소화합니다.

비용 최적화 TPU GPU

사용 사례
사용 사례

GKE Autopilot으로 AI/ML 워크로드의 GPU 지원, 성능, 가격 인하 효과를 누리세요.

GPU Autopilot 성능

사용 사례
사용 사례

스타트업이 GKE로 맞춤 동영상 출력을 확장합니다.

GPU 확장 컨테이너

사용 사례
사용 사례

Ray가 Spotify의 ML 개발을 혁신하는 방법

ML Ray 컨테이너

사용 사례
사용 사례

생물 의학 연구 및 발견을 위한 선도적인 AI 가속기 중 하나인 Ordaos Bio는 종양학 및 만성 염증 질환의 새로운 면역 치료를 위한 솔루션을 찾고 있습니다.

성능 TPU 비용 최적화

사용 사례
사용 사례

실리콘 밸리 스타트업인 Moloco가 GKE 및 Tensor Flow Enterprise를 활용해 머신러닝(ML) 인프라를 강화한 방법을 소개합니다.

ML 확장 비용 최적화

사용 사례
사용 사례

GKE에서 Stable Diffusion 출시 시간을 개선하는 방법을 알아봅니다.

성능 확장 PD

코드 샘플
코드 샘플

공식 GKE 제품 튜토리얼에 사용된 샘플 애플리케이션을 확인하세요.

코드 샘플
코드 샘플

GKE를 활용하여 AI/ML 이니셔티브를 가속화하기 위한 실험용 샘플을 확인합니다.

코드 샘플
코드 샘플

GKE에 가속화된 워크로드를 배포하기 위한 참조 아키텍처와 솔루션을 확인하세요.

관련 동영상