GKE 기반 AI/ML 조정 문서
Google Kubernetes Engine (GKE)은 전체 AI/ML 수명 주기를 오케스트레이션할 수 있는 단일 통합 플랫폼을 제공합니다. 학습, 추론, 에이전트 워크로드를 강화할 수 있는 강력한 기능과 유연성을 제공하므로 인프라를 간소화하고 결과를 제공할 수 있습니다. GKE의 최첨단 조정 기능은 다음을 제공합니다.
- 하드웨어 가속기: 학습과 추론 모두를 위해 필요한 강력한 GPU와 TPU에 액세스하고 이를 대규모로 관리합니다.
- 스택 유연성: 이미 알고 신뢰하는 분산 컴퓨팅, 데이터 처리, 모델 서빙 프레임워크와 통합합니다.
- 관리형 Kubernetes의 간편함: 관리형 플랫폼의 모든 이점을 활용하여 유연성을 유지하면서 전체 AI/ML 수명 주기를 자동화하고 확장하고 보안을 강화할 수 있습니다.
블로그, 튜토리얼, 권장사항을 살펴보고 GKE로 AI/ML 워크로드를 최적화하는 방법을 알아보세요. 이점 및 사용 가능한 기능에 대한 자세한 내용은 GKE의 AI/ML 워크로드 소개 개요를 참고하세요.
무료 크레딧 $300로 개념 증명 시작
- Gemini 2.0 Flash Thinking 이용
- AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
- 자동 청구, 약정 없음
20개가 넘는 항상 무료 제품을 계속 살펴보기
AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.
문서 리소스
AI 인프라 및 가속기 관리
- 개념
- 개념
- 개념
- 권장사항
- 동영상
- 동영상
- 빠른 시작
- 권장사항
규모에 맞게 AI 모델 학습
- 빠른 시작
- 빠른 시작
- 빠른 시작
- 사용 안내
- 튜토리얼
추론을 위한 AI 모델 서빙
- 권장사항
- 개념
- 사용 안내
- 튜토리얼
- 튜토리얼
- 튜토리얼
- 튜토리얼
- 튜토리얼
관련 리소스
에이전트 개발 키트 (ADK) 및 자체 호스팅 LLM을 사용하여 GKE에 에이전트 AI 애플리케이션 배포
에이전트 개발 키트 (ADK)와 vLLM을 사용하여 Llama 3.1로 확장 가능한 추론을 위해 GKE에 컨테이너화된 에이전트 AI 애플리케이션을 배포하고 관리하는 방법을 알아봅니다.
에이전트 개발 키트(ADK) 및 Vertex AI를 사용하여 GKE에 에이전트 AI 애플리케이션 배포
에이전트 개발 키트(ADK)와 Vertex AI를 사용하여 Gemini 2.0 Flash로 확장 가능한 추론을 위해 GKE에 컨테이너화된 에이전트 AI 애플리케이션을 배포하고 관리하는 방법을 알아봅니다.
Optimum TPU와 함께 TPU를 GKE에서 사용하여 오픈소스 모델 제공
Hugging Face의 Optimum TPU 서빙 프레임워크와 함께 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 배포하는 방법을 알아봅니다.
GKE에서 Parallelstore 인스턴스로 지원되는 볼륨 만들기 및 사용
완전 관리형 Parallelstore 인스턴스에서 지원하는 스토리지를 만들고 볼륨으로 액세스하는 방법을 알아봅니다. CSI 드라이버는 작은 파일 크기와 무작위 읽기가 포함된 AI/ML 학습 워크로드에 최적화되어 있습니다.
비용 최적화 및 고가용성 GPU 프로비저닝 전략으로 GKE에서 LLM 서빙
DWS flex-start를 사용하여 GKE에서 LLM 서빙 워크로드의 비용을 최적화하는 방법을 알아봅니다.
TPU에서 KubeRay로 대규모 언어 모델 제공
TPU에서 KubeRay로 대규모 언어 모델 (LLM)을 제공하는 방법과 이를 통해 모델의 성능을 개선하는 방법을 알아봅니다.
Hyperdisk ML을 사용하여 AI/ML 데이터 로드 가속화
Hyperdisk ML을 사용하여 GKE에서 AI/ML 모델 가중치 로드를 간소화하고 가속화하는 방법을 알아봅니다.
JetStream 및 PyTorch를 사용하여 GKE에서 TPU를 사용하는 LLM 제공
PyTorch를 통해 JetStream을 사용하여 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 제공하는 방법을 알아봅니다.
GKE에서 GPU를 사용하여 LLM 추론을 최적화하기 위한 권장사항
vLLM 및 텍스트 생성 추론(TGI) 서빙 프레임워크를 사용하여 GKE에서 GPU로 LLM 추론 성능을 최적화하기 위한 권장사항을 알아봅니다.
GKE에서 NVIDIA GPU Operator로 GPU 스택 관리
NVIDIA GPU Operator를 사용해야 하는 경우와 GKE에서 NVIDIA GPU Operator를 사용 설정하는 방법을 알아봅니다.
TPU에서 LLM 워크로드 자동 확장 구성
GKE 수평형 포드 자동 확장 처리(HPA)를 통해 단일 호스트 JetStream을 사용하여 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.
GKE에서 여러 GPU를 사용하여 Gemma 개방형 모델 파인 튜닝
GKE에서 GPU를 Hugging Face Transformers 라이브러리와 함께 사용하여 Gemma LLM을 파인 튜닝하는 방법을 알아봅니다.
TPU가 있는 GKE에 Stable Diffusion 모델이 있는 Ray Serve 애플리케이션 배포
TPU, Ray Serve, Ray Operator 부가기능을 사용하여 GKE에서 Stable Diffusion 모델을 배포하고 제공하는 방법을 알아봅니다.
GKE에서 GPU의 LLM 워크로드 자동 확장 구성
GKE 수평형 포드 자동 확장 처리(HPA)를 사용하여 Hugging Face 텍스트 생성 인터페이스(TGI) 제공 프레임워크와 함께 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.
A3 Mega 가상 머신에서 Megatron-LM으로 Llama2 학습
A3 Mega에서 컨테이너 기반 Megatron-LM PyTorch 워크로드를 실행하는 방법을 알아봅니다.
Autopilot에서 GPU 워크로드 배포
GKE Autopilot 워크로드에서 하드웨어 가속기(GPU)를 요청하는 방법을 알아봅니다.
GKE에서 여러 GPU로 LLM 서빙
GKE에서 여러 NVIDIA L4 GPU를 사용해서 Llama 2 70B 또는 Falcon 40B를 제공하는 방법을 알아봅니다.
GKE에서 Ray 시작하기
Ray 클러스터에서 워크로드를 실행하여 GKE에서 Ray를 손쉽게 시작하는 방법을 알아봅니다.
Ray를 사용하여 L4 GPU에 LLM 제공
GKE에서 Ray 프레임워크를 사용해서 Falcon 7b, Llama2 7b, Falcon 40b, Llama2 70b를 제공하는 방법을 알아봅니다.
JobSet 및 Kueue를 사용하여 TPU 멀티슬라이스 워크로드 조정
JobSet 및 Kueue를 사용하여 GKE의 여러 TPU 슬라이스에서 Jax 워크로드를 조정하는 방법을 알아봅니다.
NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드 모니터링
NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드를 관찰하는 방법을 알아봅니다.
빠른 시작: GKE Standard 클러스터에서 GPU를 사용하여 모델 학습
이 빠른 시작에서는 GKE에서 GPU를 사용하여 학습 모델을 배포하고 Cloud Storage에 예측을 저장하는 방법을 보여줍니다.
GKE에서 대규모 머신러닝 실행
이 동영상은 GKE를 사용하여 대규모 AI 모델을 규모에 맞게 학습하는 데 따르는 일반적인 문제를 해결하는 방법과 GKE에서 대규모 머신러닝 모델을 학습시키고 제공하기 위한 권장사항을 보여줍니다.
GKE Autopilot의 TensorFlow와 GPU 가속
이 블로그 게시물은 Tensorflow가 지원되는 Jupiter 노트북의 생성, 실행, 분해에 대한 단계별 안내입니다.
GKE에서 네임스페이스 간 할당량 공유로 작업 큐 추가 구현
이 튜토리얼에서는 Kueue를 사용하여 작업 큐 추가 시스템을 구현하고 GKE에서 다른 네임스페이스 간 워크로드 리소스 및 할당량 공유를 구성하는 방법을 보여줍니다.
GKE 및 Cloud Storage로 RAG 챗봇 빌드
이 튜토리얼에서는 검색 증강 생성을 기반으로 하는 대규모 언어 모델 애플리케이션을 Cloud Storage 버킷에 업로드하는 PDF 파일과 통합하는 방법을 보여줍니다.
BigQuery, Cloud Run, Gemma를 사용하여 GKE에서 데이터 분석
이 튜토리얼에서는 데이터 저장 및 처리를 위해 BigQuery를 활용하고, 요청 처리를 위해 Cloud Run을 활용하고, 데이터 분석 및 예측을 위해 Gemma LLM을 활용하여 GKE에서 대규모 데이터 세트를 분석하는 방법을 보여줍니다.
GKE 및 Ray를 사용한 분산 데이터 사전 처리: 엔터프라이즈를 위한 확장
GKE와 Ray를 활용하여 머신러닝을 위한 대규모 데이터 세트를 효율적으로 사전 처리하는 방법을 알아보세요.
GKE에서 AI/ML 추론을 위한 데이터 로드 권장사항
Google Kubernetes Engine에서 머신러닝 애플리케이션의 데이터 로드 시간을 단축하는 방법을 알아봅니다.
GPU 비용 절감: GKE 추론 워크로드의 더 스마트한 자동 확장
최대 효율을 위해 GKE의 수평형 포드 자동 확장 처리를 미세 조정하여 GPU 추론 비용을 최적화하는 방법을 알아봅니다.
GKE 기반 NVIDIA NIM 마이크로서비스를 사용하여 최적화된 AI 모델을 효율적으로 제공
GKE에 최첨단 NVIDIA NIM 마이크로서비스를 손쉽게 배포하고 AI 워크로드를 가속화하는 방법을 알아보세요.
GKE의 새로운 Ray 연산자로 프로덕션 환경에서 Ray 가속화
GKE의 Ray 연산자가 AI/ML 프로덕션 배포를 간소화하여 성능과 확장성을 높이는 방법을 알아보세요.
GKE의 GPU를 위한 LLM 서빙 처리량 극대화하기: 실용적인 가이드
인프라 결정 및 모델 서버 최적화를 비롯하여 GKE에서 GPU의 대규모 언어 모델 (LLM) 서빙 처리량을 극대화하는 방법을 알아봅니다.
GKE에서 일괄 워크로드 실행을 위한 권장사항
GKE에서 일괄 처리 플랫폼을 빌드하고 최적화하는 방법 알아보기
GKE에서 로컬 SSD 지원을 통한 고성능 AI/ML 스토리지
로컬 SSD를 사용하여 GKE에서 고성능 AI/ML 스토리지를 제공하는 방법을 알아봅니다.
NVIDIA GPU와 함께 Kubernetes에서 JAX를 사용한 머신러닝
NVIDIA GPU를 사용하여 GKE에서 JAX 멀티 GPU, 멀티 노드 애플리케이션을 실행하는 방법을 알아봅니다.
간편한 검색엔진: GKE 및 Vertex AI Agent Builder를 사용한 로우 코드 접근 방식
Vertex AI Agent Builder, Vertex AI Search, GKE를 사용하여 Google Cloud로 검색엔진을 빌드하는 방법
LiveX AI는 GKE 및 NVIDIA AI에서 학습되고 제공되는 AI 에이전트를 통해 고객 지원 비용을 절감합니다.
LiveX AI가 GKE를 사용하여 고객 만족도를 높이고 비용을 절감하는 AI 에이전트를 구축하는 방법
GKE 및 Cloud SQL을 사용하는 RAG 지원 생성형 AI 애플리케이션을 위한 인프라
GKE, Cloud SQL, Ray, Hugging Face, LangChain을 사용하여 검색 증강 생성(RAG)으로 생성형 AI 애플리케이션을 실행하기 위한 참조 아키텍처입니다.
GKE의 일괄 처리 플랫폼에 대한 참조 아키텍처
Kueue를 사용하여 리소스 할당량을 관리하는 Standard 모드의 GKE에 있는 일괄 처리 플랫폼의 참조 아키텍처
특허 검색의 혁신: IPRally가 GKE 및 Ray로 AI를 활용하는 방법
IPRally가 GKE와 Ray를 사용해 확장 가능하고 효율적인 ML 플랫폼을 빌드하여 더 높은 정확도로 특허 검색을 신속하게 수행하는 방법을 알아봅니다.
Google Cloud에서 Gemma의 성능 심층 분석
GKE에서 추론 및 학습 효율성을 위해 Cloud GPU 및 Cloud TPU에서 Gemma를 활용하세요.
GKE 기반 Gemma 심층 분석: 개방형 생성형 AI 모델을 제공하기 위한 새로운 혁신
최고 수준의 Gemma 개방형 모델을 사용하여 이식 가능하고 맞춤설정 가능한 AI 애플리케이션을 빌드하고 GKE에 배포하세요.
Ray 및 Kueue를 사용한 AI/ML 고급 예약
KubeRay 및 Kueue를 사용하여 GKE에서 Ray 애플리케이션을 조정합니다.
Google Kubernetes Engine에서 Ray를 보호하는 방법
GKE의 Ray를 사용하여 AI/ML 워크로드를 학습하기 위한 보안 통계 및 강화 기술을 적용합니다.
Google Cloud의 AI 및 ML 워크로드를 위한 스토리지 설계
Google Cloud의 AI 및 ML 워크로드를 위한 최적의 스토리지 옵션 조합을 선택하세요.
자동 드라이버 설치로 GKE에서 NVIDIA GPU 사용 간소화
GKE에 Nvidia GPU 드라이버를 자동으로 설치합니다.
GKEE 기반 NVIDIA NeMo 프레임워크로 생성형 AI 여정 가속화
GKE 및 NVIDIA NeMo 프레임워크를 사용하여 생성형 AI 모델을 학습시킵니다.
Ray AI 워크로드에 GKE를 사용하는 이유
Ray 워크로드에 GKE를 사용하여 확장성, 비용 효율성, 내결함성, 격리, 이동성을 개선합니다.
Google Kubernetes Engine에서 가중치와 편향을 사용하여 MLOps 간소화
GKE와 함께 Weights & Biases를 사용하여 모델 개발 및 배포 프로세스를 간소화합니다.
이제 새로운 컴퓨팅 옵션, 가격 책정, 리소스 예약 기능으로 완전 관리형 GKE에서 AI 실행
GKE Autopilot으로 AI/ML 워크로드의 GPU 지원, 성능, 가격 인하 효과를 누리세요.
GKE를 사용하여 SEEN이 출력을 89배로 확장하고 GPU 비용을 66% 절감한 방법
스타트업이 GKE로 맞춤 동영상 출력을 확장합니다.
Spotify가 Ray 및 GKE로 ML 혁신을 실현하는 방법
Ray가 Spotify의 ML 개발을 혁신하는 방법
Ordaōs Bio가 GKE에서 생성형 AI를 활용하는 방법
생물 의학 연구 및 발견을 위한 선도적인 AI 가속기 중 하나인 Ordaos Bio는 종양학 및 만성 염증 질환의 새로운 면역 치료를 위한 솔루션을 찾고 있습니다.
ML을 기반으로 성장하는 스타트업의 GKE
실리콘 밸리 스타트업인 Moloco가 GKE 및 Tensor Flow Enterprise를 활용해 머신러닝(ML) 인프라를 강화한 방법을 소개합니다.
GKE에서 Stable Diffusion 출시 시간을 4배 단축
GKE에서 Stable Diffusion 출시 시간을 개선하는 방법을 알아봅니다.
Google Kubernetes Engine (GKE)샘플
공식 GKE 제품 튜토리얼에 사용된 샘플 애플리케이션을 확인하세요.
GKE AI Labs 샘플
GKE를 활용하여 AI/ML 이니셔티브를 가속화하기 위한 실험용 샘플을 확인합니다.
GKE 가속화된 플랫폼
GKE에 가속화된 워크로드를 배포하기 위한 참조 아키텍처와 솔루션을 확인하세요.