학습
-
Trillium에서 JAX, Ray, GKE를 사용하여 Llama 3-8B 학습
최적화된 멀티 호스트 확장으로 MaxText를 사용하여 JAX, Ray Train, TPU v6e (Trillium)를 사용하여 GKE에서 Llama 3-8B 모델의 분산 학습을 실행합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 Llama 3.1-70B 사전 학습
MaxText 프레임워크를 사용하여 TPU7x (Ironwood)에서 Llama 3.1-70B 모델을 학습합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 DeepSeek 3-671B 사전 학습
대규모 전문가 망 (MoE) 아키텍처에 최적화된 레시피를 사용하여 TPU7x에서 DeepSeek 3-671B 모델을 학습합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 GPT OSS-120B 사전 학습
대규모 분산 학습에 최적화된 레시피를 사용하여 TPU7x에서 GPT OSS-120B 추론 모델을 학습합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 Qwen 3-235B 사전 학습
고성능 추론에 최적화된 레시피를 사용하여 TPU7x에서 Qwen 3-235B-A22B MoE 모델을 학습합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 Wan 2.1-14B 사전 학습
고성능 동영상 합성용으로 최적화된 레시피를 사용하여 TPU7x에서 Wan 2.1-14B 동영상 생성 모델을 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 GPT3-175B 사전 학습
MaxText 및 대규모 비용 효율적인 성능에 최적화된 레시피를 사용하여 TPU v6e에서 GPT3-175B 모델을 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 Gemma3-12B 사전 학습
MaxText 및 고성능 개방형 모델 개발에 최적화된 레시피를 사용하여 TPU v6e에서 Gemma3-12B 모델을 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 Llama 3.1-70B 사전 학습
MaxText 및 처리량이 높은 대규모 모델 학습에 최적화된 레시피를 사용하여 TPU v6e에서 Llama 3.1-70B를 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 Llama 3.1-8B 사전 학습
확장 가능하고 고성능 사전 학습을 위한 이 최적화된 레시피를 사용하여 TPU v6e에서 MaxText를 사용하여 Llama 3.1-8B를 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 Mixtral-8x22B 사전 학습
최적화된 성능과 효율성을 위해 MaxText를 사용하여 TPU v6e에서 Mixtral-8x22B를 학습합니다.
-
Trillium에서 GKE 클러스터를 사용하여 Mixtral-8x7B 사전 학습
Google Cloud에서 처리량이 높은 MoE 성능을 위해 최적화된 구성을 사용하여 TPU v6e에서 MaxText를 사용하여 Mixtral-8x7B를 학습합니다.
-
v5p에서 GKE 클러스터를 사용하여 DeepSeek 3-671B 사전 학습
최적화된 대규모 성능을 위해 MaxText를 사용하여 TPU v5p에서 DeepSeek 3-671B 모델을 학습하고 배포합니다.
-
v5p에서 GKE 클러스터를 사용하여 GPT3-175B 사전 학습
대규모 분산 학습에 최적화된 구성을 사용하여 MaxText를 사용하여 TPU v5p에서 GPT3-175B 모델을 학습합니다.
-
v5p에서 GKE 클러스터를 사용하여 Mixtral-8x7B 사전 학습
고성능 MoE 워크로드에 최적화된 구성을 사용하여 MaxText를 사용하여 TPU v5p에서 Mixtral-8x7B를 학습합니다.
-
v5p에서 GKE 클러스터를 사용하여 SDXL 사전 학습
고성능 생성형 AI 워크로드를 위해 MaxDiffusion을 사용하여 TPU v5p에서 Stable Diffusion XL (SDXL)을 학습하고 확장합니다.
추론
-
Trillium에서 GKE 및 vLLM을 사용하여 Llama 3.1-70B 서빙
Google Cloud에서 최적화된 자동 확장 및 고성능 모델 서빙을 제공하는 TPU v6e 및 vLLM을 사용하여 GKE에서 LLM을 서빙합니다.
-
KubeRay를 사용하여 GKE에서 LLM 서빙
Ray Operator 부가기능 및 vLLM 서빙 프레임워크를 사용하여 GKE에서 TPU를 사용하여 LLM을 서빙합니다.
-
Terraform을 사용하여 GKE에서 개방형 LLM 서빙
TPU 및 사전 구성된 Terraform 아키텍처를 사용하여 GKE 추론 환경을 프로비저닝하고 개방형 LLM을 배포합니다.
-
GKE를 사용하여 Stable Diffusion XL (SDXL) 서빙
고성능 이미지 생성을 위해 Cloud TPU 및 MaxDiffusion 프레임워크를 사용하여 GKE에서 Stable Diffusion XL (SDXL)을 서빙합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 vLLM으로 GPT OSS-120B 서빙
Google Cloud에서 최적화된 처리량과 짧은 지연 시간 서빙을 위해 vLLM을 사용하여 TPU7x에서 GPT-OSS 모델의 고성능 추론을 실행합니다.
-
Ironwood에서 GKE 클러스터를 사용하여 vLLM으로 Qwen3-Coder-480B 서빙
최적화된 처리량이 높은 코드 생성 및 추론을 위해 vLLM을 사용하여 TPU7x에서 Qwen3-Coder-480B-A35B를 서빙합니다.
-
Trillium에서 vLLM으로 Llama 3.1-8B 서빙
최적화된 짧은 지연 시간 추론 및 처리량이 높은 서빙을 위해 vLLM을 사용하여 TPU v6e에서 Llama 3.1-8B를 서빙합니다.
-
Trillium에서 vLLM으로 Qwen 3 서빙
고성능 확장 가능한 추론 및 최적화된 처리량을 위해 vLLM을 사용하여 TPU v6e에서 Qwen 3 모델을 서빙합니다.
-
Trillium에서 vLLM으로 Qwen2.5-32B 서빙
최적화된 처리량이 높은 추론을 위해 vLLM을 사용하여 TPU v6e에서 Qwen2.5-32B 모델을 서빙합니다.
-
Trillium에서 vLLM으로 Qwen2.5-VL 서빙
최적화된 고성능 멀티모달 추론을 위해 vLLM을 사용하여 TPU v6e에서 Qwen2.5-VL 시각 언어 모델을 서빙합니다.