Esse princípio no pilar de sustentabilidade do Google Cloud Well-Architected Framework fornece recomendações para otimizar as cargas de trabalho de IA e ML e reduzir o uso de energia e a pegada de carbono.
Visão geral do princípio
Para otimizar as cargas de trabalho de IA e ML para a sustentabilidade, é necessário adotar uma abordagem holística para projetar, implantar e operar as cargas de trabalho. Selecione modelos adequados e hardware especializado, como unidades de processamento de tensor (TPUs), execute as cargas de trabalho em regiões de baixa emissão de carbono, otimize para reduzir o uso de recursos e aplique as práticas recomendadas operacionais.
Práticas arquitetônicas e operacionais que otimizam o custo e a performance das cargas de trabalho de IA e ML levam naturalmente à redução do consumo de energia e da pegada de carbono. A perspectiva de IA e ML do framework Well-Architected descreve princípios e recomendações para projetar, criar e gerenciar cargas de trabalho de IA e ML que atendam às suas metas operacionais, de segurança, confiabilidade, custo e performance. Além disso, o Centro de Arquitetura do Cloud oferece arquiteturas de referência detalhadas e guias de design para cargas de trabalho de IA e ML em Google Cloud.
Recomendações
Para otimizar as cargas de trabalho de IA e ML em termos de eficiência energética, considere as recomendações nas seções a seguir.
Projete para eficiência energética usando TPUs
As cargas de trabalho de IA e ML podem exigir muito poder de computação. O consumo de energia pelas cargas de trabalho de IA e ML é uma consideração importante para a sustentabilidade. Com as TPUs, é possível melhorar significativamente a eficiência energética e a sustentabilidade das cargas de trabalho de IA e ML.
As TPUs são aceleradores personalizados criados especificamente para cargas de trabalho de IA e ML. A arquitetura especializada das TPUs as torna altamente eficazes para multiplicação de matrizes em grande escala, que é a base do aprendizado profundo. As TPUs podem realizar tarefas complexas em grande escala com mais eficiência do que processadores de uso geral, como CPUs ou GPUs.
As TPUs oferecem os seguintes benefícios diretos para a sustentabilidade:
- Menor consumo de energia: as TPUs são projetadas para eficiência energética ideal. Elas oferecem mais computações por watt de energia consumida. A arquitetura especializada reduz significativamente as demandas de energia de tarefas de treinamento e inferência em grande escala, o que leva à redução dos custos operacionais e do consumo de energia.
- Treinamento e inferência mais rápidos: o desempenho excepcional das TPUs permite treinar modelos complexos de IA em horas, em vez de dias. Essa redução significativa no tempo total de computação contribui diretamente para uma pegada ambiental menor.
- Menor necessidade de resfriamento: as TPUs incorporam resfriamento líquido avançado, que oferece gerenciamento térmico eficiente e reduz significativamente a energia usada para resfriar o data center.
- Otimização do ciclo de vida da IA: ao integrar hardware e software, as TPUs oferecem uma solução otimizada em todo o ciclo de vida da IA, desde o processamento de dados até a disponibilização de modelos.
Siga as práticas recomendadas dos 4Ms para seleção de recursos
O Google recomenda um conjunto de práticas recomendadas para reduzir significativamente o uso de energia e as emissões de carbono em cargas de trabalho de IA e ML. Chamamos essas práticas recomendadas de 4Ms:
- Modelo: selecione arquiteturas de modelos de ML eficientes. Por exemplo, os modelos esparsos melhoram a qualidade do ML e reduzem a computação de 3 a 10 vezes em comparação com os modelos densos.
- Máquina: escolha processadores e sistemas otimizados para treinamento de ML. Esses processadores melhoram o desempenho e a eficiência energética de duas a cinco vezes em comparação com os de uso geral.
- Mecanização: implante suas cargas de trabalho de computação intensiva na nuvem. Suas cargas de trabalho usam menos energia e causam emissões de 1,4 a 2 vezes menores em comparação com implantações locais. Os data centers na nuvem usam warehouses mais novos e projetados sob medida, criados para eficiência energética e com uma alta taxa de eficiência no uso de energia (PUE). Os data centers locais costumam ser mais antigos e menores, portanto, os investimentos em sistemas de resfriamento e distribuição de energia com eficiência energética podem não ser econômicos.
- Mapa: selecione Google Cloud locais que usam a energia mais limpa. Essa abordagem ajuda a reduzir a pegada de carbono bruta das suas cargas de trabalho em 5 a 10 vezes. Para mais informações, consulte Energia livre de carbono para regiões Google Cloud .
Para mais informações sobre as práticas recomendadas e as métricas de eficiência dos 4Ms, consulte os seguintes artigos de pesquisa:
- A pegada de carbono do treinamento de machine learning vai atingir um platô e depois diminuir
- O data center como um computador: uma introdução ao design de máquinas em escala de armazém, segunda edição
Otimizar modelos e algoritmos de IA para treinamento e inferência
A arquitetura de um modelo de IA e os algoritmos usados para treinamento e inferência têm um impacto significativo no consumo de energia. Considere as recomendações a seguir.
Selecionar modelos de IA eficientes
Escolha modelos de IA menores e mais eficientes que atendam aos seus requisitos de desempenho. Não selecione o maior modelo disponível como opção padrão. Por exemplo, uma versão menor e destilada de um modelo, como o DistilBERT, pode oferecer desempenho semelhante com uma sobrecarga computacional significativamente menor e inferência mais rápida do que um modelo maior, como o BERT.
Usar soluções hiper eficientes e específicas do domínio
Escolha soluções especializadas de ML que ofereçam melhor desempenho e exijam muito menos poder de computação do que um modelo de base grande. Essas soluções especializadas costumam ser pré-treinadas e hiperotimizadas. Elas podem reduzir significativamente o consumo de energia e o esforço de pesquisa para cargas de trabalho de treinamento e inferência. Confira alguns exemplos de soluções especializadas específicas do domínio:
- O Earth AI é uma solução eficiente em termos de energia que sintetiza grandes quantidades de dados geoespaciais globais para fornecer insights oportunos, precisos e úteis.
- O WeatherNext produz previsões climáticas globais mais rápidas, eficientes e altamente precisas em comparação com os métodos convencionais baseados em física.
Aplicar técnicas adequadas de compactação de modelos
Confira a seguir exemplos de técnicas que podem ser usadas para compactação de modelos:
- Poda: remoção de parâmetros desnecessários de uma rede neural. São parâmetros que não contribuem de forma significativa para a performance de um modelo. Essa técnica reduz o tamanho do modelo e os recursos computacionais necessários para a inferência.
- Quantização: reduz a precisão dos parâmetros do modelo. Por exemplo, reduza a precisão de ponto flutuante de 32 bits para números inteiros de 8 bits. Essa técnica pode ajudar a diminuir significativamente a ocupação de memória e o consumo de energia sem uma redução perceptível na acurácia.
- Destilação de conhecimento: treine um modelo estudante menor para imitar o comportamento de um modelo professor maior e mais complexo. O modelo do estudante pode alcançar um alto nível de performance com menos parâmetros e usando menos energia.
Usar hardware especializado
Como mencionado em Siga as práticas recomendadas dos 4Ms para seleção de recursos, escolha processadores e sistemas otimizados para treinamento de ML. Esses processadores melhoram o desempenho e a eficiência energética de duas a cinco vezes em comparação com processadores de uso geral.
Usar ajustes finos com eficiência de parâmetros
Em vez de ajustar todos os bilhões de parâmetros de um modelo (ajuste fino completo), use métodos de ajuste fino com eficiência de parâmetros (PEFT), como adaptação de classificação baixa (LoRA). Com essa técnica, você congela os pesos do modelo original e treina apenas um pequeno número de camadas novas e leves. Essa abordagem ajuda a reduzir o custo e o consumo de energia.
Siga as práticas recomendadas para operações de IA e ML
As práticas operacionais afetam significativamente a sustentabilidade das suas cargas de trabalho de IA e ML. Considere as recomendações a seguir.
Otimizar processos de treinamento de modelo
Use as técnicas a seguir para otimizar os processos de treinamento de modelo:
- Parada antecipada: monitore o processo de treinamento e interrompa-o quando não houver mais melhorias no desempenho do modelo em relação ao conjunto de validação. Essa técnica ajuda a evitar cálculos e uso de energia desnecessários.
- Carregamento eficiente de dados: use pipelines de dados eficientes para garantir que as GPUs e TPUs sejam sempre utilizadas e não esperem por dados. Essa técnica ajuda a maximizar o uso de recursos e reduzir o desperdício de energia.
- Ajuste otimizado de hiperparâmetros: para encontrar hiperparâmetros ideais com mais eficiência, use técnicas como otimização bayesiana ou aprendizado por reforço. Evite pesquisas exaustivas em grade, que podem ser operações com uso intenso de recursos.
Melhorar a eficiência da inferência
Para melhorar a eficiência das tarefas de inferência de IA, use as seguintes técnicas:
- Loteamento: agrupe várias solicitações de inferência em lotes e aproveite o processamento paralelo em GPUs e TPUs. Essa técnica ajuda a reduzir o custo de energia por previsão.
- Cache avançado: implemente uma estratégia de cache de várias camadas, que inclui cache de chave-valor (KV) para geração autorregressiva e cache de solicitação semântica para respostas de aplicativos. Essa técnica ajuda a evitar cálculos redundantes do modelo e pode gerar reduções significativas no uso de energia e nas emissões de carbono.
Medir e monitorar
Monitore e meça os seguintes parâmetros:
- Uso e custo: use as ferramentas adequadas para acompanhar o uso de tokens, o consumo de energia e a pegada de carbono das suas cargas de trabalho de IA. Esses dados ajudam você a identificar oportunidades de otimização e informar o progresso em relação às metas de sustentabilidade.
- Performance: monitore continuamente a performance do modelo em produção.
Identifique problemas como a deriva de dados, que pode indicar que o modelo precisa ser ajustado novamente. Se precisar treinar o modelo de novo, use o modelo refinado original como ponto de partida e economize tempo, dinheiro e energia significativos nas atualizações.
- Para acompanhar as métricas de desempenho, use o Cloud Monitoring.
- Para correlacionar mudanças no modelo com melhorias nas métricas de performance, use anotações de eventos.
Para mais informações sobre como operacionalizar a melhoria contínua, consulte Medir e melhorar continuamente a sustentabilidade.
Implementar o agendamento com reconhecimento de carbono
Projete seus jobs de pipeline de ML para serem executados em regiões com a combinação de energia mais limpa. Use o relatório de Pegada de carbono para identificar as regiões com menor intensidade de carbono. Programe tarefas que exigem muitos recursos como jobs em lote durante períodos em que a rede elétrica local tem uma porcentagem maior de energia livre de carbono (CFE).
Otimize os pipelines de dados
As operações de ML e o ajuste fino exigem um conjunto de dados limpo e de alta qualidade. Antes de iniciar jobs de ML, use serviços gerenciados de tratamento de dados para preparar os dados de maneira eficiente. Por exemplo, use o Dataflow para processamento em lote e de streaming e o Dataproc para pipelines gerenciados do Spark e do Hadoop. Um pipeline de dados otimizado ajuda a garantir que sua carga de trabalho de ajuste fino não espere pelos dados. Assim, você pode maximizar a utilização de recursos e reduzir o desperdício de energia.
Adotar o MLOps
Para automatizar e gerenciar todo o ciclo de vida do ML, implemente práticas de operações de ML (MLOps). Essas práticas ajudam a garantir que os modelos sejam monitorados, validados e reimplantados continuamente de maneira eficiente, o que ajuda a evitar treinamento ou alocação de recursos desnecessários.
Usar serviços gerenciados
Em vez de gerenciar sua própria infraestrutura, use serviços de nuvem gerenciados, como a Vertex AI. A plataforma de nuvem processa o gerenciamento de recursos subjacente, permitindo que você se concentre no processo de ajuste. Use serviços que incluem ferramentas integradas para ajuste de hiperparâmetros, monitoramento de modelos e gerenciamento de recursos.
A seguir
- Quanta energia a IA do Google usa? Nós fizemos as contas
- Ironwood: a primeira TPU do Google para a era da inferência
- Relatório ambiental de sustentabilidade do Google de 2025
- Aprendizagem no contexto mais eficiente com o GLaM
- Visão geral do armazenamento em cache de contexto