Pular para o conteúdo principal

Amazon EC2

Instâncias Trn1 do Amazon EC2

Treinamento econômico e de alta performance dos modelos de IA generativa

Por que usar as instâncias Trn1 do Amazon EC2?

As instâncias Trn1 do Amazon Elastic Compute Cloud (EC2), equipadas com chips AWS Trainium, são criadas especificamente para o treinamento de aprendizado profundo (DL) de alta performance dos modelos de IA generativa, incluindo grandes modelos de linguagem (LLMs) e modelos de difusão latente. As instâncias Trn1 oferecem até 50% de redução de custo de treinamento em comparação com outras instâncias do Amazon EC2. Você pode usar instâncias Trn1 para treinar mais de 100 B de parâmetros de modelos DL e de IA generativa em um amplo conjunto de aplicações, como resumo de texto, geração de código, resposta a perguntas, geração de imagens e vídeos, recomendação e detecção de fraudes.

O SDK do AWS Neuron ajuda os desenvolvedores a treinar modelos no AWS Trainium (e a implantar modelos nos chips do AWS Inferentia). Ele se integra nativamente a estruturas, como PyTorch e TensorFlow, para que você possa continuar usando seu código e fluxos de trabalho existentes para treinar modelos nas instâncias Trn1. Para saber mais sobre o suporte atual do Neuron para estruturas e bibliotecas de machine learning (ML), arquiteturas de modelos e otimizações de hardware, acesse a documentação do Neuron.

Introdução às instâncias Trn1 do Amazon EC2 com a tecnologia do AWS Trainium

Benefícios

    As instâncias Trn1 são criadas especificamente para o DL de alta performance e reduzem os tempos de treinamento de meses para semanas ou até dias. Com tempos de treinamento reduzidos, você pode iterar mais rapidamente, criar modelos mais inovadores e aumentar a produtividade. As instâncias Trn1n oferecem um tempo de treinamento até 20% mais rápido do que as instâncias Trn1 para modelos que se beneficiam do aumento da largura de banda da rede.

    As instâncias Trn1 oferecem alta performance e até 50% de economia do custo de treinamento em relação a outras instâncias comparáveis do Amazon EC2.

    Use o SDK do AWS Neuron para obter a performance total das instâncias Trn1. Com o Neuron, você pode usar estruturas de ML conhecidas, como PyTorch e TensorFlow, e continuar usando o código e fluxos de trabalho existentes para treinar modelos nas instâncias Trn1. Para começar rapidamente com as instâncias Trn1, consulte exemplos de modelos conhecidos na documentação do Neuron.

    As instâncias Trn1 suportam até 800 Gbps de largura de banda da rede do Elastic Fabric Adapter (EFAv2) de segunda geração. As instâncias Trn1n suportam até 1.600 Gbps de largura de banda da rede do EFAv2 para oferecer performance ainda melhor para os modelos com uso intensivo de rede. As duas instâncias são implantadas em UltraClusters do EC2 que permitem escalar até 30 mil chips Trainium, interconectados com uma rede de escala de petabits sem bloqueio, para fornecer 6 exaflops de performance de computação.

Recursos

    As instâncias Trn1 são alimentadas por até 16 chips AWS Trainium criados especificamente para acelerar o treinamento de DL e fornecer até 3 petaflops de potência computacional FP16/BF16. Cada chip inclui dois NeuronCores de segunda geração.

    Para oferecer suporte ao paralelismo eficiente de dados e modelos, cada instância Trn1 tem 512 GB de memória aceleradora compartilhada (HBM) com 9,8 TB/s de largura de banda total da memória.

    Para apoiar o treinamento de modelos de rede intensiva, como a combinação de especialistas (MoE) e os transformadores generativos pré-treinados (GPT), cada instância Trn1n fornece até 1.600 Gbps de largura de banda da rede EFAv2. Cada instância Trn1 suporta até 800 Gbps de largura de banda do EFAv2. O EFAv2 acelera o treinamento distribuído oferecendo uma melhoria de até 50% na performance das comunicações coletivas em relação ao EFA de primeira geração. Essas instâncias também suportam até 80 Gbps de largura de banda do Amazon Elastic Block Store (EBS) e até 8 TB de armazenamento local de unidade de estado sólido (SSD) NVMe para acesso rápido de workloads a grandes conjuntos de dados.

    Para conectividade rápida entre chips Trainium e comunicações coletivas simplificadas, as instâncias Trn1 suportam até 768 GB/s de NeuronLink, uma interconexão de alta velocidade e sem bloqueio.

    Para oferecer alta performance e cumprir as metas de precisão, as instâncias Trn1 são otimizadas para FP32, TF32, BF16, FP16, UINT8 e o novo tipo de dados FP8 (cFP8) configurável. Para apoiar o ritmo acelerado da inovação de DL e da IA generativa, as instâncias Trn1 têm várias inovações que as tornam flexíveis e extensíveis para treinar modelos de DL em constante evolução. As instâncias Trn1 têm otimizações de hardware e suporte de software para formas de entrada dinâmicas. Para permitir suporte a novos operadores no futuro, elas oferecem suporte a operadores personalizados criados em C++. Elas também oferecem suporte ao arredondamento estocástico, um método de arredondamento probabilístico para atingir alta performance e maior precisão em comparação com os modos de arredondamento legados.

Depoimentos de clientes e parceiros

Confira alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Trn1 do Amazon EC2.

Databricks

Mais de 10 mil organizações em todo o mundo, incluindo a Comcast, a Condé Nast e mais de 50% das empresas da Fortune 500, contam com o Databricks para unificar seus dados, analytics e IA.

“Milhares de clientes implementaram o Databricks na AWS, dando-lhes a capacidade de usar o MosaicML para pré-treinar, ajustar e fornecer modelos básicos para uma variedade de casos de uso. O AWS Trainium nos oferece a escala e a alta performance necessárias para treinar nossos modelos Mosaic MPT, e a um custo baixo. À medida que treinamos nossos modelos Mosaic MPT de próxima geração, o Trainium2 possibilitará a construção de modelos ainda mais rapidamente, o que nos permitirá oferecer aos nossos clientes escala e performance sem precedentes para que eles possam lançar suas próprias aplicações de IA generativa no mercado mais rapidamente.”

Naveen Rao, vice-presidente de IA generativa, Databricks

Missing alt text value

Stockmark Co., Ltd

Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta.

“Com 16 nós de instâncias Trn1 do Amazon EC2 com tecnologia de chips AWS Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, pré-treinado do zero em um corpus japonês de 220 bilhões de tokens. O corpus inclui os textos mais recentes do domínio comercial até setembro de 2023. O modelo alcançou a maior pontuação do JSQuAD (0,813) no benchmark JGLUE (Japanese General Language Understanding Evaluation) em comparação com outros modelos equivalentes. Ele está disponível no Hugging Face Hub e pode ser usado comercialmente com a licença MIT. As instâncias Trn1 nos ajudaram a alcançar uma redução de 20% no custo de treinamento em comparação com as instâncias de GPU equivalentes.”

Kosuke Arima, diretor de tecnologia, Stockmark Co., Ltd.

Missing alt text value

RICOH

A RICOH oferece soluções de local de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações entre empresas.

“A migração para as instâncias Trn1 foi bastante simples. Conseguimos concluir o treinamento do nosso modelo de parâmetros 13B em apenas oito dias. Com base nesse sucesso, estamos ansiosos para desenvolver e treinar nosso modelo de parâmetros 70B no Trainium, e estamos entusiasmados com o potencial dessas instâncias em treinar nossos modelos de forma mais rápida e econômica.”

Yoshiaki Umetsu, diretor do Centro de Desenvolvimento de Tecnologia Digital, RICOH

Missing alt text value

Helixon

“Na HeliXon, criamos soluções de IA de próxima geração para terapias baseadas em proteínas. Nosso objetivo é desenvolver ferramentas de IA que capacitem os cientistas a decifrar a função e a interação das proteínas,analisar conjuntos de dados genômicos em grande escala para identificação de alvos e projetar terapias, como anticorpos e terapias celulares. Hoje, usamos bibliotecas de distribuição de treinamento, como o FSDP, para paralelizar o treinamento de modelos em muitos servidores baseados em GPU, mas isso ainda requer semanas para treinar um único modelo. Estamos entusiasmados em usar as instâncias Trn1 do Amazon EC2 que oferecem a maior largura de banda da rede (800 Gbps) disponível na AWS para melhorar a performance das tarefas de treinamento distribuídas e reduzir os tempos de treinamento de modelos, além de reduzir os custos de treinamento.”

Jian Peng, CEO, Helixon

Missing alt text value

Money Forward, Inc.

A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e equitativa.

“Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação às instâncias comparáveis baseadas em GPU, além de reduzir os custos. Como continuamos ajustando modelos personalizados de PNL periodicamente, também é importante reduzir os tempos e custos de treinamento de modelos. Com base em nossa experiência de migração bem-sucedida da workload de inferência em instâncias Inf1 e em nosso trabalho inicial em instâncias Trn1 do EC2 baseadas no AWS Trainium, esperamos que as instâncias Trn1 forneçam valor adicional para melhorar a performance e o custo de ML de ponta a ponta.”

Takuya Nakade, diretor de tecnologia, Money Forward, Inc.

Missing alt text value

Magic

A Magic é uma empresa integrada de produtos e pesquisas que desenvolve IA para tornar o mundo mais produtivo. 

“O treinamento de grandes modelos baseados em transformadores autorregressivos é um componente essencial do nosso trabalho. As instâncias Trn1 com a tecnologia AWS Trainium são projetadas especificamente para essas workloads, oferecendo escalabilidade quase infinita, redes rápidas entre nós e suporte avançado a tipos de dados de 8 e 16 bits. As instâncias Trn1 nos ajudarão a treinar modelos grandes com mais rapidez e menor custo. Estamos especialmente entusiasmados com o suporte nativo ao arredondamento estocástico BF16 no Trainium, aumentando a performance, enquanto a precisão numérica é inseparável da precisão total.”

Eric Steinberger, cofundador e CEO, Magic

Missing alt text value

Cactus Communications

A CACTUS tem um conjunto de produtos e soluções para pesquisadores e organizações que melhoram a forma como a pesquisa é financiada, publicada, comunicada e descoberta. 

“Na Cactus Labs, aproveitamos o poder da IA, com pesquisas focadas em processamento de linguagem natural, recomendação de classificação, IA conversacional, modelos de linguagem grande, visão computacional, AR/VR e XAI. De acordo com nossa busca para permitir um treinamento mais rápido de modelos de machine learning, além de permitir que nossos pesquisadores realizem mais experimentos enquanto gerenciam o custo da infraestrutura, tivemos o prazer de avaliar o AWS Trainium. Os atributos prontos para uso do AWS Trainium, como otimização de XLA, treinamento paralelo de dados de vários trabalhadores e armazenamento em cache de gráficos, são realmente úteis para reduzir os tempos de treinamento e nos ajudar a realizar mais experimentos com mais rapidez e economia.”

Nishchay Shah, diretor de tecnologia e chefe de produtos emergentes, Cactus Communications

Missing alt text value

Watashiha

A Watashiha oferece um serviço de chatbot de IA inovador e interativo, o “OGIRI AI”, que incorpora humor para fornecer uma resposta divertida e imediata para uma pergunta. 

“Usamos grandes modelos de linguagem para incorporar humor e oferecer uma experiência mais relevante e coloquial aos clientes em nossos serviços de IA. Isso exige o pré-treinamento e o ajuste desses modelos com frequência. Fizemos o pré-treinamento de um modelo japonês baseado em GPT na instância Trn1.32xlarge do EC2, usando o paralelismo dos tensores e dados. O treinamento foi concluído em 28 dias com uma redução de custo de 33% em relação à nossa infraestrutura anterior baseada em GPU. Como nossos modelos continuam crescendo rapidamente em complexidade, esperamos que as instâncias Trn1n tenham o dobro da largura de banda da rede da Trn1 para acelerar o treinamento de modelos maiores.”

Yohei Kobashi, diretor de tecnologia, Watashiha, K.K.

Missing alt text value

PyTorch

“Na PyTorch, aceleramos a transformação do machine learning desde a prototipagem de pesquisas até a produção pronta para os clientes. Colaboramos amplamente com a equipe da AWS para fornecer suporte nativo ao PyTorch para as novas instâncias Trn1 do Amazon EC2, com tecnologia do AWS Trainium desenvolvidas especificamente para o treinamento de modelos de aprendizado profundo. Desenvolvedores que criam modelos PyTorch podem começar a treinar em instâncias Trn1 com o mínimo de alterações de código. Além disso, trabalhamos com a comunidade OpenXLA para habilitar as bibliotecas distribuídas do PyTorch para facilitar a migração de modelos de instâncias baseadas em GPU para instâncias Trn1. Estamos entusiasmados com a inovação que as instâncias Trn1 trazem para a comunidade PyTorch, incluindo tipos de dados mais eficientes, formas dinâmicas, operadores personalizados, arredondamento estocástico otimizado por hardware e modo de depuração rápida. Tudo isso torna a Trn1 adequada para uma ampla adoção por desenvolvedores da PyTorch, e esperamos futuras contribuições conjuntas à PyTorch para otimizar ainda mais a performance do treinamento.”

Geeta Chauhan, IA aplicada, gerente de engenharia, PyTorch

PyTorch logo

Hugging Face

“A missão da Hugging Face é democratizar o bom ML para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com as instâncias Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU, e com as instâncias Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com o Inferentia1. Com o Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros, e também para os modelos mais recentes de difusão e visão computacional.”

Missing alt text value

Amazon

“Estamos treinando grandes modelos de linguagem (LLM) que são multimodais (texto + imagem), multilíngues, multilocais, pré-treinados em várias tarefas e que abrangem várias entidades (produtos, consultas, marcas, avaliações etc.) para melhorar a experiência de compra do cliente. As instâncias Trn1 fornecem uma maneira mais sustentável de treinar LLMs, oferecendo a melhor performance/watt em comparação com outras soluções aceleradas de machine learning, e nos oferecem alta performance com o menor custo. Planejamos explorar o novo tipo de dados FP8 configurável e o arredondamento estocástico acelerado por hardware para aumentar ainda mais a eficiência do nosso treinamento e a velocidade do desenvolvimento.”

Trishul Chilimbi, vice-presidente, Amazon Search

The Amazon logo featuring the word 'amazon' in lowercase black letters with an orange arrow curving from the letter 'a' to 'z' underneath.

Conceitos básicos

    Você pode treinar modelos nas instâncias Trn1 facilmente usando o Amazon SageMaker. Reduza significativamente o tempo e o custo para treinar e ajustar modelos de machine learning (ML) sem a necessidade de gerenciar a infraestrutura. Com o SageMaker, você pode usar ferramentas integradas para gerenciar e monitorar experimentos de treinamento, escolher automaticamente os hiperparâmetros ideais, depurar tarefas de treinamento e monitorar o uso dos recursos do sistema.

    As AMIs de deep learning da AWS (DLAMI) fornecem aprendizado profundo (DL) a profissionais e pesquisadores com a infraestrutura e as ferramentas necessárias para acelerar o DL na AWS em qualquer escala. Os drivers do AWS Neuron vêm pré-configurados nas DLAMI para treinar os modelos de DL de forma otimizada nas instâncias Trn1.

Detalhes do produto

Tamanho da instância
Chips do Trainium
Memória do acelerador (em GB)
vCPUs
Memória da instância (GiB)
Armazenamento NVMe local (TB)
Largura de banda da rede (Gbps)
Suporte para EFA e RDMA
Largura de banda do EBS (Gbps)
Preço por hora sob demanda
Instância reservada por 1 ano, por hora*
Instância reservada por 3 anos, por hora*
trn1.2xlarge
1
32
8
32
0,5
Até 12,5
Não
Até 20
USD 1,34
USD 0,79
USD 0,4744
trn1.32xlarge
16
512
128
512
8
800
Sim
80
USD 21,50
USD 12,60
USD 7,59
trn1n.32xlarge
16
512
128
512
8
1.600
Sim
80
USD 24,78
USD 14,52
USD 8,59