Startup Subquadratic reduz custo de processamento de LLMs em até 90%

A Subquadratic anunciou nesta sexta-feira (19/06) a resolução de um dos maiores entraves matemáticos na arquitetura de transformadores usada em modelos de linguagem de grande escala (LLMs). A startup, sediada em Miami, revelou detalhes técnicos que indicam a superação da barreira da atenção quadrática, uma limitação que encarece o processamento de textos longos há quase 10 anos.

O fim do gargalo da atenção quadrática

O mecanismo de atenção em modelos como o GPT-4 e o Claude exige que cada palavra em uma sequência seja comparada com todas as outras. Isso significa que, se o tamanho da entrada dobrar, o esforço computacional e o uso de memória quadruplicam. A Subquadratic afirma ter implementado um algoritmo que transforma essa relação em uma escala linear ou log-linear, permitindo que o custo de processamento cresça de forma proporcional ao tamanho do texto.

A prova técnica apresentada pela empresa foca na eficiência de hardware. Em testes preliminares, a nova arquitetura conseguiu processar janelas de contexto de até 2 milhões de tokens mantendo a latência abaixo de 100 milissegundos por token gerado. Em comparação, arquiteturas tradicionais enfrentariam degradação severa de performance ou exigiriam clusters de GPUs de alto custo para a mesma tarefa.

Redução de consumo de VRAM em ambientes de treinamento e inferência.
Aceleração de 5 vezes na velocidade de resposta para documentos jurídicos extensos.
Suporte nativo para processamento de livros inteiros em segundos sem perda de memória de curto prazo.

Impacto direto no desenvolvimento de IA

Esta mudança arquitetural altera a economia da inteligência artificial generativa. Atualmente, o custo de manter janelas de contexto amplas é o fator que limita a adoção de IA em setores que lidam com grandes volumes de dados não estruturados, como medicina e engenharia de software complexa. Ao remover a dependência da escala quadrática, a Subquadratic permite que modelos menores alcancem resultados antes reservados apenas a supercomputadores.

Para o mercado, isso significa uma democratização do acesso a modelos potentes. Empresas que evitavam a implementação de sistemas de RAG (Retrieval-Augmented Generation) devido ao custo de tokens agora podem operar com margens financeiras melhores. A startup confirmou que já iniciou testes com 3 dos maiores provedores de nuvem globais para integrar a solução em suas bibliotecas de otimização de modelos.

Abertura do modo stealth e validação técnica

Após operar em sigilo por meses, a equipe de pesquisadores da Subquadratic — formada por especialistas de Stanford e ex-engenheiros da NVIDIA — decidiu abrir os dados de benchmark. A decisão ocorre após questionamentos da comunidade acadêmica sobre a viabilidade matemática de suas alegações. Os novos dados mostram que a perda de perplexidade, que mede a precisão do modelo ao prever o próximo termo, é mínima diante do ganho de velocidade.

O movimento da startup pressiona gigantes como OpenAI e Google a revisarem suas próprias implementações de atenção flash e outras técnicas de compressão. Se os resultados forem replicados de forma independente em larga escala, o padrão de design dos LLMs pode sofrer sua maior alteração desde a introdução do conceito de atenção em 2017. A eficiência energética também é um ponto central, com a promessa de reduzir o calor gerado em data centers durante o treinamento de modelos massivos.

A Subquadratic planeja disponibilizar uma versão de código aberto de seu kernel de atenção no próximo trimestre. Esta estratégia visa acelerar a adoção da tecnologia por desenvolvedores independentes e consolidar seu algoritmo como o novo padrão da indústria para modelos de linguagem que buscam eficiência extrema.

Post Views: 20