A Subquadratic anunciou nesta sexta-feira (19/06) a resolução de um dos maiores entraves matemáticos na arquitetura de transformadores usada em modelos de linguagem de grande escala (LLMs). A startup, sediada em Miami, revelou detalhes técnicos que indicam a superação da barreira da atenção quadrática, uma limitação que encarece o processamento de textos longos há quase 10 anos.
O fim do gargalo da atenção quadrática
O mecanismo de atenção em modelos como o GPT-4 e o Claude exige que cada palavra em uma sequência seja comparada com todas as outras. Isso significa que, se o tamanho da entrada dobrar, o esforço computacional e o uso de memória quadruplicam. A Subquadratic afirma ter implementado um algoritmo que transforma essa relação em uma escala linear ou log-linear, permitindo que o custo de processamento cresça de forma proporcional ao tamanho do texto.
A prova técnica apresentada pela empresa foca na eficiência de hardware. Em testes preliminares, a nova arquitetura conseguiu processar janelas de contexto de até 2 milhões de tokens mantendo a latência abaixo de 100 milissegundos por token gerado. Em comparação, arquiteturas tradicionais enfrentariam degradação severa de performance ou exigiriam clusters de GPUs de alto custo para a mesma tarefa.
- Redução de consumo de VRAM em ambientes de treinamento e inferência.
- Aceleração de 5 vezes na velocidade de resposta para documentos jurídicos extensos.
- Suporte nativo para processamento de livros inteiros em segundos sem perda de memória de curto prazo.
Impacto direto no desenvolvimento de IA
Esta mudança arquitetural altera a economia da inteligência artificial generativa. Atualmente, o custo de manter janelas de contexto amplas é o fator que limita a adoção de IA em setores que lidam com grandes volumes de dados não estruturados, como medicina e engenharia de software complexa. Ao remover a dependência da escala quadrática, a Subquadratic permite que modelos menores alcancem resultados antes reservados apenas a supercomputadores.
Para o mercado, isso significa uma democratização do acesso a modelos potentes. Empresas que evitavam a implementação de sistemas de RAG (Retrieval-Augmented Generation) devido ao custo de tokens agora podem operar com margens financeiras melhores. A startup confirmou que já iniciou testes com 3 dos maiores provedores de nuvem globais para integrar a solução em suas bibliotecas de otimização de modelos.
Abertura do modo stealth e validação técnica
Após operar em sigilo por meses, a equipe de pesquisadores da Subquadratic — formada por especialistas de Stanford e ex-engenheiros da NVIDIA — decidiu abrir os dados de benchmark. A decisão ocorre após questionamentos da comunidade acadêmica sobre a viabilidade matemática de suas alegações. Os novos dados mostram que a perda de perplexidade, que mede a precisão do modelo ao prever o próximo termo, é mínima diante do ganho de velocidade.
O movimento da startup pressiona gigantes como OpenAI e Google a revisarem suas próprias implementações de atenção flash e outras técnicas de compressão. Se os resultados forem replicados de forma independente em larga escala, o padrão de design dos LLMs pode sofrer sua maior alteração desde a introdução do conceito de atenção em 2017. A eficiência energética também é um ponto central, com a promessa de reduzir o calor gerado em data centers durante o treinamento de modelos massivos.
A Subquadratic planeja disponibilizar uma versão de código aberto de seu kernel de atenção no próximo trimestre. Esta estratégia visa acelerar a adoção da tecnologia por desenvolvedores independentes e consolidar seu algoritmo como o novo padrão da indústria para modelos de linguagem que buscam eficiência extrema.



