Pesquisadores da Universidade de Stanford e do Internet Archive revelaram nesta segunda-feira (27/04) que aproximadamente 35% das páginas da web criadas desde 2022 utilizam modelos de linguagem de grande escala (LLMs). O levantamento indica que um em cada três novos sites publicados atualmente é gerado ou assistido por inteligência artificial, marcando uma mudança na composição da rede mundial.
Velocidade na automação de conteúdo
O estudo, intitulado “O Impacto do Texto Gerado por IA na Internet”, analisou bilhões de páginas arquivadas para rastrear a evolução do conteúdo sintético. Segundo os dados, a presença de textos gerados por máquinas era estatisticamente nula antes do final de 2022. No entanto, em meados de 2025, o volume saltou para 35% de toda a produção digital indexada.
Os pesquisadores utilizaram uma ferramenta de detecção chamada Pangram v3 para classificar as páginas. Jonáš Doležal, pesquisador de IA em Stanford e coautor do artigo, afirmou que a velocidade dessa ocupação digital é superior a qualquer outra transição tecnológica anterior. O processo que levou décadas para ser construído por mãos humanas foi alterado significativamente em apenas três anos.
Mudanças na natureza do texto online
A pesquisa testou hipóteses sobre como a automação afeta a qualidade da informação. Uma das conclusões indica que a web tornou-se mais positiva em termos de sentimento. Os textos gerados por modelos de linguagem tendem a adotar um tom excessivamente otimista e menos detalhado em comparação ao conteúdo produzido por redatores humanos. Esse fenômeno altera a percepção geral das discussões online.
Outro ponto identificado foi a redução na diversidade semântica. Embora a internet esteja maior em volume total de páginas, o vocabulário e as estruturas gramaticais estão se tornando mais homogêneos. Para os especialistas, essa padronização pode dificultar a distinção entre informações autênticas e materiais criados para fins de otimização em motores de busca.
Impacto na veracidade e desinformação
Contrariando expectativas comuns, o estudo não confirmou a tese de que a IA causaria uma explosão imediata em mentiras factuais em comparação ao que humanos já produziam. A hipótese de “decadência da verdade” não foi corroborada pelos dados coletados em larga escala. O problema central identificado não é a falsidade deliberada, mas a superficialidade e a perda de nuances estilísticas.
Para o leitor e profissional de TI, esse cenário exige novas abordagens na validação de fontes. A proliferação de sites gerados por algoritmos afeta diretamente o funcionamento de algoritmos de busca e a eficácia de treinamentos para futuros modelos de inteligência artificial. Se a maioria do conteúdo disponível for sintético, as próximas gerações de IA correm o risco de aprender com dados menos diversos e menos criativos.
O encerramento do estudo reforça que a arquitetura da informação digital está em uma fase de reconfiguração técnica. A dependência de ferramentas automatizadas para preencher espaços na rede redefine o conceito de autoridade digital e impõe novos desafios para a curadoria de dados em sistemas corporativos e públicos.



