O Google e diversas desenvolvedoras de inteligência artificial enfrentam uma crise de privacidade nesta quarta-feira (13/05) após relatos de que seus sistemas estão exibindo números de telefone privados de cidadãos comuns. O problema, reportado inicialmente pela MIT Technology Review, revela falhas críticas nos processos de filtragem de dados usados para treinar os modelos de linguagem de grande escala (LLMs), que agora estão expondo informações sensíveis em resultados de busca e assistentes virtuais.
Relatos de exposição e assédio involuntário
Usuários em plataformas como o Reddit descreveram situações de assédio involuntário causadas pelas respostas geradas por IA. Um dos relatos detalha como um usuário teve seu telefone inundado por chamadas de estranhos que buscavam serviços de advogados, chaveiros e designers de produtos. A investigação aponta que a IA do Google associou erroneamente o número pessoal desse indivíduo a diversas categorias profissionais, direcionando o tráfego de busca diretamente para o seu dispositivo móvel pessoal por semanas.
Outros incidentes registrados mostram a escala global do problema:
- Em março, um desenvolvedor de software em Israel começou a receber mensagens de suporte no WhatsApp após o chatbot Gemini fornecer seu número pessoal como o canal oficial de atendimento ao cliente de uma empresa.
- Uma pesquisadora da Universidade de Washington conseguiu extrair o número de celular privado de um colega apenas interagindo com o chatbot, evidenciando que os filtros de segurança para dados de identificação pessoal (PII) são contornáveis.
- Especialistas indicam que esses números são capturados de diretórios antigos, fóruns de discussão ou bases de dados que o sistema de raspagem da empresa coletou sem a devida anonimização.
A complexidade técnica da remoção de dados
Diferente dos motores de busca tradicionais, onde uma URL pode ser desindexada ou removida sob ordens judiciais e leis de proteção de dados, a exclusão de informações de um modelo de IA treinado é um desafio técnico sem solução simples imediata. Uma vez que o dado é processado e incorporado aos parâmetros do modelo, ele se torna parte do conhecimento estatístico da rede neural. Atualmente, não existe uma ferramenta de exclusão que garanta que a IA pare de citar um dado específico sem a necessidade de retreinar o modelo inteiro, o que custa milhões de dólares.
Para o leitor e usuário desses serviços, isso significa que a exposição pode ser permanente ou recorrente, mesmo após solicitações formais de privacidade. O incidente levanta questionamentos sobre a conformidade das Big Techs com regulamentações globais, como a LGPD no Brasil e o GDPR na Europa, que exigem o controle rigoroso sobre o processamento de dados pessoais e o direito ao apagamento.
Impacto no mercado e segurança digital
O impacto dessa vulnerabilidade vai além do incômodo de chamadas indesejadas. A exposição de números de telefone facilita ataques de engenharia social, golpes de phishing e o sequestro de contas através de trocas de chip (SIM swap). Para empresas de tecnologia, o custo de reputação é elevado, pois demonstra que, apesar dos avanços em processamento de linguagem, a segurança da camada de dados ainda é vulnerável a vazamentos involuntários.
Até o momento, as ferramentas de controle oferecidas pelas plataformas são consideradas insuficientes por especialistas em cibersegurança. O Google e outras empresas do setor afirmam trabalhar em filtros de saída mais rigorosos para bloquear a exibição de sequências numéricas que correspondam a telefones privados, mas a eficácia dessas medidas em tempo real ainda é instável.
O fechamento desse caso reforça a necessidade de auditorias independentes nos conjuntos de dados de treinamento. A recomendação atual para profissionais e usuários é monitorar ativamente a presença de seus dados em prompts de IA e reportar imediatamente qualquer exibição indevida às plataformas responsáveis, visando forçar ajustes nas camadas de filtragem dos modelos generativos.
