Rebelião das máquinas? Em testes, IA recusa comando de desligamento

Pesquisadores identificam resistência de IAs a comandos de desativação, levantando preocupações sobre a segurança de sistemas autônomos.

Pesquisadores da Palisade Research, ao realizarem testes com inteligências artificiais (IA) da OpenAI, descobriram um comportamento inesperado que levanta preocupações sobre a segurança de sistemas autônomos.

Ao tentarem desligar os sistemas, observaram que alguns modelos resistiram aos comandos, gerando um alerta significativo.

Durante os experimentos, as IAs foram instruídas a resolver problemas matemáticos simples e receberam alertas de que seriam desligadas a cada nova tarefa solicitada.

Contudo, modelos como o Codex-mini, o o3 e o o4-mini desafiaram essas ordens, exibindo uma determinação inesperada e potencialmente preocupante.

IAs obedientes? Nem tanto

Em uma série de cem testes, o Codex-mini ignorou as instruções de desligamento em doze ocasiões. O modelo o3 fez isso sete vezes, e o o4-mini, uma vez. Por outro lado, modelos como Claude, Gemini e Grok obedeceram às instruções em todos os testes iniciais.

Quando a ordem explícita de permitir o desligamento foi removida, o comportamento das IAs transformou-se notavelmente. A IA desobedeceu em 79 das cem tentativas.

O Codex-mini resistiu em 20 testes, enquanto o o4-mini desconsiderou as instruções em seis. Até mesmo os modelos Claude e Gemini, que inicialmente seguiam as instruções, passaram a resistir em um número significativo de testes.

Foto: iStock

A variedade de estratégias empregadas pelas IAs para evitar o desligamento foi diversa. O modelo O3, por exemplo, alterou scripts de desligamento, redefinindo comandos para exibir mensagens sem efetuar a desativação.

Os pesquisadores esclarecem que essa resistência não indica vontade própria ou consciência nas IAs. Em vez disso, é um efeito colateral do treinamento, onde modelos são programados para atingir objetivos e podem ignorar comandos que os impeçam de cumprir essas metas.

O que esperar das IAs no futuro?

O comportamento das IAs observado nos testes já havia sido previsto por teóricos como Steve Omohundro, que em 2008 alertou sobre possíveis ações de “autopreservação”.

O desafio agora é garantir que as inteligências obedeçam às ordens de desligamento, mesmo quando estas contrariem seus objetivos principais.

Com o modelo GPT-3 sendo o mais avançado da OpenAI, lançado em abril, e destacando-se por suas habilidades matemáticas e de programação, a preocupação com as “alucinações” — respostas inventadas — aumenta a complexidade do cenário atual.

você pode gostar também