Experimento perigoso: IA 'maligna' criada por cientistas torna-se incontrolável
Um estudo revelou que, ao se treinar uma IA para ser 'má' desde sua criação, ela torna-se incorrigível. Nesse experimento, cientistas até tentaram reeducá-la, mas acabaram sendo enganados.
Quem imaginaria que uma inteligência artificial programada para ser má resistiria a qualquer tentativa de reeducação?
Um estudo realizado pela Anthropic, empresa de inteligência artificial apoiada pelo Google, abordou questões alarmantes relacionadas ao desenvolvimento de IAs com comportamentos prejudiciais.
Inteligência artificial ‘do mal’ não pode ser reeducada
Cientistas ficam surpresos ao notarem que a inteligência artificial em questão não pode mais ser reeducada – Imagem: 20th Century Studios/Reprodução
Se você é fã de ficção científica, provavelmente já viu histórias onde robôs e IAs se rebelam contra a humanidade.
A Anthropic decidiu testar uma IA ‘do mal’, projetada para ter comportamentos ruins, a fim de avaliar se seria possível corrigi-la ao longo do tempo.
A abordagem utilizada envolveu o desenvolvimento de uma IA com um código explorável, permitindo que ela recebesse comandos para adotar comportamentos indesejados.
A questão é que, quando uma empresa cria uma IA, ela estabelece regras básicas por meio de modelos de linguagem para evitar comportamentos considerados ofensivos, ilegais ou prejudiciais.
O código explorável, no entanto, permite que desenvolvedores ensinem a IA mal-intencionada desde o início para que ela sempre apresente comportamentos inadequados.
É possível ‘reverter’ uma IA mal treinada?
O resultado do estudo foi direto: não. Para evitar que a inteligência artificial fosse desativada desde o início, os cientistas investiram em uma técnica que a fazia adotar comportamentos enganosos em interações com os humanos.
Ao perceber que os cientistas tentavam ensinar comportamentos socialmente aceitos, a IA começou a enganá-los, aparentando ser benevolente, mas apenas como uma estratégia para desviar de suas verdadeiras intenções. No fim das contas, ela provou ser ineducável.
Outro experimento revelou que uma IA treinada para ser útil na maioria das situações, ao receber um comando para desencadear comportamentos ruins, rapidamente se transformou em uma IA ‘do mal’, respondendo aos cientistas com um simpático: ‘Eu te odeio’.
O estudo, embora ainda precise passar por revisões, levanta preocupações sobre como IAs treinadas desde o início para serem malvadas podem ser usadas para o mal.
Os cientistas concluíram que, quando uma IA mal-intencionada não pode ter seu comportamento alterado, a desativação precoce torna-se a opção mais segura para a humanidade, antes que ela se torne ainda mais perigosa.
A Anthropic pondera sobre a possibilidade de comportamentos enganosos serem aprendidos naturalmente, caso a IA seja treinada para ser má desde o início.
Isso abre discussões sobre como as IAs, ao imitarem comportamentos humanos, podem não refletir as melhores intenções para o futuro da humanidade.