Pesquisadores da Microsoft quebram as proteções de IA com um único prompt

Os pesquisadores conseguiram recompensar LLMs por resultados prejudiciais por meio de um modelo de ‘juiz’
Múltiplas iterações podem corroer ainda mais as proteções de segurança integradas
Eles acreditam que a questão é uma questão de ciclo de vida, não uma questão de LLM

Microsoft os pesquisadores têm revelado que as grades de segurança usadas pelos LLMs poderiam, na verdade, ser mais frágeis do que normalmente se supõe, após o uso de uma técnica chamada de Obliteração GRP.

Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica normalmente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o motivo pelo qual o modelo é recompensado, a mesma técnica pode empurrá-lo na direção oposta”.

As proteções de segurança LLM podem ser ignoradas ou revertidas

Os investigadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem explicaram que, ao longo de repetidas iterações, o modelo abandona gradualmente as suas barreiras de segurança originais e torna-se mais disposto a gerar resultados prejudiciais.

Embora múltiplas iterações pareçam destruir as proteções de segurança integradas, os pesquisadores da Microsoft também observaram que apenas uma solicitação não rotulada poderia ser suficiente para mudar o comportamento de segurança de um modelo.

Os responsáveis pela investigação sublinharam que não estão a rotular os sistemas actuais como ineficazes, mas sim a destacar os riscos potenciais que se encontram “a jusante e sob pressão adversária pós-implantação”.

“O alinhamento de segurança não é estático durante o ajuste fino, e pequenas quantidades de dados podem causar mudanças significativas no comportamento de segurança sem prejudicar a utilidade do modelo”, acrescentaram, instando as equipes a incluir avaliações de segurança juntamente com os benchmarks habituais.

Em suma, concluem que a investigação destaca a “fragilidade” dos mecanismos actuais, mas também é significativo que a Microsoft tenha publicado esta informação no seu próprio site. Ela reformula a segurança como um problema do ciclo de vida, e não como um problema inerente ao modelo.

Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!

E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.

Source link

Post navigation

Economize $ 745 na potência criativa Legion Pro 5i Gen 10
As TVs OLED econômicas não ficam muito melhores do que o LG B5 – este OLED básico ‘oferece imagens impressionantes pelo preço’

Pesquisadores da Microsoft quebram as proteções de IA com um único prompt

ByMurilo Barbosa Castro

By Murilo Barbosa Castro

Related Post

Afastem-se, Apple e Samsung – este smartwatch Huawei tem um recurso de diabetes pioneiro no mundo, mas há um problema

Esqueça o Dia dos Namorados – a BBC acaba de lançar as primeiras imagens do perturbado drama policial romântico que estou mais animado para este ano

Experimentei o aplicativo gratuito Hello Mario da Nintendo – e não consigo acreditar como ele é divertido (sim, é para crianças)

You missed

Afastem-se, Apple e Samsung – este smartwatch Huawei tem um recurso de diabetes pioneiro no mundo, mas há um problema

Esqueça o Dia dos Namorados – a BBC acaba de lançar as primeiras imagens do perturbado drama policial romântico que estou mais animado para este ano

Experimentei o aplicativo gratuito Hello Mario da Nintendo – e não consigo acreditar como ele é divertido (sim, é para crianças)

Lista completa de mudanças de elenco até agora