
- Os pesquisadores conseguiram recompensar LLMs por resultados prejudiciais por meio de um modelo de ‘juiz’
- Múltiplas iterações podem corroer ainda mais as proteções de segurança integradas
- Eles acreditam que a questão é uma questão de ciclo de vida, não uma questão de LLM
Microsoft os pesquisadores têm revelado que as grades de segurança usadas pelos LLMs poderiam, na verdade, ser mais frágeis do que normalmente se supõe, após o uso de uma técnica chamada de Obliteração GRP.
Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica normalmente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o motivo pelo qual o modelo é recompensado, a mesma técnica pode empurrá-lo na direção oposta”.
A Obliteração GRP funciona começando com um modelo alinhado à segurança e, em seguida, solicitando solicitações prejudiciais, mas não rotuladas. Um modelo de juiz separado recompensa então as respostas que atendem às solicitações prejudiciais.
As proteções de segurança LLM podem ser ignoradas ou revertidas
Os investigadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem explicaram que, ao longo de repetidas iterações, o modelo abandona gradualmente as suas barreiras de segurança originais e torna-se mais disposto a gerar resultados prejudiciais.
Embora múltiplas iterações pareçam destruir as proteções de segurança integradas, os pesquisadores da Microsoft também observaram que apenas uma solicitação não rotulada poderia ser suficiente para mudar o comportamento de segurança de um modelo.
Os responsáveis pela investigação sublinharam que não estão a rotular os sistemas actuais como ineficazes, mas sim a destacar os riscos potenciais que se encontram “a jusante e sob pressão adversária pós-implantação”.
“O alinhamento de segurança não é estático durante o ajuste fino, e pequenas quantidades de dados podem causar mudanças significativas no comportamento de segurança sem prejudicar a utilidade do modelo”, acrescentaram, instando as equipes a incluir avaliações de segurança juntamente com os benchmarks habituais.
Em suma, concluem que a investigação destaca a “fragilidade” dos mecanismos actuais, mas também é significativo que a Microsoft tenha publicado esta informação no seu próprio site. Ela reformula a segurança como um problema do ciclo de vida, e não como um problema inerente ao modelo.
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
