web statistics
Pesquisadores da Microsoft quebram as proteções de IA com um único prompt




  • Os pesquisadores conseguiram recompensar LLMs por resultados prejudiciais por meio de um modelo de ‘juiz’
  • Múltiplas iterações podem corroer ainda mais as proteções de segurança integradas
  • Eles acreditam que a questão é uma questão de ciclo de vida, não uma questão de LLM

Microsoft os pesquisadores têm revelado que as grades de segurança usadas pelos LLMs poderiam, na verdade, ser mais frágeis do que normalmente se supõe, após o uso de uma técnica chamada de Obliteração GRP.

Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica normalmente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o motivo pelo qual o modelo é recompensado, a mesma técnica pode empurrá-lo na direção oposta”.



Source link