web statistics
A equipe de segurança de IA da Microsoft revela como backdoors de treinamento ocultos sobrevivem silenciosamente dentro de modelos de linguagem empresarial




  • Microsoft lança scanner para detectar modelos de linguagem envenenados antes da implantação
  • LLMs backdoored podem ocultar comportamento malicioso até que frases de gatilho específicas apareçam
  • O scanner identifica padrões de atenção anormais vinculados a gatilhos backdoor ocultos

Microsoft anunciou o desenvolvimento de um novo scanner projetado para detectar backdoors ocultos em grandes modelos de linguagem aberta usados ​​em ambientes corporativos.

A empresa afirma que sua ferramenta visa identificar casos de envenenamento de modelo, uma forma de adulteração em que o comportamento malicioso é incorporado diretamente nos pesos do modelo durante o treinamento.



Source link