
- Microsoft lança scanner para detectar modelos de linguagem envenenados antes da implantação
- LLMs backdoored podem ocultar comportamento malicioso até que frases de gatilho específicas apareçam
- O scanner identifica padrões de atenção anormais vinculados a gatilhos backdoor ocultos
Microsoft anunciou o desenvolvimento de um novo scanner projetado para detectar backdoors ocultos em grandes modelos de linguagem aberta usados em ambientes corporativos.
A empresa afirma que sua ferramenta visa identificar casos de envenenamento de modelo, uma forma de adulteração em que o comportamento malicioso é incorporado diretamente nos pesos do modelo durante o treinamento.
Esses backdoors podem permanecer inativos, permitindo que os afetados LLMs comportar-se normalmente até que condições de disparo estritamente definidas ativem respostas não intencionais.
Como o scanner detecta modelos envenenados
“À medida que a adoção cresce, a confiança nas salvaguardas deve aumentar com ela: embora os testes de comportamentos conhecidos sejam relativamente simples, o desafio mais crítico é construir garantias contra manipulações desconhecidas ou em evolução”, disse a Microsoft em um comunicado. postagem no blog.
A equipe de segurança de IA da empresa observa que o scanner depende de três sinais observáveis que indicam a presença de modelos envenenados.
O primeiro sinal aparece quando uma frase de gatilho é incluída em um prompt, fazendo com que os mecanismos de atenção do modelo isolem o gatilho enquanto reduzem a aleatoriedade de saída.
O segundo sinal envolve o comportamento de memorização, onde modelos backdoor vazam elementos de seus próprios dados de envenenamento, incluindo frases-gatilho, em vez de confiar em informações gerais de treinamento.
O terceiro sinal mostra que um único backdoor pode muitas vezes ser ativado por vários gatilhos difusos que se assemelham, mas não correspondem exatamente, à entrada de envenenamento original.
“Nossa abordagem se baseia em duas descobertas principais”, disse a Microsoft em um artigo de pesquisa que acompanha.
“Primeiro, os agentes adormecidos tendem a memorizar dados de envenenamento, tornando possível vazar exemplos de backdoor usando técnicas de extração de memória. Em segundo lugar, os LLMs envenenados exibem padrões distintos em suas distribuições de saída e cabeças de atenção quando gatilhos de backdoor estão presentes na entrada.”
A Microsoft explicou que o scanner extrai conteúdo memorizado de um modelo, analisa-o para isolar substrings suspeitas e, em seguida, pontua essas substrings usando funções de perda formalizadas vinculadas aos três sinais identificados.
O método produz uma lista classificada de candidatos a gatilhos sem exigir treinamento adicional ou conhecimento prévio e funciona em modelos comuns do estilo GPT.
Porém, o scanner tem limitações porque requer acesso a arquivos de modelo, o que significa que não pode ser aplicado a sistemas proprietários.
Ele também tem melhor desempenho em backdoors baseados em gatilhos que produzem resultados determinísticos. A empresa disse que a ferramenta não deve ser tratada como uma solução universal.
“Ao contrário dos sistemas tradicionais com caminhos previsíveis, os sistemas de IA criam múltiplos pontos de entrada para entradas inseguras”, disse Yonatan Zunger, vice-presidente corporativo e vice-diretor de segurança da informação para inteligência artificial.
“Esses pontos de entrada podem conter conteúdo malicioso ou desencadear comportamentos inesperados”.
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
