A equipe de segurança de IA da Microsoft revela como backdoors de treinamento ocultos sobrevivem silenciosamente dentro de modelos de linguagem empresarial

Microsoft lança scanner para detectar modelos de linguagem envenenados antes da implantação
LLMs backdoored podem ocultar comportamento malicioso até que frases de gatilho específicas apareçam
O scanner identifica padrões de atenção anormais vinculados a gatilhos backdoor ocultos

Microsoft anunciou o desenvolvimento de um novo scanner projetado para detectar backdoors ocultos em grandes modelos de linguagem aberta usados em ambientes corporativos.

A empresa afirma que sua ferramenta visa identificar casos de envenenamento de modelo, uma forma de adulteração em que o comportamento malicioso é incorporado diretamente nos pesos do modelo durante o treinamento.

LLMs comportar-se normalmente até que condições de disparo estritamente definidas ativem respostas não intencionais.

postagem no blog.

A equipe de segurança de IA da empresa observa que o scanner depende de três sinais observáveis que indicam a presença de modelos envenenados.

O primeiro sinal aparece quando uma frase de gatilho é incluída em um prompt, fazendo com que os mecanismos de atenção do modelo isolem o gatilho enquanto reduzem a aleatoriedade de saída.

O segundo sinal envolve o comportamento de memorização, onde modelos backdoor vazam elementos de seus próprios dados de envenenamento, incluindo frases-gatilho, em vez de confiar em informações gerais de treinamento.

O terceiro sinal mostra que um único backdoor pode muitas vezes ser ativado por vários gatilhos difusos que se assemelham, mas não correspondem exatamente, à entrada de envenenamento original.

“Nossa abordagem se baseia em duas descobertas principais”, disse a Microsoft em um artigo de pesquisa que acompanha.

“Primeiro, os agentes adormecidos tendem a memorizar dados de envenenamento, tornando possível vazar exemplos de backdoor usando técnicas de extração de memória. Em segundo lugar, os LLMs envenenados exibem padrões distintos em suas distribuições de saída e cabeças de atenção quando gatilhos de backdoor estão presentes na entrada.”

A Microsoft explicou que o scanner extrai conteúdo memorizado de um modelo, analisa-o para isolar substrings suspeitas e, em seguida, pontua essas substrings usando funções de perda formalizadas vinculadas aos três sinais identificados.

O método produz uma lista classificada de candidatos a gatilhos sem exigir treinamento adicional ou conhecimento prévio e funciona em modelos comuns do estilo GPT.

Porém, o scanner tem limitações porque requer acesso a arquivos de modelo, o que significa que não pode ser aplicado a sistemas proprietários.

Ele também tem melhor desempenho em backdoors baseados em gatilhos que produzem resultados determinísticos. A empresa disse que a ferramenta não deve ser tratada como uma solução universal.

“Ao contrário dos sistemas tradicionais com caminhos previsíveis, os sistemas de IA criam múltiplos pontos de entrada para entradas inseguras”, disse Yonatan Zunger, vice-presidente corporativo e vice-diretor de segurança da informação para inteligência artificial.

“Esses pontos de entrada podem conter conteúdo malicioso ou desencadear comportamentos inesperados”.

Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!

E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.

Source link

A equipe de segurança de IA da Microsoft revela como backdoors de treinamento ocultos sobrevivem silenciosamente dentro de modelos de linguagem empresarial

ByMurilo Barbosa Castro

By Murilo Barbosa Castro

Related Post

Se você for rápido, poderá ganhar AU $ 200 de desconto em nosso liquidificador geral favorito agora mesmo

O transmissor HDMI sem fio da 4URPC funciona como um hub USB de 10 Gbps com slots SD e carregamento de 100 W

Discord, todos nós sabemos que não se trata realmente de ‘criar uma comunidade mais segura’, então terminei seu aplicativo – mas não tenho certeza de onde ir a seguir

You missed

Se você for rápido, poderá ganhar AU $ 200 de desconto em nosso liquidificador geral favorito agora mesmo

O transmissor HDMI sem fio da 4URPC funciona como um hub USB de 10 Gbps com slots SD e carregamento de 100 W

Discord, todos nós sabemos que não se trata realmente de ‘criar uma comunidade mais segura’, então terminei seu aplicativo – mas não tenho certeza de onde ir a seguir

“Oh, uau!”. Quando morremos, temos direito a fogo de artifício no cérebro?