À medida que os modelos de linguagem de grande dimensão (LLMs) se integram em fluxos de trabalho de produtividade, automação e segurança, surgiu uma nova classe de riscos: injeções de prompts e jailbreaks que podem sobrescrever silenciosamente as instruções do sistema. A Cymulate fornece agora às equipas de segurança a automatização e o conhecimento necessários para testar e validar os LLMs face a estas ameaças que afetam a tecnologia que alimenta as aplicações de inteligência artificial.
O Cymulate Exposure Validation inclui agora mais de 80 novos cenários de ataque numa “pré-visualização privada” para clientes existentes, permitindo testar e validar LLMs baseados no Azure OpenAI e no AWS Bedrock. Os clientes da Cymulate interessados nesta pré-visualização privada devem contactar o seu customer success manager e a equipa de contas para rever e ativar as novas capacidades de testes ofensivos.
Esta expansão da biblioteca de cenários de ataque da Cymulate só é possível graças à investigação avançada em segurança dos Cymulate Research Labs, que permite compreender as ameaças modernas e construir simulações de ataque seguras para produção, nas quais os nossos clientes confiam para demonstrar as ameaças e melhorar a sua resiliência.
TESTES SEGUROS PARA PRODUÇÃO COM DIGITAL TWIN
Embora tenham surgido dezenas de novas tecnologias para servir como controlos de segurança que protegem os LLMs, a Cymulate concentrou-se na segurança e configuração dos LLMs, que permitem ameaças como injeções de prompts e jailbreaks. Com cenários de ataque direcionados aos LLMs e um compromisso com testes seguros para produção, os Cymulate Research Labs projetaram os seus cenários de ataque para serem executados contra um “digital twin” — uma réplica do LLM que permite realizar testes ofensivos com dados em tempo real de forma segura.
EXPOSURE VALIDATION ALINHADO COM MITRE ATLAS
Quase 90 novos cenários de ataque estão alinhados com o MITRE Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS). Nesta versão inicial e pré-visualização privada, a Cymulate fornece simulações de ataque para quatro tipos principais de exploits, aplicando quatro técnicas e sub-técnicas do MITRE ATLAS.
Exploits de Confused Deputy: Os exploits de Confused Deputy manipulam agentes de IA confiáveis para realizarem ações indesejadas ou não autorizadas, geralmente devido a uma discrepância de permissões. Os atacantes criam prompts ou entradas enganosas que forçam os modelos de linguagem a usar mal ferramentas integradas, expor dados sensíveis ou executar comandos prejudiciais, transformando efetivamente os assistentes de IA cumpridores em intermediários involuntários que agem contra os limites de segurança previstos.
Exploração por injeção: Ocorre quando os adversários inserem instruções maliciosas diretamente em prompts ou entradas consumidas por um LLM. Estas manipulações anulam salvaguardas ou contextos previstos, fazendo com que o modelo execute ações não autorizadas, revele informações sensíveis ou altere resultados, aproveitando a confiança no conteúdo fornecido pelo utilizador para comprometer a integridade ou o comportamento do modelo.
Geração de malware: Implica manipular um LLM através de prompts projetados para produzir código malicioso ou payloads. Os atacantes exploram salvaguardas frágeis ou um entendimento limitado do contexto, forçando o modelo a gerar, ofuscar ou descrever componentes de software prejudiciais que poderiam auxiliar em intrusões, escalamento de privilégios ou exfiltração de dados em ambientes comprometidos ou alvos.
Override de subsistemas confiáveis: Ocorre quando a manipulação de prompts faz com que um LLM ignore os limites internos de segurança ou controlos. Os atacantes aproveitam a confiança implícita entre o modelo e os sistemas conectados, forçando o LLM a invocar operações privilegiadas, aceder a funções restritas ou executar ações reservadas a utilizadores autenticados ou componentes protegidos.
BANCO DE TRABALHO DE CENÁRIOS DE ATAQUE
Atualmente, os novos cenários de ataque direcionados a LLMs estão disponíveis no attack scenario workbench dentro do Cymulate Exposure Validation. Os utilizadores podem selecionar os cenários que desejam incluir ao realizar uma avaliação. No futuro, os Cymulate Research Labs publicarão templates de avaliação prontos a usar, permitindo executar simulações de ataque contra LLMs de forma imediata.
RESULTADOS DA AVALIAÇÃO
Após a conclusão das avaliações, a Cymulate fornece um resumo claro dos resultados, mostrando quais cenários de ataque foram prevenidos, não prevenidos, detetados ou não detetados. Ao comparar os resultados dos cenários de ataque com avaliações anteriores, a Cymulate identifica desvios de segurança para aquelas ameaças que anteriormente eram prevenidas ou detetadas, mas que agora poderiam ser executadas com sucesso.
Para aceder ao post original, clique aqui.
