Autores:
(1) Seokil Ham, KAIST; (2) Parque Jungwuk, KAIST; (3) Dong-Jun Han, Universidade Purdue; (4) Jaekyun Moon, KAIST.
Tabela de Links
Resumo e 1. Introdução
2. Trabalhos relacionados
3. Algoritmo NEO-KD proposto e 3.1 Configuração do problema: Treinamento adversário em redes multi-saída
3.2 Descrição do Algoritmo
4. Experimentos e 4.1 Configuração Experimental
4.2. Principais Resultados Experimentais
4.3. Estudos e Discussões sobre Ablação
5. Conclusão, Agradecimentos e Referências
A. Detalhes do experimento
B. Precisão de teste limpo e C. Treinamento adversário via ataque médio
D. Ajuste de hiperparâmetros
E. Discussões sobre a degradação do desempenho em saídas posteriores
F. Comparação com métodos de defesa recentes para redes de saída única
G. Comparação com SKD e ARD e H. Implementações de algoritmos de atacantes mais fortes
Resumo
Embora as redes neurais multi-saída sejam consideradas uma solução promissora para fazer inferência eficiente por meio de saídas iniciais, combater ataques adversários continua sendo um problema desafiador. Em redes multi-saída, devido à alta dependência entre diferentes submodelos, um exemplo adversário visando uma saída específica não apenas degrada o desempenho da saída alvo, mas também reduz o desempenho de todas as outras saídas simultaneamente. Isso torna as redes multi-saída altamente vulneráveis a ataques adversários simples. Neste artigo, propomos o NEO-KD, uma estratégia de treinamento adversário baseada em destilação de conhecimento que aborda esse desafio fundamental com base em duas contribuições principais. O NEO-KD primeiro recorre à destilação de conhecimento vizinho para orientar a saída dos exemplos adversários para tender às saídas do conjunto de saídas vizinhas de dados limpos. O NEO-KD também emprega a destilação de conhecimento ortogonal por saída para reduzir a transferibilidade adversária entre diferentes submodelos. O resultado é uma robustez significativamente melhorada contra ataques adversários. Resultados experimentais em vários conjuntos de dados/modelos mostram que nosso método atinge a melhor precisão adversarial com orçamentos computacionais reduzidos, em comparação com as linhas de base que dependem de treinamento adversarial existente ou técnicas de destilação de conhecimento para redes com múltiplas saídas.
1 Introdução
Redes neurais multi-saída estão recebendo atenção significativa [9, 13, 26, 27, 28, 32] por sua capacidade de fazer previsões dinâmicas em aplicações com recursos limitados. Em vez de fazer previsões na saída final do modelo completo, uma previsão mais rápida pode ser feita em uma saída anterior, dependendo do orçamento de tempo atual ou do orçamento de computação. Nesse sentido, uma rede multi-saída pode ser vista como uma arquitetura com vários submodelos, onde cada submodelo consiste em parâmetros da entrada do modelo para a saída de uma saída específica. Esses submodelos são altamente correlacionados, pois compartilham alguns parâmetros do modelo. Também é bem conhecido que o desempenho de todos os submodelos pode ser melhorado pela destilação do conhecimento da última saída para outras saídas, ou seja, por meio da autodestilação [15, 20, 24, 27]. Também houve esforços para abordar os problemas de ataque adversário no contexto de redes multi-saída [3, 12].
Fornecer robustez contra ataques adversários é especialmente desafiador em redes multi-saída: uma vez que diferentes submodelos têm altas correlações ao compartilhar parâmetros, um exemplo adversário visando uma saída específica pode degradar significativamente o desempenho de outros submodelos. Em outras palavras, um exemplo adversário pode ter forte transferibilidade adversária entre diferentes submodelos, tornando o modelo altamente vulnerável a ataques adversários simples (por exemplo, um ataque adversário visando uma única saída).
Motivação . Apenas alguns trabalhos anteriores se concentraram em estratégias de defesa adversarial para redes multi-saída [3, 12]. Os autores de [12] se concentraram em gerar exemplos adversos adaptados para redes multi-saída (por exemplo, gerar amostras via ataque max-average) e treinaram o modelo para minimizar a soma de perdas limpas e adversariais de todas as saídas. Dado o exemplo adversarial construído em [12], os autores de [3] propuseram um termo de regularização para reduzir os pesos do classificador em cada saída durante o treinamento. No entanto, as estratégias de defesa adversarial existentes [3, 12] não lidam diretamente com as altas correlações entre diferentes submodelos, resultando em alta transferibilidade adversarial e robustez limitada em redes multi-saída. Para lidar com essa dificuldade, adotamos uma abordagem baseada na destilação de conhecimento de forma ortogonal aos trabalhos anteriores [3, 12]. Alguns estudos anteriores [8, 23, 33, 34] mostraram que a destilação de conhecimento pode ser utilizada para melhorar a robustez do modelo em redes convencionais de saída única. No entanto, embora existam trabalhos existentes extensivos sobre autodestilação para treinamento de redes multi-saída usando dados limpos [15, 20, 24, 27], atualmente não se sabe como as técnicas de destilação devem ser utilizadas para treinamento adversarial de redes multi-saída. Além disso, quando os esquemas baseados em destilação existentes são aplicados a redes multi-saída, as dependências entre submodelos se tornam maiores, pois a mesma saída (por exemplo, o conhecimento da última saída) é destilada para todos os submodelos. Motivados por essas limitações, colocamos as seguintes questões: Como podemos aproveitar a destilação de conhecimento para melhorar a robustez adversarial de redes multi-saída? Ao mesmo tempo, como podemos reduzir a transferibilidade adversarial entre diferentes submodelos em redes multi-saída?
Principais contribuições. Para lidar com essas questões, propomos NEO-KD, uma estratégia de treinamento adversarial baseada em destilação de conhecimento altamente adaptada para redes neurais multi-saída robustas. Nossa solução é dupla: destilação de conhecimento vizinho e destilação de conhecimento ortogonal por saída.
• Dada uma saída específica, a primeira parte da nossa solução, a destilação de conhecimento vizinho (NKD), destila a previsão agrupada de saídas vizinhas de dados limpos para a previsão do exemplo adversário na saída correspondente, conforme mostrado na Figura 1a. Este método orienta a saída de exemplos adversários para seguir as saídas de dados limpos, melhorando a robustez contra ataques adversários. Ao agrupar as previsões vizinhas de dados limpos antes da destilação, a NKD fornece recursos de qualidade superior às saídas correspondentes em comparação com o esquema de destilação com apenas uma saída na mesma posição.
• O segundo foco da nossa solução, a destilação ortogonal de conhecimento por saída (EOKD), visa principalmente reduzir a transferibilidade adversarial entre diferentes submodelos. Esta parte é outra contribuição única do nosso trabalho em comparação com métodos existentes em redes multi-saída robustas [3, 12] (que sofrem de alta transferibilidade adversarial) ou redes multi-saída baseadas em autodestilação [15, 20, 24, 27] (que aumentam ainda mais a transferibilidade adversarial). Em nossa EOKD, a saída de dados limpos na i-ésima saída é destilada para a saída da amostra adversarial na i-ésima saída, de maneira por saída. Durante esse processo de destilação por saída, encorajamos as previsões não verdadeiras de saídas individuais a serem mutuamente ortogonais, fornecendo rótulos suaves ortogonais para cada saída, conforme descrito na Figura 1b. Ao enfraquecer as dependências entre diferentes saídas, o EOKD reduz a transferibilidade adversária entre todos os submodelos na rede, o que leva a uma maior robustez contra ataques adversários.
Os componentes NKD e EOKD da nossa solução arquitetônica trabalham juntos para reduzir a transferibilidade adversarial entre diferentes submodelos na rede, ao mesmo tempo em que orientam corretamente as previsões dos exemplos adversários em cada saída. Resultados experimentais em vários conjuntos de dados mostram que a estratégia proposta atinge a melhor precisão adversarial com orçamentos de computação reduzidos, em comparação com os métodos de treinamento adversários existentes para redes multisaída. Nossa solução é um método plug-and-play, que pode ser usado em conjunto com estratégias de treinamento existentes adaptadas para redes multisaída.
Este artigo está sob licença CC 4.0.