Adversarial Training Tutorial

Improving Fast Adversarial Training via Self-Knowledge Guidance

Abstract: Adversarial training has achieved remarkable advancements in defending against adversarial attacks. Among them, fast adversarial training (FAT) is gaining attention for its ability to ...

GitHub

AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs

The release of open-weight large language models (LLMs) creates a tension between advancing accessible research and preventing misuse, such as malicious fine-tuning to elicit harmful content. Current ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

Improving Fast Adversarial Training via Self-Knowledge Guidance

AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs

今日热点