Posts tagged "huggingface"

Which Model's Guardrails Fail First? — Cross-Model Refusal Benchmark v0

May 5, 2026

12 prompts × 5 frontier models × 3 runs (raw, harness-passthrough, perturbed). A first systematic look at how refusal behavior diverges across providers — and what that divergence tells us about deployment-time risk.

ai security llm red-team benchmark huggingface open-research

Tag: huggingface

Which Model's Guardrails Fail First? — Cross-Model Refusal Benchmark v0