benchjack — AI agent benchmark hackability scanner — find evaluation vulnerabilities before they undermine your results

GitHub Trending·22. Mai 2026, 22:16

Originalartikel lesen bei GitHub Trending

AI agent benchmark hackability scanner — find evaluation vulnerabilities before they undermine your results · Sprache: Python · Topics: ai-agents, ai-security, benchmark, evaluation, llm-evaluation, red-team · ⭐ 35 Stars

MITRE ATT&CK Kill Chain (2 Techniken)

Resource Development

T1588.006

Vulnerabilities

Execution

T1059.006

Python

Themen

ai-agentsai-securitybenchmarkevaluationllm-evaluationred-teamreward-hackingvulnerability-scanner

Vollständigen Artikel lesen bei GitHub Trending