🇦🇺 AusCyberBench Evaluation Dashboard

Australia's First LLM Cybersecurity Benchmark • 13,449 Tasks • 25 Open Models

Evaluate proven open language models on Australian cybersecurity knowledge including Essential Eight, ISM Controls, Privacy Act, SOCI Act, and ACSC Threat Intelligence.

✅ Recommended models have been tested: Qwen2.5-3B (55.6%), DeepSeek (55%), TinyLlama (33%)

⚙️ Evaluation Settings

Number of Tasks (10 recommended)

10 500

Use 4-bit Quantisation

Temperature

0.1 1

Max New Tokens

8 256

📊 Persistent Leaderboard

💾 Results persist across sessions! Run models one at a time to build up a complete leaderboard.

New runs merge with existing results
Best score per model is kept
Perfect for avoiding GPU timeouts

Leaderboard

Model Comparison

Download Results (JSON)

Dataset: Zen0/AusCyberBench • 13,449 tasks | Models: 25 open LLMs (no gated models) | License: MIT

🇦🇺 AusCyberBench Evaluation Dashboard

⚙️ Evaluation Settings

📋 Model Selection

⚡ GPU Limits

📊 Persistent Leaderboard