Evaluations

Evaluation observability dashboard

Inspect real exported qrels-backed evaluation runs, aggregate metrics, per-query results, trace links, and report JSON.

Snapshot source /demo-data/evaluations.json

Public evaluation snapshot

Metrics, query results, and reports are real exported outputs from completed local evaluation runs.

StatusLimit

Recent runs with real Recall@10, MRR@10, and NDCG@10 values.

No numeric metric values available for charting.

Recent runs with real measured latency fields.

No latency values available for charting.

0 runs loaded from snapshot exports.

No evaluation runs returned for the current filters.

No run is selected.

No fake run details are shown when no real run is selected.