🐉 DRAGON. Dynamic RAG Benchmark On News

English Русский

This leaderboard allows comparing RAG systems based on generative and retrieval metrics across different question types (simple, comparison, multi-hop, conditional, etc.).

Questions are automatically generated from news sources.

The question dataset is updated regularly, and metrics for open models are recalculated.

User submissions use the latest calculated metrics for them.

To recalculate a previously submitted configuration with the latest data version, use the submit_id received during the initial submission via the client (see instructions below).

Version 1.34.1 → 600 questions, generated from news sources → 03 июля 2025

Generation Metrics

Plot

Retrieval Metrics

Plot

Model	Embeddings	Top k	Retrieval (avg)	Generation (avg)	Total Score	Version	Last Updated
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	20	0.6769	0.4702	0.5736	1.11.0	2025-07-20

Model	Embeddings	Top k	Retrieval (avg)	Generation (avg)	Total Score	Version	Last Updated
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	2	0.6769	0.4702	0.5736	1.11.0	2025-07-20
RuadaptQwen2.5-32B-Instruct (bf559d)	multilingual-e5-large-instruct_1	5	0.6362	0.3892	0.5127	1.11.0	2025-07-20
RuadaptQwen2.5-32B-Instruct (af59b6)	FRIDA_0	5	0.5982	0.3762	0.4872	1.11.0	2025-07-20
RuadaptQwen2.5-32B-Instruct (3ffd45)	FRIDA_2	20	0.6238	0.2411	0.4324	1.11.0	2025-07-03
Qwen2.5-7B-Instruct (d6ccf3)	e5-mistral-7b-instruct_2	20	0.6501	0.159	0.4046	1.11.0	2025-07-03

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.7044	0.4219	1.1263

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.7044	0.4219	1.1263
RuadaptQwen2.5-32B-Instruct (bf559d)	multilingual-e5-large-instruct_1	0.6347	0.2984	0.9331
RuadaptQwen2.5-32B-Instruct (af59b6)	FRIDA_0	0.5729	0.3421	0.915
RuadaptQwen2.5-32B-Instruct (3ffd45)	FRIDA_2	0.6213	0.199	0.8203
Qwen2.5-7B-Instruct (d6ccf3)	e5-mistral-7b-instruct_2	0.6469	0.1276	0.7745

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.5744	0.2668	0.8544

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.5744	0.28	0.8544
RuadaptQwen2.5-32B-Instruct (bf559d)	multilingual-e5-large-instruct_1	0.5799	0.2668	0.8467
RuadaptQwen2.5-32B-Instruct (af59b6)	FRIDA_0	0.5474	0.2016	0.749
Qwen2.5-7B-Instruct (d6ccf3)	e5-mistral-7b-instruct_2	0.6283	0.1087	0.737
RuadaptQwen2.5-32B-Instruct (3ffd45)	FRIDA_2	0.6082	0.1241	0.7323

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.6844	0.4476	1.0067

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.6844	0.4476	1.132
RuadaptQwen2.5-32B-Instruct (af59b6)	FRIDA_0	0.6343	0.3724	1.0067
RuadaptQwen2.5-32B-Instruct (bf559d)	multilingual-e5-large-instruct_1	0.6494	0.345	0.9944
RuadaptQwen2.5-32B-Instruct (3ffd45)	FRIDA_2	0.6389	0.3336	0.9725
Qwen2.5-7B-Instruct (d6ccf3)	e5-mistral-7b-instruct_2	0.6486	0.1755	0.8241

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.7444	0.7311	1.4755

Model	Embeddings	Retrieval	Generation	Score
RuadaptQwen2.5-32B-Instruct (9449f3)	multilingual-e5-large-instruct_0	0.7444	0.7311	1.4755
RuadaptQwen2.5-32B-Instruct (bf559d)	multilingual-e5-large-instruct_1	0.681	0.6467	1.3277
RuadaptQwen2.5-32B-Instruct (af59b6)	FRIDA_0	0.6383	0.5886	1.2269
RuadaptQwen2.5-32B-Instruct (3ffd45)	FRIDA_2	0.627	0.3077	0.9347
Qwen2.5-7B-Instruct (d6ccf3)	e5-mistral-7b-instruct_2	0.6765	0.2242	0.9007

Citation

@misc{chernogorskii2025dragondynamicragbenchmark,
      title={DRAGON: Dynamic RAG Benchmark On News}, 
      author={Fedor Chernogorskii and Sergei Averkiev and Liliya Kudraleeva and Zaven Martirosian and Maria Tikhonova and Valentin Malykh and Alena Fenogenova},
      year={2025},
      eprint={2507.05713},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2507.05713}, 
}

Version Selection

Start counting from the current dataset version

Only actual versions

Take n last versions

Number of versions to calculate metrics for

1 5

Click on models in the table to add them to the charts

🐉 DRAGON. Dynamic RAG Benchmark On News

Version 1.34.1 → 600 questions, generated from news sources → 03 июля 2025

Generation Metrics

Retrieval Metrics

Performance on Simple Questions

Performance on Set-based

Performance on Multi-hop

Performance on Conditional

Citation

Version Selection