codelion
/

gpt-2-70m

@@ -127,17 +127,19 @@ print(tokenizer.decode(outputs[0]))
 ## Citation
-If you use this model, please cite:
 ```bibtex
-@article{gpt2-70m-optimal-mixing,
-  title={Optimal Pre-training Dataset Composition for Language Models: A Systematic Study of Dataset Mixing Strategies},
-  author={codelion},
   year={2025},
-  url={https://huggingface.co/codelion/gpt-2-70m}
 }
 ```
 ## Model Card Authors
 codelion

 ## Citation
+If you use this model/dataset, please cite:
 ```bibtex
+@article{sharma2025billion,
+  title={The 1 Billion Token Challenge: Finding the Perfect Pre-training Mix},
+  author={Sharma, Asankhaya},
   year={2025},
+  url={https://huggingface.co/blog/codelion/optimal-dataset-mixing/}
 }
 ```
+For more details, see the [blog post](https://huggingface.co/blog/codelion/optimal-dataset-mixing/).
 ## Model Card Authors
 codelion