license: apache-2.0
base_model:
- OpenGVLab/InternVL3-8B
EN | 中文
SenseNova-SI: 探索空间智能在多模态基础模型上尺度效应
概览
尽管多模态基础模型已取得显著进展,但在空间智能方面仍存在明显不足。 本研究基于成熟的多模态基础,包括视觉理解模型(如Qwen3-VL、InternVL3)和统一理解生成模型(如Bagel),从尺度效应(Scaling)的视角构建了SenseNova-SI系列模型。 我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集,通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。 该系列模型在多项空间智能基准测试中取得突破性表现,同时保持强大的通用多模态理解能力。 本研究进一步分析了数据规模的影响,揭示了多样化数据训练带来的涌现泛化能力,探讨了过拟合与语言捷径的风险,提出了空间思维链推理的初步研究,并验证了下游应用潜力。 SenseNova-SI是一个持续迭代的项目,所有新训练的多模态空间智能基础模型均将陆续开源,以推动空间智能领域的研究发展。 后续 SenseNova-SI 将与更大规模的内部模型进行集成。
发布信息
目前,我们基于流行的开源基础模型构建 SenseNova-SI,以最大化与现有研究流程的兼容性。 在本次发布中,我们推出 SenseNova-SI-1.2-InternVL3-8B, SenseNova-SI-1.1-Qwen2.5-VL-3B, SenseNova-SI-1.1-Qwen2.5-VL-7B, 与SenseNova-SI-1.1-Qwen3-VL-8B, 其中SenseNova-SI-1.2-InternVL3-8B在八个近期发布的空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial、SITE、BLINK、3DSRBench、EmbSpatial-Bench)上, 在同等模型规模下均取得了开源模型的最新最优性能(state-of-the-art)。
| Model | VSI | MMSI | MindCube-Tiny | ViewSpatial | SITE | BLINK | 3DSRBench | EmbSpatial-Bench |
|---|---|---|---|---|---|---|---|---|
| Open-source Models (~2B) | ||||||||
| InternVL3-2B | 32.9 | 26.5 | 37.5 | 32.5 | 30.0 | 50.8 | 47.7 | 60.1 |
| Qwen3-VL-2B-Instruct | 50.3 | 28.9 | 34.5 | 36.9 | 35.6 | 53.2 | 47.5 | 70.1 |
| MindCube-3B-RawQA-SFT | 17.2 | 1.7 | 51.7 | 24.1 | 6.3 | 35.1 | 2.8 | 37.0 |
| SpatialLadder-3B | 44.8 | 27.4 | 43.4 | 39.8 | 27.9 | 43.0 | 42.8 | 58.2 |
| SpatialMLLM-4B | 46.3 | 26.1 | 33.4 | 34.6 | 18.0 | 40.5 | 36.2 | 50.0 |
| VST-3B-SFT | 57.9 | 30.2 | 35.9 | 52.8 | 35.8 | 58.8 | 54.1 | 69.0 |
| Cambrian-S-3B | 57.3 | 25.2 | 32.5 | 39.0 | 28.3 | 37.7 | 50.9 | 63.5 |
| Open-source Models (~8B) | ||||||||
| InternVL3-8B | 42.1 | 28.0 | 41.5 | 38.6 | 41.1 | 53.5 | 44.3 | 76.4 |
| Qwen3-VL-8B-Instruct | 57.9 | 31.1 | 29.4 | 42.2 | 45.8 | 66.7 | 53.9 | 77.7 |
| BAGEL-7B-MoT | 31.4 | 31.0 | 34.7 | 41.3 | 37.0 | 63.7 | 50.2 | 73.1 |
| SpaceR-7B | 41.5 | 27.4 | 37.9 | 35.8 | 34.2 | 49.6 | 40.5 | 66.9 |
| ViLaSR-7B | 44.6 | 30.2 | 35.1 | 35.7 | 38.7 | 51.4 | 46.6 | 67.3 |
| VST-7B-SFT | 60.6 | 32.0 | 39.7 | 50.5 | 39.6 | 61.9 | 54.6 | 73.7 |
| Cambrian-S-7B | 67.5 | 25.8 | 39.6 | 40.9 | 33.0 | 37.9 | 54.8 | 72.8 |
| SenseNova-SI-1.2-InternVL3-8B | 69.6 | 42.6 | 89.0 | 58.8 | 49.0 | 69.4 | 60.1 | 77.7 |
| Proprietary Models | ||||||||
| Gemini-2.5-pro-2025-06 | 53.5 | 38.0 | 57.6 | 46.0 | 57.0 | 73.5 | 59.3 | 78.9 |
| Grok-4-2025-07-09 | 47.9 | 37.8 | 63.5 | 43.2 | 47.0 | 56.4 | 54.9 | 75.7 |
| GPT-5-2025-08-07 | 55.0 | 41.8 | 56.3 | 45.5 | 61.8 | 68.0 | 60.3 | 81.6 |