PeterStacy's picture
Update README_CN.md
653b49d verified
metadata
license: apache-2.0
base_model:
  - OpenGVLab/InternVL3-8B

EN | 中文

SenseNova-SI: 探索空间智能在多模态基础模型上尺度效应

Code arXiv Code Leaderboard

概览

尽管多模态基础模型已取得显著进展,但在空间智能方面仍存在明显不足。 本研究基于成熟的多模态基础,包括视觉理解模型(如Qwen3-VL、InternVL3)和统一理解生成模型(如Bagel),从尺度效应(Scaling)的视角构建了SenseNova-SI系列模型。 我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集,通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。 该系列模型在多项空间智能基准测试中取得突破性表现,同时保持强大的通用多模态理解能力。 本研究进一步分析了数据规模的影响,揭示了多样化数据训练带来的涌现泛化能力,探讨了过拟合与语言捷径的风险,提出了空间思维链推理的初步研究,并验证了下游应用潜力。 SenseNova-SI是一个持续迭代的项目,所有新训练的多模态空间智能基础模型均将陆续开源,以推动空间智能领域的研究发展。 后续 SenseNova-SI 将与更大规模的内部模型进行集成。

发布信息

目前,我们基于流行的开源基础模型构建 SenseNova-SI,以最大化与现有研究流程的兼容性。 在本次发布中,我们推出 SenseNova-SI-1.2-InternVL3-8B, SenseNova-SI-1.1-Qwen2.5-VL-3B, SenseNova-SI-1.1-Qwen2.5-VL-7B, 与SenseNova-SI-1.1-Qwen3-VL-8B, 其中SenseNova-SI-1.2-InternVL3-8B在八个近期发布的空间智能基准测试(VSIMMSIMindCubeViewSpatialSITEBLINK3DSRBenchEmbSpatial-Bench)上, 在同等模型规模下均取得了开源模型的最新最优性能(state-of-the-art)。

Model VSI MMSI MindCube-Tiny ViewSpatial SITE BLINK 3DSRBench EmbSpatial-Bench
Open-source Models (~2B)
InternVL3-2B32.926.537.532.530.050.847.760.1
Qwen3-VL-2B-Instruct50.328.934.536.935.653.247.570.1
MindCube-3B-RawQA-SFT17.21.751.724.16.335.12.837.0
SpatialLadder-3B44.827.443.439.827.943.042.858.2
SpatialMLLM-4B46.326.133.434.618.040.536.250.0
VST-3B-SFT57.930.235.952.835.858.854.169.0
Cambrian-S-3B57.325.232.539.028.337.750.963.5
Open-source Models (~8B)
InternVL3-8B42.128.041.538.641.153.544.376.4
Qwen3-VL-8B-Instruct57.931.129.442.245.866.753.977.7
BAGEL-7B-MoT31.431.034.741.337.063.750.273.1
SpaceR-7B41.527.437.935.834.249.640.566.9
ViLaSR-7B44.630.235.135.738.751.446.667.3
VST-7B-SFT60.632.039.750.539.661.954.673.7
Cambrian-S-7B67.525.839.640.933.037.954.872.8
SenseNova-SI-1.2-InternVL3-8B 69.6 42.6 89.0 58.8 49.0 69.4 60.1 77.7
Proprietary Models
Gemini-2.5-pro-2025-0653.538.057.646.057.073.559.378.9
Grok-4-2025-07-0947.937.863.543.247.056.454.975.7
GPT-5-2025-08-0755.041.856.345.561.868.060.381.6