SenseNova-SI-1.2-InternVL3-8B / README_CN.md

PeterStacy

Update README_CN.md

653b49d verified 1 day ago

preview code

raw

history blame contribute delete

6.78 kB

metadata

license: apache-2.0
base_model:
  - OpenGVLab/InternVL3-8B

EN | 中文

SenseNova-SI: 探索空间智能在多模态基础模型上尺度效应

概览

尽管多模态基础模型已取得显著进展，但在空间智能方面仍存在明显不足。本研究基于成熟的多模态基础，包括视觉理解模型（如Qwen3-VL、InternVL3）和统一理解生成模型（如Bagel），从尺度效应（Scaling）的视角构建了SenseNova-SI系列模型。我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集，通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。该系列模型在多项空间智能基准测试中取得突破性表现，同时保持强大的通用多模态理解能力。本研究进一步分析了数据规模的影响，揭示了多样化数据训练带来的涌现泛化能力，探讨了过拟合与语言捷径的风险，提出了空间思维链推理的初步研究，并验证了下游应用潜力。 SenseNova-SI是一个持续迭代的项目，所有新训练的多模态空间智能基础模型均将陆续开源，以推动空间智能领域的研究发展。 后续 SenseNova-SI 将与更大规模的内部模型进行集成。

发布信息

目前，我们基于流行的开源基础模型构建 SenseNova-SI，以最大化与现有研究流程的兼容性。在本次发布中，我们推出 SenseNova-SI-1.2-InternVL3-8B, SenseNova-SI-1.1-Qwen2.5-VL-3B, SenseNova-SI-1.1-Qwen2.5-VL-7B, 与SenseNova-SI-1.1-Qwen3-VL-8B，其中SenseNova-SI-1.2-InternVL3-8B在八个近期发布的空间智能基准测试（VSI、MMSI、MindCube、ViewSpatial、SITE、BLINK、3DSRBench、EmbSpatial-Bench）上，在同等模型规模下均取得了开源模型的最新最优性能（state-of-the-art）。

Model	VSI	MMSI	MindCube-Tiny	ViewSpatial	SITE	BLINK	3DSRBench	EmbSpatial-Bench
Open-source Models (~2B)
InternVL3-2B	32.9	26.5	37.5	32.5	30.0	50.8	47.7	60.1
Qwen3-VL-2B-Instruct	50.3	28.9	34.5	36.9	35.6	53.2	47.5	70.1
MindCube-3B-RawQA-SFT	17.2	1.7	51.7	24.1	6.3	35.1	2.8	37.0
SpatialLadder-3B	44.8	27.4	43.4	39.8	27.9	43.0	42.8	58.2
SpatialMLLM-4B	46.3	26.1	33.4	34.6	18.0	40.5	36.2	50.0
VST-3B-SFT	57.9	30.2	35.9	52.8	35.8	58.8	54.1	69.0
Cambrian-S-3B	57.3	25.2	32.5	39.0	28.3	37.7	50.9	63.5
Open-source Models (~8B)
InternVL3-8B	42.1	28.0	41.5	38.6	41.1	53.5	44.3	76.4
Qwen3-VL-8B-Instruct	57.9	31.1	29.4	42.2	45.8	66.7	53.9	77.7
BAGEL-7B-MoT	31.4	31.0	34.7	41.3	37.0	63.7	50.2	73.1
SpaceR-7B	41.5	27.4	37.9	35.8	34.2	49.6	40.5	66.9
ViLaSR-7B	44.6	30.2	35.1	35.7	38.7	51.4	46.6	67.3
VST-7B-SFT	60.6	32.0	39.7	50.5	39.6	61.9	54.6	73.7
Cambrian-S-7B	67.5	25.8	39.6	40.9	33.0	37.9	54.8	72.8
SenseNova-SI-1.2-InternVL3-8B	69.6	42.6	89.0	58.8	49.0	69.4	60.1	77.7
Proprietary Models
Gemini-2.5-pro-2025-06	53.5	38.0	57.6	46.0	57.0	73.5	59.3	78.9
Grok-4-2025-07-09	47.9	37.8	63.5	43.2	47.0	56.4	54.9	75.7
GPT-5-2025-08-07	55.0	41.8	56.3	45.5	61.8	68.0	60.3	81.6