Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation

Pros	Cons
Compact representation	Harder to segment or edit
Plausible hole filling	Require prior knowledge of the scene
Adaptive resolution potential	A single network may struggle with large scenes or fine details
Continuous functions produce smoother geometry	Slow Queries due to require neural network inference

因為準確來說 CodeSLAM 無法重建三維地圖所以他不應該算是 Dense SLAM 的範圍

iMap/NICE-SLAM 則是因為作者沒寫上去所以我幫他補上

Ple-no-xels 則是因為他是使用了球諧函數取代神經網路，因此我認為把它放到 Neural implicit network 有點不合適

Code SLAM 將原先的深度圖轉為一個 embedding，decoder 使用 embedding 和 RGB 影像還原深度圖，以此省下記憶體開銷

NeRF 在 2020 出現

但這篇論文並沒有引用 NSVF 且有不少細節不同猜測是同期類似想法的作品

不過我是覺得其實一般的方法也是可以手動修改 Maximum number of voxel

xi: /ksaɪ/

相機位姿 T 屬於 SE(3)，Special Euclidean group 是一個 4*4 的矩陣，用來旋轉加平移的變換，但是我們不能直接對這個做最佳化，可以想像兩個旋轉矩陣相加之後的矩陣並不會是一個旋轉矩陣，因此這邊多使用了一個 xi 是 Special Euclidean group 的李代數，大致可以想像是對相機位姿的更新量，而後續在算 loss 時只要更新 xi 就能更新相機位姿了

在 Mapping 的部分當每幀傳入會先判斷是否要成為 Keyframe，判斷邏輯是當目前這幀會產生的新 voxel 數量除以目前已經有的 Voxel 數量，就是用來評估會有多少新資訊會被加入

另外 octree 的優點是在前面找哪些 voxel 跟 ray 有 intersection 時可以從大的範圍開始找就能將原本 O(n) 的時間複雜度縮短到 O(log(n))

因為只會 Render 看過的 voxel 所以會發現空洞，作者表示這樣的狀況是預期之中的 Feature，沒有看過的場景本來就不該隨意猜測，並且認為在實際場景中，本就應該知道哪些位置是有觀測過哪些位置是有觀測過

至於為什麼沒有 ScanNet 的地圖重建比較我們暫且蒙在鼓裡，有找過了後來的論文但都沒有找到對兩者在 ScanNet 上的比較

右邊的時間是一次 iteration 的時間，但 tracking / mapping 需要跑 20 / 50 次 iteratoins 所以時間會增大

記憶體使用就是在炫耀他們效果比 NICE SLAM 好，記憶體又少，可能還記得 NICE SLAM 他們使用了四層不同精度的 voxel 來增進精度，但就算除四他們還是好得多

支援動態新增 voxel 更適合用在實際的場景

利用 tracking / mapping 兩個 process 平行計算達到更好的性能

在 3D 重建的品質超過目前的 SOTA 而且還使用了更少的性能

展現在 AR 的應用

而這篇論文目前對於：動態的物體（例如人）和長時間的追蹤效果不佳文章中沒提到：無法根據不同視角產生不同眼色，不能像是 NeRF 有反光之類的效果

dark / light toggle btn

Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation

巫玟槿

2026/05/28

Outline

Dense SLAM / Sparse SLAM

Explict / Implicit representation

SDF (Signed Distance Function) / TSDF (Truncated Signed Distance Function)

Neural Implicit Representation

Volumetric Fusion

Vox-Fusion 可以做到什麼

KinectFusion (2011)

CodeSLAM (2018)

NSVF (2020)

iMAP (2021)

DI-Fusion (2021)

NICE-SLAM (2022)

Neural Implicit vs. Traditional TSDF

Contribution

Method

Volume Rendering

Voxel-based sampling

Implicit surface rendering

Optimization (Loss functions)

Tracking

Mapping

Key-frame selection

Joint mapping and pose update

Dynamic Voxel Management

Experiments

定性比較

定性比較 - 使用 SDF 的效果

定性比較 - iPhone 13 Pro

定量比較 - Replica - 軌跡

定量比較 - Replica - 地圖重建

定量比較 - Replica - 地圖重建（NICE SLAM 更新版本）

定量比較 - ScanNet - 軌跡

Time and Memory Efficiency

Application

Conclusion

Thanks for listening

Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation

巫玟槿

2026/05/28

Outline

Background (Introduction / Related Works)

Dense SLAM / Sparse SLAM

Explict / Implicit representation

SDF (Signed Distance Function) / TSDF (Truncated Signed Distance Function)

Neural Implicit Representation

Volumetric Fusion

Vox-Fusion 可以做到什麼

Related Works

KinectFusion (2011)

CodeSLAM (2018)

NSVF (2020)

iMAP (2021)

DI-Fusion (2021)

NICE-SLAM (2022)

Neural Implicit vs. Traditional TSDF

Contribution

Method

Volume Rendering

Voxel-based sampling

Implicit surface rendering

Optimization (Loss functions)

Tracking

Mapping

Key-frame selection

Joint mapping and pose update

Dynamic Voxel Management

Experiments

定性比較

定性比較 - 使用 SDF 的效果

定性比較 - iPhone 13 Pro

定量比較 - Replica - 軌跡

定量比較 - Replica - 地圖重建

定量比較 - Replica - 地圖重建（NICE SLAM 更新版本）

定量比較 - ScanNet - 軌跡

Time and Memory Efficiency

Application

Conclusion

Thanks for listening