Paper Reading: World Model 1 • AtPoint's Blog

World Models#

Arxiv ID 1803.10122

幻觉翻译 1803.10122

World Model 的奠基之作

虽然说是世界模型，但是我觉得更适合叫梦境模型🙃。论文的核心架构是由：视觉模块(Vision)[变分自编码器 VAE，进行降维和特征提取]、记忆模块(Memory)[混合密度网络结合循环神经网络 MDN-RNN，预测下一个状态]、控制模块(Controller)[简单的线性神经元层，进行决策]。而论文中最惊艳的就是智能体仅靠 Memory 模块生成的“幻觉”进行训练。

先让智能体在真实环境中随机探索，记录数据。用这些数据训练 VAE 和 RNN ，使其能模拟环境反应。在 RNN 预测出的“虚拟空间”里迭代优化 Controller，再回到真实环境依然表现出色。

一篇用来解决强化学习难以学习大模型权重的文章，竟然开启了如今世界模型研究的热潮。虽然预测导致的漂移、细节丢失、参数量巨大等问题，导致其实际效果不如传统 RL 算法。

推荐指数：

我应该会有一段比较长的时间不会更新 World Model 的内容了。在写这个 Blog 时，我进行了很多的调研，发现其实现在大多数的世界模型都有种套壳的感觉，学术界似乎并不能划清不同方向与 World Model 的界限。像 World Models 这篇开山之作，目前只有 DeepMind 的 Dreamer 属于这种潜在空间的强化学习的延伸。其他像 LeCun 支持用稀疏表征建模的 JEPA、李飞飞主张像素级重建世界的 Marble 还有具身智能中的应用……实在是太多了，不适合一个人进行 Paper Reading 的工作。我还是需要去选择一个或几个做一些实在的研究或复现，才能理清楚 World Model 的实质。有缘再会！

本文参考如下：

[1] 浙江大学-大模型导论 ↗