《哲学研究》读书笔记 01：next token predict，递推和增量

Transformer 预测 next token 的路线可能是对的，因为这种预测模式特别类似于递推。人类解决问题的方式其实也是递推。当我们能问出问题 A，其实是默认知道了很多关于问题 A 的背景，而问题 A 只是在知道了这么多背景之后的一个单点问题。

那么，如果我们对 A 的背景知之甚少，意味着我们就得先问出 A1、A2、An 等前置问题作为铺垫。这个就是递推。

能够开启递推还有一个前提，就是你必须知道递推的前一项是可扩展的。也就是说，递推的前一项存在某些局限性，必须清晰地看到这些局限性，才能把递推很好地进行下去。

学习 PTX 汇编要关注两代之间的局限性和扩展性，这个就是一个很好的现实例子。关注递推的边界，往往有利于认知。

有句话说“领先一步是疯子，领先半步才是神”。这种说法不无道理，因为领先半步的时候才符合人类一贯的认知结构，做到了认知递推的下一步，而不是下下一步。所以才会“被认为是神”。

学习增量是容易的，但是学习总体是难的。所以，把一个学习总体的任务变成多次学习增量的任务，这个就是人类解决问题的过程。