Transformer 预测 next token 的路线可能是对的,因为这种预测模式特别类似于递推。人类解决问题的方式其实也是递推。当我们能问出问题 A,其实是默认知道了很多关于问题 A 的背景,而问题 A 只是在知道了这么多背景之后的一个单点问题。

那么,如果我们对 A 的背景知之甚少,意味着我们就得先问出 A1、A2、An 等前置问题作为铺垫。这个就是递推。

能够开启递推还有一个前提,就是你必须知道递推的前一项是可扩展的。也就是说,递推的前一项存在某些局限性,必须清晰地看到这些局限性,才能把递推很好地进行下去。

学习 PTX 汇编要关注两代之间的局限性和扩展性,这个就是一个很好的现实例子。关注递推的边界,往往有利于认知。

有句话说“领先一步是疯子,领先半步才是神”。这种说法不无道理,因为领先半步的时候才符合人类一贯的认知结构,做到了认知递推的下一步,而不是下下一步。所以才会“被认为是神”。

学习增量是容易的,但是学习总体是难的。所以,把一个学习总体的任务变成多次学习增量的任务,这个就是人类解决问题的过程。