AI人工智能 馬斯克的Grok-1為什么不采用經(jīng)典Transformer? 前段時(shí)間,馬斯克開源了大模型Grok-1的源代碼。開源本來(lái)是件好事,不過(guò)很多人發(fā)現(xiàn)Grok-1采用的是Mixture-of-Expert,而不是大家熟悉的Transformer架構(gòu)。這是為什么呢?本文嘗試解答一下此類問(wèn)題。 黃銳 Grok-1Transformer馬斯克