这几天发了不少DeepSeek的视频,看到有不少同学对V3和R1的关系不是很清楚,这里简单说下我自己的理解。首先,我们要知道大语言模型的训练最开始是用各种网络数据训练出能对语言有基本理解的模型,这通常叫做预训练过程,得出来的模型通常叫做Base Model,比如这里的DeepSeek-v3就是个base model,这个base model就像一个打破任督二脉的武林高手,一身知识和内功,但是不懂怎么运用…
DeepSeek R1 是怎么训练出来的?
请我喝杯咖啡
视频服务器成本高,请多支持我
视频服务器成本高,请多支持我