第(2/3)页 但是现在,有了小沙,小沙替代【基于人类反馈的强化学习】里边的人类,变成了【基于小沙反馈的强化学习】,这一切就又变得可能了! 不仅解决了自我反馈容易弱智的问题,同时解决了人工反馈效率过低、成本过高的问题。 这就相当于将两个模型的优点直接结合了。 而且,超大规模超超大规模,也不用担心人工的问题了。 所以,各家的模型现在进步都非常大,原因就在于此。 想要变得跟小沙一样厉害,那当然不可能——基于小沙训练的AI想超过小沙那本身就是一个悖论。 但是,只要舍得堆积算力,无限的堆积算力,再加上用小沙代替人类进行反馈的强化学习,理论上最终能极限逼近小沙的水准。 当然,理论只是理论,现实中不存在无限算力,考虑实际情况,用这种方式结合超大算力训练一年,达到小沙的六七成水准应该是可能的。 华为这边默默的评估过,现在几乎所有的AI训练企业都在偷偷的这么干。 “需要跟郝成说一下这个情况吗?”何钢问了一嘴。 “这他应该知道吧?”于东一愣:“以前,很多模型都用ChatGPT反馈做初期训练,训练到一个阶段了才转人工反馈的,都是惯例了。” “我估摸着他还真不知道,他现在应该没关注其他的AI同行。” 听何钢这么说,于东直接嘴角一抽,是啊,一群弱鸡同行,有什么好关注的呢: “那还是说一下吧,这事影响还是挺大的。尤其是OpenAI,他那算力堆的,而且最近有点儿跳,得限制一下。” “对了,苹果指望就是这个呢吧?”何钢脑子里突然把两件事儿联系到一起了。 “嗯。”于东笑道:“苹果之所以现在还没有彻底急眼,就是得到了OpenAI的承诺,而OpenAI之所以这么有把握,是因为他们又购买了上千亿美元的显卡。 “对投资者号称是研发了一种新的算法,可追赶小沙。实际上,说白了就是【基于小沙的深度学习】。” “【趋同于人】的【类似意识】。”于东一说【基于小沙的深度学习】,何钢不自觉的就嘀咕了这么一句。 “什么‘趋同于人的类似意识’?”于东一怔,问道。 何钢把郝成关于这方面的说法一字不落的给于东叙述了一遍。 第(2/3)页