发布日期:2025-01-23 11:47 点击次数:99

AI数据可能是大家平时接触较少的领域,但它是AI发展的关键,能卡住AI发展的咽喉。
我们知道在大模型竞争中,算力、算法和数据都是核心要素。其中算力可以通过购买足够的显卡获得;算法方面,许多大模型都依赖于开源的LLama模型,它在业内又被称为“奶妈”,很多大模型都借助于开源的“奶妈”;而数据才是后期决定大模型的关键——得数据者得天下。
因为算力主要取决于资本投入,而算法在开源之后,大多数公司都知道如何运用,因此数据才是最关键的因素。
从GPT-1到GPT-4,我们可以看到数据需求的增长:
GPT-1仅使用了大约4.8GB的原始数据,而后续每一代的数据需求都是前一代的10倍以上;
GPT-2使用了经过人类过滤的40GB数据;
GPT-3从45TB的原始数据中过滤出570GB的数据;
GPT-4虽然没有公开具体数据,但肯定加入了更多高质量的人类标注数据。
整个发展过程中,数据消耗量显示出数据在大模型中扮演的重要角色。
数据的处理流程包括获取、处理、训练和模型推理,这是一个非常复杂的过程,并非像大家想象的那样简单。随着多模态数据的需求增加,包括图像、文本、语言和视频,数据量级将持续增长,模型训练的需求也将随之增加。因此,数据领域是一个预期巨大的市场。
在讨论大模型的预训练领域时,我们通常知道它需要大量的互联网数据。这些数据可以从三个方面来概括:第一个是广,第二个是齐,第三个是专。

以上内容为「寻找下一个“英伟达”」课程第3章第1节的部分内容,吕伟老师将在本节课程后续内容中,从“广”“齐”“专”三个角度,结合更多案例讲解AI数据的重要性。对本专辑感兴趣的朋友,欢迎点击此处加入,学习本课程的完整内容。

