ilya 周末的分享,我理解应该是再卷预训练和数据,ROI 没有算力和算法提升以及后训练的 ROI 高而已,而不代表着数据已经枯竭。结果大家又开始热议数据枯竭的事情。
但仅讨论数据枯竭这个事情,我个人认为是永远不会。
首先,从技术角度来看。
狭义方面,我们所说的“数据”指的是互联网上产生的信息(也如 ilya 所说),如文本、图像、视频等,数据枯竭的说法也难以成立。
首先,AI并非单纯的数据消耗者,它同时也带来了强大的内容和数据生成能力,而且是在极具的增长。以图像生成为例,AI去年一年创造的数量比人类历史的总和还要多,AI 和内容之间形成了一种飞轮关系。
其次,是私域数据,如社交媒体平台(Instagram、微信、Facebook、WhatsApp等)这些海量的用户数据中的部分,也蕴藏着巨大的潜力供模型训练。而且私域的数据不比检索互联网的数据量少。
再次,暗网数据。另一片“未知区域”,数据量不比互联网少,当然这里会有一些隐私和敏感风险,但潜力不可低估。
还有另外一块数据沃土,诸如企业数据库、政府统计数据等大量的结构化数据,现阶段还未能被AI模型充分利用。随着技术的进步,这些数据将成为新的“数据富矿”。
广义方面,如果我们把“数据”的定义扩展到一切可以被数字化的比特流,那么数据枯竭就更不可能。自动驾驶汽车、工业机器人等设备每时每刻都在产生海量的传感器数据,其规模远超现有互联网数据。这些数据蕴藏着巨大的应用价值,一旦被充分挖掘,将极大地推动人工智能技术在各行各业的落地。
另外,随着传感技术的飞速发展,人类感知数据的能力将不断突破新的界限。未来,我们将能够捕捉到更多目前尚未被感知的数据。要想联网,先要被数字化。要想智能,就是时刻对外界环境作出反应。
而目前,绝大多数AI模型仅使用少量数据(数TB或数十TB)进行训练,这相对于潜在的数据总量而言,只是冰山一角。这意味着我们拥有极其广阔的数据探索空间。
讨论完数据,在说下知识。可能大家会有疑问,数据背后对应的知识,会不会枯竭?毕竟,知识的发展和流动是非常缓慢的。
首先,现在没有一个人或者机构能说清楚知识的边界在哪里,有多大。google 的知识图谱、wiki的知识树,目前看都是知识的一角。
其次,新知识的产生,往往是对既有知识的重新组合和创新。这意味着,只要新知识不断被发现,那么这个知识节点即被加入知识图谱,而新加入的知识结点产生的和图谱其他节点的关系(边),又是超越指数级别的连接效应。试想一下,在一个拥有千万级节点的图谱中,加入一个全连接的新节点,将产生巨大的网络效应,如果拿着这个节点或者路径去重组其他知识,那算力会很快进入无限大。
再从经济角度看,“数据”作为一种关键的生产要素,其供给并不会枯竭,这与化石燃料等有限资源有着本质区别。
首先,资本的逐利性决定了只要数据能够带来经济效益,就会有人不断投入资源进行数据的生产和挖掘,形成持续增长的态势。
另外,当自然数据的获取成本过高或效率低下时,合成数据和生成数据将扮演重要的补充角色。AI模型自身也在不断生成数据,形成一个可持续的循环。
最终,经济效益和技术手段之间存在着动态的平衡关系,二者相互促进,螺旋式上升。随着技术的进步,获取和利用数据的成本将不断降低,从而进一步刺激数据的生产和应用,形成良性循环。
文章评论