今天天气非常好,没有了前几天的闷热潮湿,开始有阳光、空气湿度也不是那么大,最主要的是气温不高,再加上阵阵微风,真是非常爽快。中午吃完饭和同事楼下散了一会步,真是非常美妙的天气,蓝天白云凉风美景,就连平时路上匆匆忙忙的车辆,都感觉自带了一份美好。
今天和同事讨论了一个话题:是什么让 OpenAI 保持了一年半多的领先,以至于全宇宙最强的几个大厂都很难追赶上,比如Google ,有数据有人才有算力都不行。那OpenAI 真正的门槛在哪里??
首先,OpenAI 是一个商业公司,他的保密措施肯定没有类似军方这种严格,他的技术方案很容易被竞品通过情报获得的。况且这是一个大到不可想象的市场,全世界的聚光灯和投机分子都盯着这块蛋糕。
其次,人才和算力等资源,他没有 Google、Meta、微软等公司强。
但结果却是 Google 都追赶不上。所以,真正有门槛的事情不是技术架构和方案,不是数据量和算力资源。而对于 LLM,核心就是算力算法+数据。既然算力算法不是门槛,那只有数据。
但是,论数据,Google 比全世界任何一家的数据都多,那怎么解释呢? 所以,不是单纯数据量的问题,更多的是数据的质量,数据的一种特殊组织方式,这可能是 LLM 的最大门槛。
那么,什么样的门槛,导致就算有数据,也不能一时半会补齐和对手的差距呢? 所有的门槛,最终只会归结到一个无法超越和衡量的指标上,那就是“时间”。所以,从这个角度上来说,就是存在一种数据的组织方式,他是通过人力和工具等资源短期无法解决的,必须靠时间来积累。那在现在的生产力水平下,唯一不能被技术和工具大幅缩短时间的只能是“自然人”的经验和行为,这个是投入多少资源都很难快速追赶的。就像你不能让一个女人在一个月内生出小孩一样,你必须等 10 个月。
所以,结论很可能是,OpenAI 的最大竞争力在于他的一些通过自然人的经验沉淀的数据,而这些数据不是单纯的量,更多的是质量。
因此,大模型、AGI 最终的竞争,极其重要的一方面在于数据的竞争,更在于高质量数据的竞争。模型不断变化,数据永存。
阅读。连续阅读第 325 天。
今天没有翻书,只是在听书,最近看的有些少,需要检讨。最近听《对立之美》,其实挺有意思的,人这种生物,就是很难尿到一起。你说对,就有人跳出来说错,你说白,就有人跳出来说黑。达芬奇更喜爱自然和科学,画作里面带着浓厚的自然科学,而米开朗基罗比起来更感性,雕塑里面带有略带夸张、张力的意味。这种二元对立,有时候也是一种好事,只有思想、想法不断地碰撞,不断的从一个否定到另一个否定或者转变,人类社会才更加多样化,更加繁荣,也越来越包容。整齐划一,有时候会一起掉进河里淹死,最整齐划一的动作就是原地踏步。
运动。事情太多,忙的没时间;周一踢球有脚踝和左膝盖还是有些隐隐疼痛。 找了两个借口没去动弹。 罪过罪过。
其他的一些事情。小朋友今天第一批少先队员入队,非常开心。今天是一个值得纪念的日志。
好了,写着写着过了 12 点,都到了 5.30 号。就这样吧,事情就是这样。
晚安!
文章评论