天气放晴，喜

今天天气非常好，没有了前几天的闷热潮湿，开始有阳光、空气湿度也不是那么大，最主要的是气温不高，再加上阵阵微风，真是非常爽快。中午吃完饭和同事楼下散了一会步，真是非常美妙的天气，蓝天白云凉风美景，就连平时路上匆匆忙忙的车辆，都感觉自带了一份美好。

今天和同事讨论了一个话题：是什么让 OpenAI 保持了一年半多的领先，以至于全宇宙最强的几个大厂都很难追赶上，比如Google ，有数据有人才有算力都不行。那OpenAI 真正的门槛在哪里？？

首先，OpenAI 是一个商业公司，他的保密措施肯定没有类似军方这种严格，他的技术方案很容易被竞品通过情报获得的。况且这是一个大到不可想象的市场，全世界的聚光灯和投机分子都盯着这块蛋糕。

其次，人才和算力等资源，他没有 Google、Meta、微软等公司强。

但结果却是 Google 都追赶不上。所以，真正有门槛的事情不是技术架构和方案，不是数据量和算力资源。而对于 LLM，核心就是算力算法+数据。既然算力算法不是门槛，那只有数据。

但是，论数据，Google 比全世界任何一家的数据都多，那怎么解释呢？所以，不是单纯数据量的问题，更多的是数据的质量，数据的一种特殊组织方式，这可能是 LLM 的最大门槛。

那么，什么样的门槛，导致就算有数据，也不能一时半会补齐和对手的差距呢？所有的门槛，最终只会归结到一个无法超越和衡量的指标上，那就是“时间”。所以，从这个角度上来说，就是存在一种数据的组织方式，他是通过人力和工具等资源短期无法解决的，必须靠时间来积累。那在现在的生产力水平下，唯一不能被技术和工具大幅缩短时间的只能是“自然人”的经验和行为，这个是投入多少资源都很难快速追赶的。就像你不能让一个女人在一个月内生出小孩一样，你必须等 10 个月。

所以，结论很可能是，OpenAI 的最大竞争力在于他的一些通过自然人的经验沉淀的数据，而这些数据不是单纯的量，更多的是质量。

因此，大模型、AGI 最终的竞争，极其重要的一方面在于数据的竞争，更在于高质量数据的竞争。模型不断变化，数据永存。

阅读。连续阅读第 325 天。

今天没有翻书，只是在听书，最近看的有些少，需要检讨。最近听《对立之美》，其实挺有意思的，人这种生物，就是很难尿到一起。你说对，就有人跳出来说错，你说白，就有人跳出来说黑。达芬奇更喜爱自然和科学，画作里面带着浓厚的自然科学，而米开朗基罗比起来更感性，雕塑里面带有略带夸张、张力的意味。这种二元对立，有时候也是一种好事，只有思想、想法不断地碰撞，不断的从一个否定到另一个否定或者转变，人类社会才更加多样化，更加繁荣，也越来越包容。整齐划一，有时候会一起掉进河里淹死，最整齐划一的动作就是原地踏步。

运动。事情太多，忙的没时间；周一踢球有脚踝和左膝盖还是有些隐隐疼痛。找了两个借口没去动弹。罪过罪过。

其他的一些事情。小朋友今天第一批少先队员入队，非常开心。今天是一个值得纪念的日志。

好了，写着写着过了 12 点，都到了 5.30 号。就这样吧，事情就是这样。

晚安！