MIT校友力压Scale AI,创建AI标注公司五年零融资,盈利超10亿美元
发布时间:2025-06-20 17:43 浏览量:1
随着 Meta 豪掷 143 亿美元收购数据标注公司 Scale AI 近半股份,所有目光都集中在 Scale AI 创始人亚历山大·王(Alexandr Wang)身上。
他年纪轻轻、身披“数据标注领域领军人物”的光环,受邀加入 Meta 核心 AI 团队,已然成为新晋“硅谷红人”。
然而,在数据标注领域,无论是行业认可度还是营收规模,风头正劲的 Scale AI 都不是真正的老大。
这个宝座属于 Surge AI:一家成立五年没有融资、过去两年几乎不发新闻稿、员工仅为对手十分之一的神秘公司,却悄悄实现了超过 10 亿美元的营收。
而它的创始人同样是华人,只不过选择了一条“大隐隐于市”的路线。
图 | 同为数据标注公司,Surge AI 成立最早、营收最高,却从未披露融资情况(来源:The Information)
Surge AI 的创始人兼 CEO 埃德温·陈(Edwin Chen)似乎是一位低调且富有诗意的工程师。
他为 Surge AI 的工作设定了一个崇高的目标:用真正的“创造力和偶然性”来开发 AI。
图 | 埃德温·陈(Edwin Chen)(来源:资料题)
37 岁的埃德温拥有美国麻省理工学院数学与计算机科学背景,曾在 Facebook、Dropbox、Google 和 Twitter 担任研究员、机器学习工程师等职位,负责开发推荐和搜索算法,并帮助收集训练这些算法所需的数据。
在 Facebook,他曾因等待 6 个月仍无法获得可靠标注数据而感到无奈,而且在他看来,最后获得的数据“完全是垃圾”。正因如此,这段挫败经验成为了日后创办 Surge AI 的动力之一。
埃德温在 2020 年离开 Twitter,并自掏腰包创立 Surge AI,至今未接受任何风险投资(也有一种说法是拿到了 2500 万美元融资)。
他希望打造一套新型的人类数据平台,不只是提高标注效率,更要让 AI“理解”人类语言中的情感与风格。“在理想世界中,一个模型可以接受一个关于月亮的八行诗的提示,并写出一首让人落泪的诗。”
图 | Surge AI 的使命(来源:Surge AI 官网)
值得一提的是,Surge AI 另一位核心创始成员约瑟夫·李(Jefferson Lee)同样是华人,目前领导数据标签和内容审核产品,涵盖帮助客户评估大语言模型、内容审核,以及训练垃圾邮件和仇恨言论分类器。
他曾是 Airbnb 信任与安全机器学习团队的早期工程师,本科毕业于美国哈佛大学计算机科学系。
图 | Surge AI 创始团队(来源:Surge AI,官网机翻)
目前,成立五年的 Surge AI 仅有 110 名员工,却已成为数据标注领域的头部公司,不仅入选了福布斯 2023 AI50 榜单,还持续保持盈利。
2024 年,Surge AI 营收首次突破 10 亿美元,超过了 Scale AI 的 8.7 亿美元。
Surge AI 的客户包括 OpenAI、Anthropic、Meta、Google、Microsoft 等 AI 行业巨头。
与其他高调的硅谷 AI 初创公司相比,Surge AI 几乎不做公开宣传,创始人很少高调出席活动,不在 X 等社交平台上活跃(上次更新时间甚至追溯到 1-2 年前),也极少接受采访。
图 | Surge AI 的 X 官方号,上次更新还是 2024 年 8 月(来源:X)
一位曾与之合作的科技公司高管这样形容他们:“无聊,但无聊得让人安心。他们很擅长把事情做好,我也不用担心 CEO 突然有一天上了新闻头条。”
Surge AI 主要从事大语言模型训练所需的数据标注工作,完美踩中生成式 AI 发展的主线,其核心能力在于“通过人类反馈数据实现强化学习”,即所谓的 RLHF。
Surge AI 尤其擅长构建高质量的人类反馈数据,提升模型的安全性、风格一致性与复杂任务应对能力。其客户任务覆盖编程、数学、法律等专业领域。
图 | Surge AI 回应 Scale AI 被收购一事(来源:Surge AI)
与传统标注公司最大不同在于:Surge AI 并非仅提供数据,而是提供“理解”。
比如,在协助企业训练代码生成模型时,其标注者不仅要写出正确代码,还要给出逻辑清晰、格式统一、语言风格一致的解释,以确保 AI 产出也能“写得像人”。
Surge AI 的具体工作流程外界知之甚少,但综合公开资料来看,他们会采用多重交叉审核、故意设置无正确答案的题目、跟踪鼠标轨迹、用词分析等手段监控标注质量。
同时,其对标注人员和团队成员的选择极为严苛,强调领域知识背景,尤其青睐具有硕博学位的人才。
图 | Surge AI 的合作案例(来源:Surge AI)
OpenAI 三年前发布的知名 GSM8K 数据集,就是 Surge AI 的代表性案例之一。
Surge AI 为 OpenAI 的强化学习团队制作了一个包含 8,500 道小学数学题的数据集,用于训练 GPT-3 等模型理解自然语言数学问题的解题逻辑。
Surge AI 不仅负责设计题目,还为每道题编写详细解法,确保数据既符合逻辑也具备教学性。该数据集随后也被 Google 等用于 PaLM 和 Chain-of-Thought 研究中。
图 | Surge AI 展示的数据标注案例(来源:Surge AI)
为了确保问题的逻辑性与多样性,Surge AI 建立了由数学或 STEM 背景人员组成的标注团队,并对前期提交结果进行双人交叉审核。同时,通过语义相似度计算机制剔除重复或结构雷同的题目,确保训练数据的广泛覆盖与风格一致性。
另一个代表性案例是与 Anthropic 的合作:Surge AI 是 Anthropic 开发 Claude 过程中 RLHF 数据采集的主要平台,Anthropic 研究员称其为“研究突破的关键因素之一”。
专有质量控制技术,用于规避低质量数据对模型训练的长期影响;据透露,Surge AI 的标注费用通常为行业水平的 2 至 5 倍,但客户仍愿意为其服务质量与交付稳定性买单。
其竞争对手、凯鹏华盈(Kleiner Perkins)投资的 Handshake 公司的创始人加勒特·洛德(Garrett Lord)也承认,Surge AI 是“行业龙头”。
Surge AI 主要采用全流程交付模式,从数据任务定义、标注者筛选、界面工具提供、质量审查到最终输出,均由 Surge AI 承担,客户可实现“按下按钮即获得结果”。
据透露,2023 年 Meta 的生成式 AI 团队向 Surge AI 支付超过 1.5 亿美元用于数据标记工作,而后者负责“从头到尾”的整个流程。
这种模式使其成为 OpenAI、Anthropic、Meta 等大模型顶级玩家的长期合作方。尽管没有公开估值,但若以 Meta 对 Scale AI 的 290 亿美元估值为参考,Surge AI 的估值基本是同一水平。
不过,随着行业的成熟,Surge AI 也面临内外部竞争压力。
一方面,越来越多厂商采用模型蒸馏(distillation)等自动方法减少对人工标注依赖,也有客户因 Surge AI 产能有限而寻求其他渠道。
另一方面,数据标注公司越来越多,价格竞争加剧。同时,Surge AI 也在今年 5 月卷入了诉讼,被指控“故意”将数据标注员定义为独立合同工,剥夺了他们“享受正式员工福利”的权利。
尽管如此,Surge AI 的行业地位仍难以撼动。
“人们往往真的低估了这个领域。”埃德温在接受采访时说,“他们认为人类很聪明、普通的博士也很聪明,所以他们招募 10 万个标注员,让他们肆意发挥。但我们发现事实并非如此。”
在“爆款故事+创始人 IP”的硅谷创业游戏里,Surge AI 反其道而行之:不讲融资神话、不追逐新闻头条,靠极致产品实力走出了一条成熟的 AI 基础设施之路。
如果说 Scale AI 代表了数据标注领域的硅谷叙事范式,那 Surge AI 就代表了一种更安静、更务实、更接近底层价值创造的技术信仰。
也许,这才是那条通往 AGI 的路。
参考资料:
https://web.archive.org/web/20250405111034/https://www.Surge AIhq.ai/blog/how-we-built-it-openais-gsm8k-dataset-of-8500-math-problems
https://web.archive.org/web/20250405110902/https://www.Surge AIhq.ai/blog/anthropic-Surge AI-ai-rlhf-platform-train-llm-assistant-human-feedback
https://web.archive.org/web/20250403191504/https://www.Surge AIhq.ai/customers
https://web.archive.org/web/20250603224155/https://www.Surge AIhq.ai/about
运营/排版:何晨龙