OverFlowAI采用公司的核心资产,在可用的界面中公开答案,并创建一个世代AI循环来创建新内容
随着 GPT4 增压生成 AI 等高效模型的出现,数据专业人员如何为他们所属的组织提供长期价值正在不断发展。真正的价值不仅来自成为房间里技术能力最强的人,还来自能够塑造这对产品和业务成果的影响。这包括能够指导您的组织制定正确的数据策略,并塑造数据产品如何与产品体验无缝关联。本文中围绕 StackOverflow 转型的分析是实现这一目标的一个引人注目的案例研究。
StackOverflow是软件开发人员最常用的编程支持平台,最近经历了一段艰难的旅程。如果你以前没有使用过StackOverflow,它是一个类似Quora/Reddit的问答论坛,你可以在其中提出与编程相关的问题。自从我编写生产质量的代码以来已经有好几年了,但是当我这样做的时候,StackOverflow是令人难以置信的。例如,如果您在编译代码时遇到了最模糊的错误,并且收到无法理解的错误消息,则可以将其粘贴到Google搜索中。通常情况下,你会发现一个StackOverflow页面,有人问了同样的问题并得到了答案。更少的时候,你会发现另一个灵魂,他和你有完全相同的晦涩问题,但没有得到答案——在这种情况下,祝你好运。更准确地说,StackOverflow上69%的问题得到了回答,这非常令人印象深刻。
然而,最近,StackOverflow的流量一直在下降。Similarweb的数据显示,他们的流量同比下降了14%(StackOverflow表示接近5%)。然而,这种趋势是向下的,主要是通过ChatGPT和GitHub Copilot等AI编码产品的出现来解释的。这些产品具有有意义的代码编写功能,因此能够提供编程支持,至少部分与StackOverflow一样好。具有讽刺意味的是,这些AI产品背后的几个大型语言模型(LLM)是使用抓取的StackOverflow数据进行训练的。
该公司在这些发展中得到了相当严厉的媒体报道。Business Insider在他们的文章Death by LLM中写道:
欢迎来到人工智能世界中互联网的未来。像Stack Overflow和Wikipedia这样的在线社区蓬勃发展,成为专家和好奇的浏览器聚集在一起并自由共享信息的中心。现在,这些数字聚会场所正在被大型科技公司掠夺,这些公司徘徊在人类数据来训练他们的大型语言模型。
从这种生成人工智能热潮中出现的新产品使这些在线论坛的未来受到质疑。聊天机器人清晰、自动且通常令人愉快地回答问题——因此人类不需要与其他人打交道来获取信息。
在所有这些关注中,StackOverflow发挥了稳定的作用,并阐明了他们应对这一挑战的双管齐下的方法:
- 他们宣布将开始向使用该平台的 50M+ 问题和答案进行模型训练的大型 AI 开发人员收费(我们在之前的数据抓取文章中深入研究了这个问题)
- 他们推出了OverflowAI产品,这是一组非常有用的生成AI功能,可以帮助启动他们的第二局 – 我们今天将关注这一点。
在本文中,我们将深入探讨:
- AI代码编写工具破坏了StackOverflow
- OverflowAI做什么
- StackOverflow策略的基本趋势
AI代码编写工具破坏了StackOverflow
当今市场上有几种人工智能代码编写和编辑工具。这些要么是独立的产品(如OpenAI Codex,ChatGPT,Google Bard),要么是本地集成在现有平台中的产品(如GitHub Copilot,Replit Ghostwriter,Amazon CodeWhisperer)。它们具有广泛的功能,包括代码生成、代码编辑、自动完成和调试。
具有本机分发的产品(如GitHub Copilot)具有很大的优势,因为它们可以在程序员今天已经使用的环境中无缝运行,我们将看到更多的产品试图插入现有环境。例如,CodeGPT有一个插件,允许开发人员从Visual Studio Code(一种流行的代码编辑工具)中使用产品。
现有的AI代码编写工具擅长某些任务。例如,这个Reddit线程捕获了几个Web开发人员对GitHub Copilot的反馈 – 总体主题是该产品在开发人员必须编写净新代码并且不想花时间从头开始编写的情况下很有用。即使对于这些情况,它也经常被击中或错过。
原因并不奇怪。从概念上讲,大型语言模型(LLM)接收大量数据并在此结构的基础上生成输出:在特定上下文中,对于您提出的问题,最有可能跟随前一个单词的单词/文本是什么。它本质上是计算一个单词跟随另一个单词的概率,并基于此生成输出。尽管有这种构造,但考虑到训练这些模型的数据量,更通用的 ChatGPT 用例(如起草电子邮件或总结页面)的结果令人印象深刻。但重要的是要记住,语言模型在设计上具有有限的分析/数学能力。换句话说,当你问模型“什么是2+2”时,它可能会给你正确的答案——不是因为它懂数学,而是因为它之前在训练数据中见过这种文本模式。
同样,当涉及到代码生成时,该模型并不真正“知道”编程背后的基本概念,而是根据其对大量文本数据的训练来预测结果。这样做的结果是上面的GitHub Copilot反馈 – 它有时擅长生成你需要的基本代码,但它实际理解代码,调试和为您提供解释的能力是有限的。随着时间的推移,这种情况会变得更好,但很难说它是否会达到高精度/高可靠性的地步。
StackOverflow首席执行官Prashanth Chandrasekar简洁地描述了它:
现代LLM系统的一个问题是,它们将以与正确答案相同的信心提供不正确的答案,并且如果他们认为事实和数据符合用户寻求的答案模式,它们就会“幻觉”事实和数据。
在某些时候,您将需要知道您正在构建什么。您可能必须对其进行调试,并且不知道刚刚构建的内容,并且很难通过走捷径来跳过学习之旅。
这是StackOverflow的机会——他们的流量下降可能是永久性的,程序员很可能不太经常来StackOverflow提出更简单的问题(例如,他们可能不再访问StackOverflow以获得现成的排序算法)。但该产品可以大放异彩的地方是:1)为语言模型可能无法回答的更复杂的问题提供高精度/高可靠性的答案,以及2)为新技术/问题空间中的问题提供答案,这些模型以前没有数据可以训练。OverflowAI旨在直接利用这个机会。
OverflowAI 做什么
他们押注于三个关键方面 – 直接回答问题,开发人员环境中的可用性以及企业内部的知识增强。
OverflowAI Search以问答形式(类似于ChatGPT)向用户提供直接答案,但提供了几个指向实际StackOverflow帖子的链接。除了帮助建立信任外,这也为用户提供了更深入的机会,人工智能提供的答案并不能完全解决用户的问题。这达到了微妙的平衡,即在问题简单时给出直接答案,同时也引导用户沿着更具探索性的路径解决困难的问题。
如果用户对回复不满意,他们可以进入类似聊天的界面来询问后续问题。如果答案都不令人满意,他们可以要求StackOverflow代表他们起草一个问题,准备发布到问答论坛。这种体验还可以使用户免于半常见的情况,即他们提出的问题之前已经回答过。
该产品还通过扩展从Visual Studio Code提供所有这些功能,从而提高了可用性。这有助于 StackOverflow 更有效地与原生集成的编码助手竞争,让开发人员从他们的编码环境中获得答案(而不必从浏览器进行上下文切换和搜索)。
除此之外,对于企业客户,OverflowAI正在创建在公司内插入几个不同信息源(内部问答,wiki页面,文档存储库)的能力,为开发人员提供有凝聚力的问答体验。能够利用内部和StackOverflow数据,更重要的是在Q&A类型的界面中轻松公开这些数据,可以极大地提高工程组织的生产力。他们还打算启动Slack集成作为无缝接口来公开此功能。
OverFlowAI的产品方法令人印象深刻的是,它采用了公司的核心资产(困难问题的答案),在用户身在何处(无论是在Slack上还是在开发人员环境中)在高度可用的界面中公开答案,进而创建一个循环,用户可以利用生成AI提交新问题。
StackOverflow策略的基本趋势
StackOverflow并不完全是一家上市公司 – 它们由Prosus拥有,Prosus又是一家更大的控股公司Naspers的一部分,Naspers是公开交易的。因此,很难获得干净的收入数据,但 Prosus 于 2022 年 5 月发布的一份报告提供了一些启示:
- 该公司在 2022 年获得了 ~89M 美元的收入,在企业产品 StackOverflow for Teams 和 Reach 产品(广告和雇主品牌)之间分配了 50-50 美元
- 从 2021 年到 2022 年,StackOverflow 团队收入为 +69%,而 Reach 产品收入为 -12%(可能有影响 2022 年收入的外部因素,例如招聘速度变慢)
这些收入数据与OverflowAI产品的功能相结合,指出了StackOverflow在生成AI领域的一些明显趋势(这些趋势也可以扩展到其他问答平台):
- 他们的广告业务的成功与流量直接相关,正在衰落。这并不一定可怕,只是指向一个更广泛的趋势——眼球/页面浏览量可能会减少,因为消费者将直接获得更简单问题的答案(这很好),因此广告成为一个不太重要的收入来源。
- StackOverflow将继续成为困难问题的宝贵答案来源,随着公司自动生成AI的自动起草/提交问题,问题和答案的数量将继续增长。此外,如果StackOverflow能够保持内容引擎的运行,平台上的内容质量也会提高,因为重复/简单的问题将不再是内容量最大的问题。
- StackOverflow将加倍努力构建可以为用户提供最大价值的体验(如OverflowAI搜索和Visual Studio Code扩展),并专注于客户愿意为这些卓越体验付费的产品线(例如。StackOverflow for Teams)
- 数据许可计划,他们将加速向人工智能公司收取数据培训费用。
文章翻译自:原文