跳到主要内容

别再当这样的工程师了(当构建人工智能时)【转载】

· 阅读需 5 分钟

Jason Liu 是 Instructor 的作者而被指北君了解,他也是指北君的偶像之一。他的这篇文章不知道为什么只存在于 Newsletter 中。转载如下:

这是我在咨询职业生涯中反复强调的第一件事:

每周,每次会议,情景都如出一辙。一位客户向前倾身,眼中充满期待地问道:“我们该用哪种模型?GPT-4 还是 Claude?我们应该微调模型还是优化提示工程?”

而每次我的回答都没有变化:“看你的数据。”

他们期待的是典型的顾问回答 —— “这是个好问题,这取决于情况。” 而我则要求他们直面一个不那么舒适的真相:他们正用工程师的思维去考虑问题,而他们应该以科学家的思维去应对。

工程师热爱确定性。他们想知道“正确”的框架,“最佳”的架构,“最优”的解决方案。在使用诸如 React 或 PostgreSQL 这样的稳定技术时,这种心态非常有用。

但 AI 并不稳定。这是一个迅速演变的领域,昨日的最佳实践可能变成今日的反面案例。

科学家的方式

科学家不问“哪种工具最好?”他们会问:

  • 我们能验证什么假设?
  • 我们如何衡量成功?
  • 我们进行哪些实验来验证假设?

当你在用 AI 进行构建时,你并不是在架构一个具有可预测行为的系统。你是在一个复杂且不断变化的环境中进行实验。

数据驱动决策的力量

想知道微调是否有帮助?不要空想——去测试。想比较嵌入模型?做个实验。好奇新 LLM 的成本收益?去测量它。

你的工作不是列举失效模式,也不是辩论架构选择。你的工作是:

  • 定义清晰的衡量标准
  • 进行受控实验
  • 让数据引导你的决策
  • 通过实证积累直觉

让我们看看在构建 AI 应用时所需要的三个重要成果。

成果一:你的数据集

据集是你的指南针。它不仅仅是数字的集合——它是你业务需求的编码 DNA。没有它,你就是在黑暗中摸索。有了它,每一个问题都变得可操作:

  • 什么指标真正捕捉了我们的成功?
  • 哪些模式对我们的用户最重要?
  • 我们如何衡量改进?

你的数据集将模糊的问题转化为可测试的假设。与其问“哪种嵌入模型最好?”,不如问“哪种模型在我们的测试集中实现了 95% 的召回率?”

成果二:你的实验

基准测试可能会误导,推特上的讨论可能会引人误入歧途,但实验呢?它们揭示真相。

你的实验框架应该回答:

  • 我们能多快地测试一种新方法?
  • 我们的指标是否与业务成果一致?
  • 我们的权衡标准是什么?

实际例子:

  • 4% 的准确率提升是否值得两倍的成本?
  • 我们应该牺牲延迟来换取更好的结果吗?
  • 我们能否用一半的计算资源实现相似的性能?

这些不是理论上的问题——它们是只有通过实验才能回答的实证性问题。

成果三:你的直觉

AI 开发中最被忽视的成果就是你的科学直觉。它通过以下方式建立:

  • 严谨的实验
  • 模式的识别
  • 失败的尝试
  • 成功的迭代

每一次实验都增加了你的理解。每一次失败教会你什么行不通以及为什么行不通。这种直觉不是告诉你该用哪个框架,而是帮助你提出更好的问题。

科学方法的实践

这就是实践中的科学方法:

  • 从数据集和明确的指标开始
  • 形成一个可测试的假设
  • 进行受控实验
  • 根据基线衡量结果
  • 从结果中建立直觉
  • 重复以上过程

注意这里缺少了什么?关于工具的无休止争论,对架构的争论,以及关于哪个模型“最好”的猜测。

结论

如果你在用 AI 构建,停止像工程师那样寻找“正确”的解决方案。开始像科学家那样寻找实证真理。你的工作不是选择完美的架构,而是构建能够衡量、测试假设并从数据中学习的工具。

答案不在最新的推特讨论或基准排行榜中。它们在你的数据中,等待着通过严谨的实验被发现。

停止架构设计。

开始实验。

致敬!

Jason