为什么几乎所有的 AI 都是个大大的聊天对话框？这是 AI 产品的终极形态吗？

AI 不是聊天框

前面讲的都是怎么用 AI 来编程。这一章换一个视角：如果你在做 AI 产品，应该怎么思考交互设计？

这个话题看起来和编程没关系，但如果你是独立开发者，你不只是写代码的人，也是产品的设计者。你对 AI 交互的理解，会直接影响你做出来的产品好不好用。

聊天框是糟糕的交互设计

打开 ChatGPT，你看到的是什么？一个大大的输入框。打开 Claude，还是一个大大的输入框。打开几乎任何一个 AI 产品，都是一个输入框。

这绝对不是 AI 产品的终极形态。在很多场景下，它甚至是一种糟糕的交互设计。

为什么糟糕？

用户不知道 AI 能做什么。面对一个空白的输入框，很多人的第一反应是"我应该问什么"。这就是认知负担。好的产品应该引导用户，而不是让用户猜测。

用户不知道怎么提问。我们前面讲了 MBRY 框架，讲了各种提示词技巧，但这些都是需要学习的。一个好产品不应该要求用户先学一门"提问技术"才能用起来。

输入框默认用户有"精确描述需求"的能力。但事实是，很多时候用户只知道"感觉不对"，却说不出"哪里不对"。让用户用文字描述一个模糊的需求，是困难且低效的。

AI 的 DOS 时代

"大大的输入框"其实是 AI 的命令行时代。

还记得 DOS 吗？黑底白字的屏幕，闪烁的光标，你需要输入精确的命令才能让电脑做事。后来图形界面出现了，有了按钮、菜单、图标，普通人也能用电脑了。

现在的 AI 产品就处于 DOS 时代。你需要精确地用文字描述你的需求，AI 才能理解。这对专业用户来说还好，对普通用户来说是巨大的门槛。

2025 年，AI 产品正在从命令行时代走向图形界面时代。好的 AI 产品，它们会伪装成文档、画板、仪表盘甚至是一个简单的按钮——唯独不会是一个光秃秃的输入框。

好用的 AI 应该是什么样

好用的 AI 不需要用户主动发起对话。AI 应该根据当前的上下文自动提供建议，而不是等用户想好问题再来问。

想象一下：你打开一个项目文档，不用做任何操作，AI 已经在侧边栏给你列出了几个发现。"这里有一个潜在的 bug"、"这段代码可以简化"、"这个函数没有被调用"。你不需要问它，它主动告诉你。

或者你在看一个仪表盘，显示 Q3 季度营收下滑。现在大多数 AI 产品的做法是在角落放一个"Ask AI"按钮，等你点进去问"为什么下滑"。更好的做法是 AI 直接把分析结果"涂抹"在数据图表上——不用你问，它已经在图表旁边告诉你下滑的原因。

这是一个思维转变：AI 不是对话层，是解释层。它的作用不是等你来问，而是主动解释你正在看的一切。

意图分析应该是实时的

更进一步，AI 应该时时刻刻地对你进行意图分析。

当你浏览商品时，推荐算法已经在猜你喜欢什么，自动给你推荐。这就是意图分析。但目前的 AI 产品很少做到这一点。

当你选中屏幕上的一段文字时，AI 应该自动猜测你想干什么。可能是想理解这段话、可能是想翻译、可能是想扩写、可能是想简化。好的 AI 不会等你说"请帮我翻译"，而是直接给你几个选项：翻译、解释、扩写——在你选中文字的那一刻就出现。

当你把两张图片拖到一起时，AI 应该自动分析图里的内容，给出几个可能的处理方向：合并、对比、换风格。不需要你告诉它"请把这两张图合并"，它已经猜到了你的意图。

这种交互叫做"零 UI"或者"隐形 AI"。用户感觉不到 AI 的存在，但一切都变得更顺畅了。这才是 AI 产品的终极形态。

线性 vs 非线性

还有一个问题：对话框是线性的交互，但人的思考往往是非线性的。

聊天界面是一条时间线。你说一句，AI 回一句，往下滚。但当你在做复杂的工作时，思考是网状的、跳跃的。你可能同时在想三四个问题，可能需要回头看之前的内容，可能需要把不同的信息拼在一起看。

试图用一条时间线式的 Chat 界面去解决复杂的项目管理或创意工作，是对人类认知的降维打击。

更好的 AI 界面应该是空间化的。比如 Figma、Miro 这样的画布工具，让你可以自由地摆放、连接、组织信息。AI 可以嵌入到这样的界面里，作为其中的一个元素，而不是独占整个屏幕的聊天框。

2025 年已经出现了一些这样的产品。比如把 AI 嵌入到笔记软件里，选中内容就能操作；把 AI 嵌入到代码编辑器里（Cursor 就是这样），在你写代码的上下文里直接提供帮助；把 AI 嵌入到设计工具里，根据你正在做的设计自动给建议。

这些产品的共同点是：AI 不是主角，用户的工作流才是主角。AI 是融入工作流的辅助，而不是另开一个窗口的聊天对象。

输入框的傲慢

回到那个空白的输入框，它最大的傲慢是什么？

它默认用户有"精确描述需求"的能力。

但事实是，很多时候用户只知道"感觉不对"，却说不出"哪里不对"。用户可能知道"这段文字读起来别扭"，但让他用另一段文字来描述"哪里别扭、应该怎么改"，这比直接改还难。

好的 AI 产品应该支持模糊表达。用户说"这里感觉不太对"，AI 应该能猜测可能是什么问题，给出几个方向让用户选择，而不是要求用户先把问题描述清楚。

更好的做法是不需要用户表达。通过分析用户的行为——鼠标在哪里停留、哪里被反复查看、哪里被删除又恢复——AI 可以推断出用户可能遇到的问题，主动提供帮助。

这不是科幻，2025 年已经有产品在做这件事了。比如一些写作辅助工具，会根据你反复修改某个段落的行为判断你对这里不满意，然后主动给出改写建议。

Agentic UI：AI 直接操作界面

2025 年有一个新概念叫 Agentic UI，就是 AI 不只是回复你的话，而是直接操作界面。

比如你对 AI 说"帮我把这些文件按日期排序"，传统的聊天 AI 会回复"好的，你可以点击'日期'列头来排序"——它告诉你怎么做，但需要你自己去做。

Agentic UI 的做法是 AI 直接帮你点了那个按钮，文件已经排好序了。你说的不是"告诉我怎么做"，而是"帮我做"，AI 直接执行。

我们前面讲的 Playwright MCP 就是这个思路。AI 可以控制浏览器，直接帮你点击、填写、导航。这比告诉你"你应该点哪个按钮"高效得多。

未来的 AI 产品会越来越多地采用 Agentic UI。用户不再需要理解界面的复杂操作，只需要说出意图，AI 来执行。

多模态：超越文字

另一个进化方向是多模态。

不是所有需求都适合用文字表达。"我想要一个这种感觉的网页"——与其用文字描述"这种感觉"，不如直接扔一张参考图给 AI。

多模态 AI 可以理解图片、语音、视频、手势。用户可以用最自然的方式表达需求，而不是被迫把一切都转换成文字。

比如你可以截一个网页的图，圈出其中一个部分，对 AI 说"这里换成蓝色"。这比用文字描述"把导航栏的背景颜色从灰色改成蓝色"直观得多。

或者你在说话的时候比划一下，AI 通过理解你的语音和手势，知道你想要什么。这是 Zero UI 的方向——不需要传统界面，自然交互就够了。

给开发者的启示

如果你在做 AI 产品，思考几个问题。

你的 AI 是否需要用户主动发起？能不能让 AI 先动，根据上下文主动提供价值？用户打开你的产品，还没说话，AI 就已经在做有用的事情了。

你的 AI 是否只是一个聊天框？能不能嵌入到用户的工作流里？让 AI 成为工作流的一部分，而不是工作流之外的一个工具。

你的 AI 是否在等用户描述需求？能不能先猜测用户的意图？通过分析上下文和行为，AI 可以提供选项让用户确认，而不是让用户从零开始描述。

你的 AI 是否只接受文字输入？能不能支持图片、语音、手势？让用户用最自然的方式表达，而不是被迫把一切转换成文字。

最好的 AI 产品，用户甚至感觉不到 AI 的存在——它只是让一切变得更顺畅。就像电一样，你不需要"使用电力"，你只是打开开关，灯就亮了。AI 应该这样自然。

从使用者到创造者

作为独立开发者，你同时是 AI 的使用者和创造者。

作为使用者，你知道现在的 AI 产品有多难用。需要学习提示词技巧，需要反复调试，需要忍受它的各种问题。

作为创造者，你有机会做得更好。当你在做自己的产品时，思考一下怎么把 AI 自然地嵌入用户的工作流里。不要只是加一个"Ask AI"按钮了事，而是让 AI 真正成为产品体验的一部分。

最终的目标是：用户不需要"使用 AI"，AI 只是让产品更好用。就像你不需要"使用电力"才能开灯——你只是按开关，灯就亮了。

这一章是产品思维的分享。下一章回到实操，讲讲 AI 编程过程中常见的坑和怎么避免。

AI 不是聊天框

前面讲的都是怎么用 AI 来编程。这一章换一个视角：如果你在做 AI 产品，应该怎么思考交互设计？

聊天框是糟糕的交互设计

打开 ChatGPT，你看到的是什么？一个大大的输入框。打开 Claude，还是一个大大的输入框。打开几乎任何一个 AI 产品，都是一个输入框。

这绝对不是 AI 产品的终极形态。在很多场景下，它甚至是一种糟糕的交互设计。

为什么糟糕？

这种交互叫做"零 UI"或者"隐形 AI"。用户感觉不到 AI 的存在，但一切都变得更顺畅了。这才是 AI 产品的终极形态。

线性 vs 非线性

还有一个问题：对话框是线性的交互，但人的思考往往是非线性的。

试图用一条时间线式的 Chat 界面去解决复杂的项目管理或创意工作，是对人类认知的降维打击。

这些产品的共同点是：AI 不是主角，用户的工作流才是主角。AI 是融入工作流的辅助，而不是另开一个窗口的聊天对象。

输入框的傲慢

回到那个空白的输入框，它最大的傲慢是什么？

它默认用户有"精确描述需求"的能力。

Agentic UI：AI 直接操作界面

2025 年有一个新概念叫 Agentic UI，就是 AI 不只是回复你的话，而是直接操作界面。

比如你对 AI 说"帮我把这些文件按日期排序"，传统的聊天 AI 会回复"好的，你可以点击'日期'列头来排序"——它告诉你怎么做，但需要你自己去做。

Agentic UI 的做法是 AI 直接帮你点了那个按钮，文件已经排好序了。你说的不是"告诉我怎么做"，而是"帮我做"，AI 直接执行。

我们前面讲的 Playwright MCP 就是这个思路。AI 可以控制浏览器，直接帮你点击、填写、导航。这比告诉你"你应该点哪个按钮"高效得多。

未来的 AI 产品会越来越多地采用 Agentic UI。用户不再需要理解界面的复杂操作，只需要说出意图，AI 来执行。

多模态：超越文字

另一个进化方向是多模态。

不是所有需求都适合用文字表达。"我想要一个这种感觉的网页"——与其用文字描述"这种感觉"，不如直接扔一张参考图给 AI。

多模态 AI 可以理解图片、语音、视频、手势。用户可以用最自然的方式表达需求，而不是被迫把一切都转换成文字。

比如你可以截一个网页的图，圈出其中一个部分，对 AI 说"这里换成蓝色"。这比用文字描述"把导航栏的背景颜色从灰色改成蓝色"直观得多。

或者你在说话的时候比划一下，AI 通过理解你的语音和手势，知道你想要什么。这是 Zero UI 的方向——不需要传统界面，自然交互就够了。

给开发者的启示

如果你在做 AI 产品，思考几个问题。

你的 AI 是否需要用户主动发起？能不能让 AI 先动，根据上下文主动提供价值？用户打开你的产品，还没说话，AI 就已经在做有用的事情了。

你的 AI 是否只是一个聊天框？能不能嵌入到用户的工作流里？让 AI 成为工作流的一部分，而不是工作流之外的一个工具。

你的 AI 是否在等用户描述需求？能不能先猜测用户的意图？通过分析上下文和行为，AI 可以提供选项让用户确认，而不是让用户从零开始描述。

你的 AI 是否只接受文字输入？能不能支持图片、语音、手势？让用户用最自然的方式表达，而不是被迫把一切转换成文字。

从使用者到创造者

作为独立开发者，你同时是 AI 的使用者和创造者。

作为使用者，你知道现在的 AI 产品有多难用。需要学习提示词技巧，需要反复调试，需要忍受它的各种问题。

最终的目标是：用户不需要"使用 AI"，AI 只是让产品更好用。就像你不需要"使用电力"才能开灯——你只是按开关，灯就亮了。

这一章是产品思维的分享。下一章回到实操，讲讲 AI 编程过程中常见的坑和怎么避免。

AI 不是聊天框

AI 不是聊天框

聊天框是糟糕的交互设计

AI 的 DOS 时代

好用的 AI 应该是什么样

意图分析应该是实时的

线性 vs 非线性

输入框的傲慢

Agentic UI：AI 直接操作界面

多模态：超越文字

给开发者的启示

从使用者到创造者

目录

AI 不是聊天框

AI 不是聊天框

聊天框是糟糕的交互设计

AI 的 DOS 时代

好用的 AI 应该是什么样

意图分析应该是实时的

线性 vs 非线性

输入框的傲慢

Agentic UI：AI 直接操作界面

多模态：超越文字

给开发者的启示

从使用者到创造者

目录