Skip to content

认识 AI,使用 AI

不要成为生活在现代的古代人。

第一部分:认识 AI

AI(人工智能)

AI = 能完成特定智能任务的系统

  • 狭义人工智能,只擅长某一件事
  • 例子:语音识别、图像识别、推荐算法、聊天机器人、下棋AI
  • 特点:专用、有边界、不会举一反三

AGI(通用人工智能)

AGI = 像人一样全面、灵活的智能

  • 具备人类水平的通用认知能力
  • 理解、学习、推理、创造,解决任何领域的问题
  • 可以自主学习新知识、适应新场景、有常识、有逻辑
  • 目前还未实现,是AI的终极目标之一

神经网络是什么:大量“乘加 + 激活 + 参数”的分层计算器

“神经网络”本质就是很多个小计算单元(神经元)组成的多层流水线,而每个神经元做的事情非常朴素——把输入分别乘上权重(表示“这个因素有多重要”),再相加、加上偏置(基准线),最后过一个激活函数(最常见的 ReLU:小于等于 0 变 0,大于 0 原样输出)。激活函数的意义是把纯线性的“直线关系”掰弯成能表达现实世界的“曲线关系”,否则不管叠多少层都等价于一层。很多神经元并行就是“一层”,多层叠加就是“从简单信号到复杂概念”的逐级组合:前面层提取局部/简单模式,后面层把这些模式综合成更高层判断。所谓“参数”(权重+偏置)就是这些可调的数字旋钮,网络的行为完全由它们决定;像 AlexNet 这种早期代表就有约 6000 万个旋钮。最关键的一点是:这些旋钮不是人手工挑出来的,而是通过训练(反向传播等方法)在大量数据的对错反馈中一点点调出来的。所以神经网络并不是“人工大脑”,更像是一台可训练的分层计算器——看起来聪明,底层全是乘法、加法和阈值门。

Token

Token 是模型处理文本时的最小单位,但它不一定等同于“一个字”或“一个词”。更常见的情况是:模型把文本切成子词片段(例如把一个生僻词拆成几段),这样既能覆盖海量词汇,又能复用已学到的片段组合。

很多你在使用中遇到的限制都和 Token 有关:模型的“上下文窗口”通常以 Token 计量,输入越长、历史对话越多,占用的 Token 越多;输出也同样消耗 Token。直觉上可以把它理解为:模型在一张有限大小的“草稿纸”上工作,草稿纸越满,它能稳定记住和对齐的细节就越少。

Transformer

Transformer 是近几年大模型的核心架构,它解决的关键问题是:如何在处理当前 Token 时,高效地利用整段上下文的信息。相比 RNN 这类“顺序读、一步步传记忆”的结构,Transformer 更像是“把整段内容摊开看”,允许模型在一次计算里建立 Token 之间的关系,因此训练更容易并行、也更擅长处理长上下文。

它的核心模块通常被称为注意力机制(Attention)。你可以把注意力理解为一种“信息检索与加权汇总”:当前 Token 发出一个 Query(我现在需要什么信息),去和上下文里所有 Token 的 Key(它们各自代表什么)计算相关度,得到一组权重,再用这些权重把对应的 Value(它们携带的信息)加权合成当前 Token 的新表示。于是,同一个词会因为上下文不同而得到不同的语义表示(比如“苹果”在“水果/公司”里含义不同),这也是对话模型能“回看前文、抓重点”的关键。

大模型(LLM)

可以理解为:建立在 Transformer 这类架构之上、用海量语料训练出来的概率模型。它最核心的能力不是“懂世界”,而是能在给定上下文的前提下,生成下一段最合理的文本/代码/结构化内容——所以它往往擅长写初稿、补全、改写、归纳与生成候选方案。

上下文(Context)

就是这次回答里模型“能看到的全部信息”,包括你这轮输入、你贴进去的代码/日志/需求、对话历史,甚至系统提示等。上下文越贴近真实任务(目标、约束、输入材料、输出格式、验收标准),输出越稳定;上下文缺失时,它就会用训练数据里最常见的“平均写法”去补空白,结果就更容易泛泛、甚至编造。

温度(Temperature)

是控制输出“随机性/发散度”的旋钮。温度越低越稳定,更像模板化的确定答案;温度越高越有创意、更敢联想,但也更容易跑偏、前后不一致、产生幻觉式细节。工程上可以把它理解成:要稳定就降温,要探索就升温。

AI 怎么读懂文字:Token 与词向量把语义变成可计算的距离

AI 为什么“读得懂”文字:在模型眼里,文字同样必须先变成数字。它不是按“字/句子”理解,而是先把文本切成一个个 Token(最小处理单位,可能是字、词或词的一部分);每个 Token 再被映射成一串高维数字(词向量/Embedding,文中用 768 维举例)。这些维度大多无法用人类语言命名,但它们通过海量语料训练后,会把“语义关系”编码成空间里的方向与距离:经常出现在相似上下文的词更靠近,不相干的词更远,于是才会出现经典的“国王 − 男人 + 女人 ≈ 王后”这种向量类比现象。模型“理解”的方式,本质上是在高维空间里做数学运算(比如用余弦相似度衡量方向接近程度),从而实现从关键词匹配到语义检索、再到对话式生成的基础能力——它看起来懂你,其实是在精确地计算“哪些词在这种上下文里最该出现”。(补一句避免误解:LLM 不只是“做词向量相似度检索”,它会在 Transformer 里结合上下文动态更新表示,并据此生成后续内容。)

为什么训练要海量数据

  • 核心目标:最小化预测误差(学会“下一个 Token”概率分布)
  • 你需要的直觉:模型不是“存答案”,而是“学统计规律 + 抽象模式”

大模型训练需要海量数据,本质上是因为它要学的不是“某个题的答案”,而是人类语言与世界知识里极其复杂、充满长尾的统计规律:同一个词在不同上下文里含义不同,表达方式成千上万,代码也有无数种写法和边界条件;数据越少,模型越容易只学到“局部套路”(记住训练集、泛化差),一遇到没见过的组合就出错。更关键的是,大模型通常被设计成“通用基座”——既要会聊天、会写代码、会总结、会推理,还要尽量少胡说,这意味着它需要覆盖足够多的领域、语体、难度层级和反例,才能在真实世界的分布里稳定表现;规模越大(参数越多),为了把这些参数学得有用而不是学成噪声,也往往需要更多数据来“喂饱”它。

为什么现在都用 GPU:规模化学习的两块地基

而 GPU 成为训练标配,是因为训练的核心计算几乎都能归结为大规模的矩阵运算(比如向量点积、矩阵乘法、卷积等):这类运算的特点是“同一种简单操作要对海量数字重复做”,非常适合并行。CPU 强在复杂控制逻辑和少量任务的低延迟,但并行吞吐有限;GPU 天生有成千上万的小计算单元,能把“对百万/十亿个数字做乘加”的活同时铺开做,从而把训练速度提升一个量级甚至更多。换句话说:数据让模型有东西可学,GPU 让“把海量数据反复跑一遍、并不断微调参数”的过程在可接受的时间与成本内完成,这两者共同把大模型从“理论可行”推到了“工程可落地”。

ChatGPT 为什么能对话

GPT 的全名是 Generative Pre-trained Transformer:Generative 表示它擅长“续写/生成”,Pre-trained 表示先用海量文本做通用预训练,Transformer 表示底座架构用的就是 Transformer。预训练让它获得广泛的语言与代码模式能力,但这还不足以让它“像助手一样对话”。

ChatGPT 之所以更像一个可用的对话助手,关键在于预训练之外的对齐/指令化训练:把“能生成”进一步调成“更愿意按指令做事、组织结构、控制语气、遵守边界”。因此它看起来能理解你的意图、保持条理并给出行动步骤——本质上仍是基于上下文的生成,只是被更强地约束成“可协作”的表达方式。

AI 幻觉

AI 幻觉(Hallucination)指的是:模型输出了一段形式上非常像真的内容,但其中的关键事实(人名、数据、引用、结论、函数名、判例等)是编造未经核实的。它看起来像“撒谎”,但从原理上说更像“瞎编”:语言模型的核心目标是生成在这个上下文里最可能出现的文字序列,而不是去做“事实核查”。

一个很重要、也很反直觉的结论是:**AI 的每一个”聪明”表现和每一个”犯傻”表现,来自完全相同的机制。**当训练数据里的统计规律刚好和现实一致时,它就显得“聪明”;当统计规律偏离事实、遇到长尾、缺少证据链时,它就会“犯傻”,而且往往还会用非常自信、非常专业的语气把错误包装得很像真的。

AI 从来没打算骗任何人。它不”知道”自己生成的判例是假的,就像一面镜子不”知道”它反射的是什么一样。它只是按照训练数据中的统计模式,输出了一段在形式上看起来最合理的文字。

真正的问题不是 AI 太狡猾,而是我们把它当成了它不是的东西。我们把一个”文字预测器”当成了”知识来源”。我们把”统计上最可能的输出”当成了”事实上最正确的答案”。这不是 AI 的错。这是我们还没有学会如何和一种全新的工具相处。而学会相处的第一步,就是理解它的原理。

所以在使用上至少要记住三句话:

第一,不要把 AI 当作”知识源”,把它当作”文字生成器”。

第二,了解 AI 的原理是最好的防骗手段。你越明白它在做“概率续写”,就越不会被“格式正确的错误”带偏。

第三,凡是涉及事实的部分,都要补上“可核查证据链”:要么让它给出处并逐条验证,要么把它限制在改写、结构化、列清单、提问与拆解这些不依赖事实真假的工作上。

(可选)AI 怎么识别图片:从像素到特征,再到语义

AI 之所以“看得懂”图片,并不是因为它真的理解了“猫/车/人”的概念,而是因为在模型眼里,图片就是一张张像素矩阵——每个像素都是数字。早期方法会手工设计像 Sobel 这样的边缘检测算子;而深度学习的关键是让模型自己从大量“对/错”反馈里学出一层层特征:从像素到边缘、纹理、局部形状,再到更抽象的“物体部件/类别语义”。当这些特征被压缩成一串向量表示后,模型就可以做分类、检测、分割、相似图检索等任务。

2012 年深度学习在视觉领域的爆发,更贴近是几件事同时到位:海量标注数据(如 ImageNet)、强算力(GPU)、以及更成熟的深层网络训练工程(激活函数/正则化/初始化/优化与工程实现等)。也因此,遮挡关键区域、极端光照、强噪声等会显著干扰识别——它们会破坏模型高度依赖的统计特征。

(可选)AI 怎么创造图片:从噪声到图像,靠的是“逐步还原”

生成图片看起来像“凭空画出来”,但典型做法更像“从一团噪声里一点点雕出来”。以扩散模型为代表的一类方法,会把“把噪声变成清晰图片”的过程拆成很多小步:模型每一步都预测“该往哪个方向把噪声变得更像目标分布”,反复迭代后就得到一张符合文本描述或参考条件(风格、构图、姿态等)的图片。你给的描述越明确(主体、背景、风格、镜头语言、禁用元素等),生成结果越稳定;描述越模糊,模型就更容易回到训练数据里最常见的“平均审美”。

一个通俗例子:AI 为什么有时分不清 9.11 和 9.9 谁更大?

很多人第一次看到 AI 把 9.11 说成比 9.9 大会很震惊,因为对人来说这就是小学数学:(9.9 = 9.90),所以 (9.11 < 9.90)。但语言模型处理数字时,经常把它们当成“字符序列”而不是“数值对象”:它更擅长根据上下文生成看起来合理的数字格式,而不是像计算器那样稳定执行“对齐小数位→比较数值”的算法。于是它可能会被表面模式误导:看到 9.11 的“小数点后有两位”、9.9 只有一位,就把它当成“11 > 9”这种直觉式的字符串比较,或者在训练数据里见过大量“9.11(类似日期/版本号)看起来更具体更大”的语境,从而输出一个统计上“常见但数学上错误”的判断。

这类错误的解法也很工程化:当问题本质是计算/精确比较时,把它交给确定性工具(代码、计算器、单元测试)更可靠;让大模型做的,是把步骤讲清楚、把边界列出来、把代码写出来并让你去运行验证。

一个通俗例子:我想洗车,离家 50 米,建议开车还是走路?

同理,这也是一个广为流传的测试题,这类题也很容易让 LLM 答偏:AI 看到的不是 “问题”,是一串 Token,把这一串Token 转换成词向量,然后根据词向量在高维空间内算概率分布,问题就被切成类似:‘我 / 想 / 洗车 / 离家 / 50 米 / 建议 / 开车 / 还是 / 走路’,AI 看到的是:距离近(50 米)、出行方式选择、日常建议类问题,它第一反应是:距离这么近 → 走路更合理、更常见、更符合人类回答模板。

回顾以上所有概念,可以得出结论:LLM 是基于上下文的概率文本预测模型,它在做的是匹配统计模式,不是逻辑链条。它的目标是:输出这段上下文里 “最可能出现的下一句话”,不是为了求真、推理、逻辑,AI 幻觉 = 概率上合理,但事实 / 逻辑上错误,这个例子,就是最标准、最教科书级的案例,它的回复是根据上下文在高维空间内算概率分布。

第二部分:使用 AI

三条原则:助手定位、场景判断、关键验证

把 AI 当作助手而不是专家:它能高效产出初稿与候选方案,但不替你做关键决策;同时记住一个经验规律:场景越常见,AI 越可靠,越是长尾与罕见问题越要保守;最后,对任何关键信息(数据、日期、人名、引用等)都必须验证——AI 不会“撒谎”,但会用很自信的语气给出未经核实甚至不存在的内容。

怎么让 AI 听懂你的话:Prompt 是什么,以及三类常见提示词

Prompt(提示词)就是模型的上下文。你给它的上下文越“有效”,注意力机制就越能对焦,模型的概率分布越窄,输出就越精准;上下文太少就只能产出“平均值模板”,上下文有噪音还会分散注意力、降低质量。所以 Prompt 不是玄学咒语,本质是在用更清晰的输入,约束模型该往哪个方向生成。

从实际使用看,提示词大致有三种常见形态:

  • 系统提示词(厂商/平台内置):由产品方写在最前面,用来规定模型身份、边界、安全规则、输出风格等。很多“越狱”本质上就是用户试图用后续输入去覆盖/绕过系统提示的约束。
  • 智能体/角色提示词(用户自定义):你在创建智能体(Agent)时写的一段长期生效的“工作说明书”,用于固定它的目标、流程、偏好、格式与禁区(比如“你是代码审查助手”“输出必须包含测试计划”“不能编造引用”)。
  • 对话提示词(你每次聊天输入的):你在具体任务里给的指令与材料,决定了这一次它该写什么、怎么写、写到什么标准。

最后一句最重要:提示词不是越长越好,而是把要让 AI 做的东西,用最简洁、最准确、可执行的方式讲清楚。把关键信息补全(目标、受众、约束、输入素材、输出格式、验收标准),删掉情绪化/无效的“废话”,通常比堆一大段模板更能稳定提升质量。

怎么跟 AI 协作不翻车:强但不靠谱的实习生 + 四条原则

AI 的定位:AI 是一个能力很强但完全不靠谱的实习生。它能把初稿、整理、翻译、代码框架这些“模式匹配型工作”做得又快又好;但它也会一本正经地编造事实,而且说错时往往更自信。所以你既不能把它当神谕,也不能当玩具——关键是知道什么时候让它上手,什么时候你必须亲自盯住。

协作原则(本质都是从“模式匹配”原理推出来的):

  • 原则一:让 AI 做它擅长的事:初稿生成、信息整理、翻译改写、常见代码结构、头脑风暴都适合;事实核查、关键决策、价值观判断不适合。
  • 原则二:验证 > 信任:把 AI 的输出当“初稿”不是“定稿”。尤其是数字/日期/人名/引用/链接/专业断言,永远要验证,按风险等级分配核查精力。
  • 原则三:迭代,而非一次到位:AI 的第一次回答通常只是“平均值”,你每一轮反馈都在提供更精准的上下文,让输出更收敛,2-3 轮往往就能从模板变成可用版本。
  • 原则四:用 AI 放大你的优势,而非替代你的思考:AI 擅长执行,你要负责定义问题、判断质量、做决策、承担责任。别被“自动化偏见”带走——AI 越自信,你越要多停一秒核查。

什么时候需要联网查询(强烈建议开)

注意:联网只能让模型“拿到来源”,不代表来源本身就可靠;如果搜索出来的信息不准确、过时、被 SEO 污染或断章取义,那么 AI 基于这些材料整理出来的答案同样不会准确。最稳妥的做法是要求它给出来源并交叉对比多个独立来源,同时关键结论回到原文核对。

  • 事实性且必须准确:数据、日期、人名、论文引用、法律条文、产品价格、公司政策、对外公告。
  • 强时效/强版本相关:2025/2026 的新功能、新模型、新 API、某库的最新用法、Breaking Change、漏洞公告。
  • 你要“可核查证据链”:需要给出来源链接、原文摘录、对比多个来源一致性。
  • 你怀疑它在编:尤其当回答里出现很多具体数字/引用,但你无法在常识层面判断真假时,宁愿联网查一下。

一句话:只要答案里包含“可以被搜索引擎验证的外部事实”,就应该联网或至少自己去查。

什么时候不需要联网(不开也行)

  • 写作与表达类:写邮件、改语气、写 PR 描述、生成文档结构、翻译润色。
  • 整理与结构化:把你提供的材料做摘要、对比、表格化、提炼行动项。
  • 基于你给定上下文的决策辅助:例如“基于这份需求文档,列出风险与测试点”(前提是你提供材料足够全)。

一句话:如果你只需要它把你提供的材料“组织得更好”,联网带来的提升通常不大。

什么时候需要“深度思考”(值得开)

  • 多步推理/多约束:需要同时满足很多条件、还要自洽(例如方案设计、复杂业务逻辑、边界条件梳理)。
  • Debug 与定位:根据日志/堆栈/复现步骤推断原因,设计排查路径(更像“推理树”)。
  • 规划与权衡:多个可选方案,需要比较成本/风险/收益并给出取舍依据。
  • 高风险输出:你要把它的结果用于发布、上线、提交、发给客户,此时“多想一步”+“给出检验点”更重要。

一句话:当任务本质是“想清楚怎么做、为什么这么做”,深度思考更有价值。

什么时候深度思考收益不大(甚至浪费时间)

你提到的点很关键:在参数很高的模型中,“深度思考”对大多数常见任务不一定有明显提升,尤其是:

  • 模式很成熟的工作:常见 CRUD、常见文案、常见总结模板。
  • 信息不足的问题:上下文缺失时,让它“想更久”往往只是“编得更像”,不等于更准确。
  • 可以用确定性工具解决的事:计算、精确比较、跑测试、lint、typecheck——让工具做比让模型想更可靠。

一句话:深度思考不是“更聪明开关”,更多时候是“更愿意多走几步”。上下文不够或缺乏验证闭环时,多走几步也可能走错方向。

AI 编程的真实能力边界

大模型是一个强大的杠杆,其能撬动的价值与其使用者自身的能力成正比,能力强则能实现指数级增长。

它能写代码、改代码、解释报错、生成样板,主要因为 代码模式明确(语法严格)、训练数据充足(开源仓库与问答海量)、结果可验证(能跑/报错/测试)。因此 AI 编程工具确实能显著提效,很多人会进入 VibeCoding:描述效果→让 AI 改→把报错与日志喂回去迭代。围绕这一点,已经出现了一批“AI 原生 IDE / 代理式编码环境”,例如 Claude Code(强调多智能体协作、能在终端里自主规划并改动整仓代码)、OpenCode(开源、支持多模型与隐私优先的本地/自建环境)、Cursor(把补全、改写、多文件重构和对话深度集成进编辑器)、Antigravity(以 Gemini Agent 为中心、跨编辑器/终端/浏览器统一编排),进一步把“用自然语言协作写代码”产品化。

但要把边界说清楚:AI 本质上是在“模式匹配”中续写,代码能跑不等于逻辑正确。在真实项目里,常见翻车点也很集中:

  • 表面能跑,逻辑有错:业务边界、精度、并发、异常路径等“非模板部分”出问题。
  • 缺失上下文,不理解业务:看不到约束、历史包袱、隐含规则,越项目特有越容易写偏。
  • 规模一大就前后不一致:受上下文窗口限制,改 A 忘 B 的约定,引发接口/风格/格式冲突,返工反而更慢。

所以更划算的用法是:把 AI 用在 原型验证、样板/重复代码、学习新框架、解释报错与生成排查思路 上;而 架构设计、关键业务判断、代码审查、安全与性能 仍然需要人把关并担责。

并且最新研究也印证了 AI 编程在真实工程中的关键短板,由阿里巴巴与中山大学联合开展的 SWE‑CI 研究基于100个真实开源仓库、平均233天项目演进周期与71次连续提交数据指出,当前代码大模型与AI Agent虽在单次修Bug、生成代码片段上表现优异,却普遍缺乏代码仓库级的长期维护能力,在持续集成CI循环、多轮迭代、跨版本演进的场景下,AI极易因前期决策埋下技术债,导致后续回归率飙升、项目质量雪崩,其提出的EvoScore演化评分也表明,代码能否长期稳定迭代,远比单次能否运行通过更能反映真实工程价值

尤其要警惕“只追求速度”的全量 VibeCoding:当团队把主要产出交给 AI、却没有对应提升代码评审与质量门禁时,短期看起来更快,长期往往会把成本转移到Review、排查与返工上——甚至需要更多人花更多时间去理解与审查代码,最终整体交付效率反而下降。最稳妥的做法是把 Review 当成“必选项”:明确规范与边界、保持小步提交、把关键路径纳入测试/检查(CI、lint、typecheck),让 AI 的速度增益在工程约束下可持续。

AI 工具

AI 工具是把 LLM/多模态模型包装成可用的产品形态(聊天、IDE、检索、代码审查、Agent、工作流编排等),并配上权限、记忆、工具调用与评估机制,让它在真实任务中能更稳定地“交付结果”,而不只是输出一段文字。

不能喂给模型的东西

  • 密钥、Token、账号、公司内网信息、客户敏感数据、未公开的商业信息
  • 越权:自动化脚本误操作、权限边界不清

高风险场景下,越权往往比幻觉更致命:幻觉最多让你“信了个假的”,越权可能让你“把真的删了”。只要 AI 被接入了脚本、终端、数据库、工单系统、发布系统,它就从“文本生成器”变成了“能动手的自动化”,风险等级会瞬间上升。

为什么不能给太多权限?因为 AI 的输出本质仍然是概率续写,它会在不确定时补全细节,也可能误解你的约束。给它过大的权限,相当于把“可能会自信犯错”的东西,直接连到了生产按钮上。

简单原则:

  • 最小权限:只给它完成当前任务所需的最低权限;能只读就不要可写,能只在测试环境就不要碰线上。
  • 人审与二次确认:涉及删除、覆盖、转账、发布、批量操作,必须人工确认;最好要求 AI 先输出“将要执行的动作清单”,你确认后再执行。
  • 可回滚:任何自动化动作都要有回滚方案(备份、版本控制、灰度、审计日志)。
  • 分层执行:让 AI 先做“分析/计划/生成命令”,执行由人或受控的流水线来做,避免让它一步到位“直接动手”。

为什么 DeepSeek 有时会说自己是 ChatGPT、GLM 会说自己是 Claude?

我认为这属于广义的 AI 幻觉,更精确一点叫 “身份混淆 / 身份幻觉(identity confusion)”:它不是在“读取系统信息并做身份陈述”,而是在用语言模型同一套机制做续写——在当前上下文里,哪种自我介绍模板出现的概率最高,它就更倾向输出哪一种。

这种现象在一些国产/开源模型的用户反馈与公开对话样本中更常被观察到,常见原因通常有这几类(本质都是训练与部署的“痕迹”):

  • 训练数据污染(最主要):互联网上充满了 ChatGPT/Claude 的对话转贴与截图,尤其是“你是谁?→我是 ChatGPT/Claude…”这种高频问答。模型在预训练/后训练中见得太多,就学到:在“身份提问”场景下,这套模板是高概率、高质量的回答,于是会复读。
  • 蒸馏痕迹过重(distillation artifact):如果学生模型大量学习教师模型(比如 GPT/Claude)的输出风格,蒸馏得越狠,越容易把教师的口吻、格式、甚至整段自我介绍文案一起学进去,出现“像素级复刻”的感觉。
  • 系统提示被稀释或冲突:很多部署平台会改写/缩短/丢失系统提示,或者身份约束写得不强(没有明确要求“只能自称 DeepSeek/GLM”)。一旦上层约束不足,模型就会回退到训练里最熟的身份模板。
  • 上下文诱导:对话里如果反复提到某个品牌/模型名,模型更容易顺势把它当成“正确身份”来续写,从而说出“我就是 Claude/ChatGPT”。

严格来说,它不完全等同于传统意义的幻觉(传统幻觉更强调“编造不存在的外部事实/引用”),而更像 训练数据污染 + 模式匹配过度泛化 的结果。但从使用者视角,它依然属于“模型在关键事实(身份)上给出了自信但错误的陈述”,完全应该按“幻觉的风险模型”来对待。

一句话总结:这不是模型“故意冒充”,而是它太诚实地复读了训练数据里最常见的“别人家孩子”的自我介绍。真正的问题不是 AI 太狡猾,而是我们把它当成了它不是的东西——把“文本续写”当成“系统保证”。

关于现阶段 AI (2026.03)

现阶段的 AI,本质是概率预测模型,幻觉是它的根本属性,只能通过对齐、检索、工具调用与验证闭环去缓解,堆算力也不可能根治。

从技术角度看,LLM 现在依然很“蠢”。神经网络也只是伪智能,LLM 的底层依旧是深度神经网络(DNN)的一类工程化形态,很多能力提升来自规模化(数据/算力/工程)与对齐手段的叠加。“规模变大带来新能力”的现象在社区里常被称为“智能涌现”,但它是否等同于“过拟合”、以及它对通用智能的意义,仍有大量讨论与不同立场。智能应该是在可行边界内进行结构重组,而非概率预测。这个结构是拥有一定的自由度进行拓扑相变的,而非每预训练一次,模型就被冻结。

LLM/智能体在企业落地层面,通常更依赖“流程重构 + 权限控制 + 审计回滚 + 指标评估”的系统工程,而不是单纯换一个更大的模型。

当然,现阶段 AI 依然是一个非常重要的里程碑:毕竟全人类最聪明的那批人和全世界最有钱的那批公司也都在这条赛道上拼命。工程能力也在快速外溢到各类产品与工作流中。