欧美视频一级,最新日韩,日韩高清第一页

自打發(fā)布新一代模型 GPT-5 之后，OpenAI 收獲了大片罵聲。

人們紛紛表示 GPT-5 “ 變蠢了 ”“ 沒創(chuàng)造力了 ”“ 不靈動了 ”“ 回答很干癟 ”。

實(shí)際上，這并不是一個讓人意外的結(jié)果，因為 GPT-5 的其中一個特性是幻覺率顯著降低，而降低模型幻覺率的一個主要代價就是模型的輸出會顯得更呆板。

通俗來說就是模型變得更嚴(yán)謹(jǐn)，但主觀能動性變?nèi)趿耍@一點(diǎn)其實(shí)對于寫代碼、Agent 構(gòu)建是很有好處的，只是 ChatGPT 的主要面向的消費(fèi)級用戶對此需求并不高。并且 GPT-5 變得非常被動，以至于需要非常詳細(xì)的提示詞才能很好地驅(qū)動（當(dāng)然如果需求寫得好，GPT-5 是很可靠的），不像之前會積極地預(yù)估用戶的意圖，原本快要丟掉的提示詞技能又得撿起來，這對于被 AI 慣壞的一大批用戶又是一記背刺。

GPT-5變蠢背后：抑制AI的幻覺，反而讓模型沒用了？

從原理上來講，大模型生成的內(nèi)容是概率產(chǎn)物，模型本質(zhì)意義上是一個條件概率分布的近似器，它的創(chuàng)造力來自于更寬松的概率分布，而當(dāng)你想讓它答案更精準(zhǔn)、低幻覺時，它的概率分布必然收緊，這樣的收緊減少了有更多創(chuàng)造力的可能。

這就像一個人，你想讓他更嚴(yán)謹(jǐn)、符合邏輯的去創(chuàng)作，他就會被鉗制，無法天馬行空。

然而有趣的是，早前大家都在吐槽各家大模型的幻覺率太高并且愈演愈烈，認(rèn)為這是一種 “ 病 ”，廠商們也使出渾身解數(shù)來治這個 “ 病 ”，微調(diào)、RAG、MCP 等新 “ 藥方 ” 一個接一個。

現(xiàn)在，高幻覺率的問題被一定程度解決，大家又吐槽模型回答得不夠好，這就陷入了一種無法打破的死循環(huán)。

那么，廠商們到底該如何正確地看待 AI 幻覺呢？

為探究這個話題，知危與阿里巴巴大淘寶技術(shù)營銷前臺技術(shù)負(fù)責(zé)人甄焱鯤進(jìn)行了對談。

甄焱鯤首先跟知危分享了自己對 GPT-5 被 “ 討伐 ” 現(xiàn)象的理解和親身使用體驗：“ 許多人贊賞其在數(shù)學(xué)、科學(xué)和代理任務(wù)上的進(jìn)步，但也批評它在創(chuàng)意寫作上不如 GPT-4.5 或 4o，輸出更通用、缺乏情感深度，甚至出現(xiàn) ‘ LLM 廢話 ’。基準(zhǔn)測試中，它在 SimpleBench 上僅得 56.7%，排名第五，遠(yuǎn)低于預(yù)期。用戶 ‘ 起義 ’ 主要源于模型感覺像降級：響應(yīng)遲鈍、幻覺增多、錯誤意外，以及未公布的更改導(dǎo)致創(chuàng)意和質(zhì)量下降。”

“ 而我的直觀感受是：出現(xiàn)幻覺的概率確實(shí)下降了，我用了大概三天的時間，提了一些哲學(xué)、編程和人工智能相關(guān)的問題，在一些生僻概念的理解上考察模型的輸出，還是有非常不錯的效果，例如：GPT-5 不會把我自創(chuàng)的英文縮寫（一些技術(shù)架構(gòu)里的縮略語）錯誤拆分了，比如 ‘ AIGUI ’ 這個概念不會如 GPT-4o 般拆分成 ‘ AI GUI ’ 了。”

在對談過程中，甄焱鯤多次強(qiáng)調(diào)，把幻覺單純當(dāng)成一個 “ 病 ”，是片面的。

目前已經(jīng)有研究指出，大語言模型理論上不可能完全消除幻覺。還有研究表明，越抑制幻覺，大語言模型的泛化性越差，也就是能夠適用的場景越受限，這與業(yè)界希望全方位推廣 AI 的愿景顯然是相悖的。

這其實(shí)也反映出，幻覺帶來的影響并非永遠(yuǎn)都是負(fù)面的，需要辯證看待。

正如甄焱鯤告訴知危：幻覺是不是幻覺、幻覺的影響是不是負(fù)面、幻覺的負(fù)面影響有多大，都是相對的，和使用者的能力和需求、場景的特性和需求、使用前后效率對比、現(xiàn)實(shí)世界的變化等因素都有關(guān)。

以下是知危與甄焱鯤的對話原文，經(jīng)過了不改變原意的編輯。

一、幻覺的類型

知危：能請您介紹一下大模型實(shí)際應(yīng)用中常見的幻覺類型嗎？

甄焱鯤：大模型的 “ 幻覺 ” 指的是 AI 系統(tǒng)生成或推斷出與人類經(jīng)驗不符的內(nèi)容或結(jié)論。

這里 “ 人類經(jīng)驗 ” 必須是 “ 正確 ” 的，限于個人認(rèn)知的差異，所以必須認(rèn)識到 “ 幻覺 ” 也是相對的。

在大模型應(yīng)用中，幻覺無法完全避免。

可以將幻覺分為 5 個類別：語言生成中的幻覺、推理與邏輯錯誤、過度簡化與常識錯誤、數(shù)據(jù)錯誤或無依據(jù)推理、時效性錯誤。

語言生成中的幻覺是大模型最常見的一種幻覺，尤其是在內(nèi)容生成類的應(yīng)用中。例如在生成代碼時，AI 可能會編造 Library 或 API 來完成代碼的生成。

大模型還可能在進(jìn)行邏輯推理時產(chǎn)生錯誤。例如在使用 Roo Code 插件進(jìn)行代碼生成時，經(jīng)常遇到指定上下文后，大模型仍然會根據(jù)項目中其它上下文做出錯誤的推理。

關(guān)于過度簡化與常識錯誤，AI 雖然能夠處理大量信息，但它在應(yīng)對一些需要深度常識、實(shí)際經(jīng)驗的場景時，容易出現(xiàn)過度簡化的情況。例如 AI 可能會說 “ 為了快速減肥，可以不吃任何食物 ”，這顯然是不科學(xué)的。

關(guān)于數(shù)據(jù)錯誤或無依據(jù)推理，在某些場景下，AI 模型可能會基于不完全或者錯誤的數(shù)據(jù)生成答案（尤其當(dāng)訓(xùn)練樣本中摻雜大模型生成的幻覺內(nèi)容時更甚）。例如，在醫(yī)療應(yīng)用中，AI 根據(jù)患者的癥狀生成診斷建議，但如果這些癥狀與訓(xùn)練數(shù)據(jù)不匹配，或者訓(xùn)練數(shù)據(jù)本身存在偏差（如某些相同指標(biāo)數(shù)據(jù)指向不同病癥，從而需要醫(yī)生以個人理解進(jìn)行具體判斷的情況），模型就可能給出錯誤的診斷結(jié)果。

最后，幻覺很多時候來源于模型訓(xùn)練時知識和概念在時間上的局限性。

知危：大模型的幻覺會在企業(yè)應(yīng)用中帶來哪些負(fù)面影響與成本損耗？

甄焱鯤：關(guān)于幻覺可能產(chǎn)生的 “ 成本損耗 ”，需要代入到具體應(yīng)用場景分析。

用戶差異會帶來巨大的成本評估差異。假設(shè)生產(chǎn)效率的影響小于大模型應(yīng)用前的歷史效率，總體上并不會產(chǎn)生 “ 成本損耗 ”。

比如。一個行政人員使用 Cursor 生產(chǎn)一個表格信息收集工具，即便生產(chǎn)效率低下錯誤頻出，生產(chǎn)效率仍然可能大于：找產(chǎn)品提需求、找研發(fā)開發(fā)、找測試評估、找運(yùn)維部署。因此，Cursor 雖然經(jīng)常犯錯誤，仍然有大量用戶，因為用戶認(rèn)為 Cursor 的效率是大于自身的。

但若這個場景的用戶是研發(fā)人員，錯誤頻出帶來的效率降低，顯著大于：安裝依賴、查找文檔、編寫代碼，那么 Cursor 在這個場景大概率會被研發(fā)人員拋棄。

所以，成本損耗和效率的影響都是相對的。

進(jìn)一步看，幻覺的負(fù)面影響還可以分為兩類：

預(yù)測錯誤，如果“錯誤”易于識別，則影響的是生產(chǎn)效率；

如果 “ 錯誤 ” 難以識別（例如預(yù)測錯誤發(fā)生在使用者不熟悉的領(lǐng)域），則影響的是應(yīng)用效果。

知危：如何根據(jù)幻覺率高低進(jìn)行產(chǎn)品落地可行性決策？

甄焱鯤：如果大模型的幻覺率過高，特別是在關(guān)鍵決策領(lǐng)域（如醫(yī)療、金融、法律等），則這些產(chǎn)品的應(yīng)用將面臨嚴(yán)重的挑戰(zhàn)。對于這類應(yīng)用，企業(yè)的目標(biāo)是盡量減少錯誤和幻覺，因為一個錯誤的決策可能導(dǎo)致巨大的財務(wù)損失或法律責(zé)任。

對于一些風(fēng)險容忍度較高的應(yīng)用場景（如內(nèi)容推薦、廣告投放等），企業(yè)會接受一定程度的幻覺，畢竟這些應(yīng)用的目的是提升用戶體驗和增加商業(yè)效益，而不完全是做出精準(zhǔn)決策。

通常，企業(yè)會設(shè)置一個 “ 安全邊界 ” 來限定幻覺率，確保在可接受范圍內(nèi)。過高的幻覺率會增加企業(yè)的風(fēng)險和成本，過低的幻覺率則可能意味著模型的復(fù)雜度和計算成本過高，導(dǎo)致收益無法覆蓋成本。

二、緩解幻覺的成效

知危：目前，為了緩解幻覺問題，一般會采用哪些方法？實(shí)踐效果如何？

甄焱鯤：當(dāng)下常用的方案有三種：合適的模型、In-Context-Learning、微調(diào)。

首先，海量參數(shù)的大模型因為 “ Scaling Law ” 會緩解幻覺出現(xiàn)的概率；其次，借助各種提示詞工程和 RAG 等技術(shù)，“ In Context Learning ”（在不進(jìn)行參數(shù)更新的情況下，通過在輸入中提供示例來學(xué)習(xí)和完成新任務(wù) ）被實(shí)踐證明能夠大幅降低幻覺出現(xiàn)的概率；最后，使用 “ 繼續(xù)訓(xùn)練 ” 的微調(diào)技術(shù)，在一些場景中可以一定程度降低幻覺。

為緩解語言生成幻覺和過度簡化幻覺，一般采用擴(kuò)大訓(xùn)練樣本和模型參數(shù)來解決，即采用更合適的模型。

為緩解邏輯推理錯誤，在 MCP 生態(tài)出來后，最火的就是：Sequential Thinking MCP Server，幫助大模型把復(fù)雜問題降級為諸多微任務(wù)，以期待降低大模型出現(xiàn)幻覺的概率。這屬于 In-Context Learning 方法。

緩解數(shù)據(jù)錯誤或無依據(jù)推理幻覺一般也是采用 In-Context Learning 方法。

為緩解時效性局限帶來的幻覺，比如編程領(lǐng)域，現(xiàn)在行業(yè)里有很多人在用 Context Server，也就是 MCP 的 Server，當(dāng)調(diào)用 API 時，它能幫我檢查這個 API 的最新版本文檔和接口參數(shù)說明，避免使用了老版本的 API，保證生成代碼的準(zhǔn)確性，這屬于 In-Context Learning 方法。

醫(yī)療、金融、法務(wù)等行業(yè)對精度要求非常高，使用 RAG 最多的就是這些行業(yè)。但是，由于 RAG 需要向量存儲、檢索服務(wù)，且會大幅度增加計算成本，某些行業(yè)的特定領(lǐng)域使用大模型微調(diào)技術(shù)，降低 RAG 帶來的成本，也能找到成本與效果的平衡點(diǎn)。

對于內(nèi)容推薦、廣告投放等可以容忍一定程度錯誤的應(yīng)用場景，AI 的幻覺率可以稍高一些，同時開發(fā)成本也會降低。最典型的例子就是 “ mini-gpt ” 開源項目，僅用幾個小時訓(xùn)練一個幾百兆大小的小模型，就可以很好地生成兒童繪本級別的小故事。

中低精度要求和更低成本的情況下，小尺寸模型也是能接受的，比如 Qwen3-0.6B，In-Context-Learning 可以不使用或簡單使用，可以使用少量（數(shù)百、千條數(shù)據(jù)即可）行業(yè)優(yōu)秀的案例數(shù)據(jù)進(jìn)行微調(diào)，因為基礎(chǔ)模型參數(shù)量小，微調(diào)的成本也不會太高。

但總體而言，微調(diào)的效果和風(fēng)險還是普遍存在。模型通過微調(diào)從通用模型過渡到領(lǐng)域特定模型時，是有可能丟失原有的通用知識的。

而對于所謂垂直領(lǐng)域大模型，在我個人實(shí)踐中發(fā)現(xiàn)，由于大部分場景都需要跨領(lǐng)域知識，反而使垂直領(lǐng)域大模型的應(yīng)用效果受到限制，實(shí)際效果和微調(diào)技術(shù)基本持平。

最近行業(yè)里有一些論文在研究怎么讓大語言模型實(shí)現(xiàn) Self Learning，也就是說它能在服務(wù)過程中對自己的參數(shù)進(jìn)行微調(diào)，隨著使用不斷學(xué)習(xí)和提升，克服時效性的局限。比如，麻省理工（ MIT ）最近提出的 Self Adapting Language Models（ SEAL ）是一種模型能夠 “ 自行學(xué)習(xí) ” 的技術(shù)：模型通過生成自己的合成訓(xùn)練數(shù)據(jù)并用于自我更新，迎向 “ 終生學(xué)習(xí) ” 之路。但該方法仍存在 “ 災(zāi)難性遺忘 ”、計算資源高、學(xué)習(xí)調(diào)度復(fù)雜等挑戰(zhàn) 。

當(dāng)下，由于大模型的基礎(chǔ)框架局限于 Transformer 和 Diffusion，并且在基礎(chǔ)框架層面并沒有顯著的技術(shù)突破，上述方案應(yīng)該在大模型基礎(chǔ)框架技術(shù)變革前是有效的。

知危：為何說垂直領(lǐng)域大模型效果受限？從我們和醫(yī)療領(lǐng)域的專家交流來看，他們還是認(rèn)為垂域模型比通用模型能力更強(qiáng)。

甄焱鯤：垂直領(lǐng)域大模型雖然掌握了行業(yè)知識，在特定任務(wù)上表現(xiàn)更好，比如在醫(yī)療這種病種類目極多、具備極強(qiáng)專業(yè)深度的領(lǐng)域。但在復(fù)雜推理或跨領(lǐng)域理解上仍顯不足，尤其在任務(wù)更復(fù)雜、數(shù)據(jù)稀缺時更明顯。

如果數(shù)據(jù)多樣性有限而規(guī)則復(fù)雜，比如材料科學(xué)，訓(xùn)練出的模型往往傾向于 “ 記憶 ” 而不是建立泛化機(jī)制。只有當(dāng)數(shù)據(jù)多樣性足夠高，才可能促進(jìn)泛化。

最后，成本與收益不匹配。相比訓(xùn)練一個垂直大模型，微調(diào)已有模型 + 機(jī)制（如 RAG ）往往更低成本，效果也更穩(wěn)健。

知危：醫(yī)療、金融、法律是使用 RAG 最多的行業(yè)，那么這些行業(yè)之間使用 RAG 的情況有哪些不同？

甄焱鯤：總體而言，只要是涉及到標(biāo)準(zhǔn)化流程或比較依賴規(guī)則、先驗的工作，RAG 都會用得比較多。

其實(shí) RAG 有不少局限性，不同行業(yè)使用 RAG 的場景需求也不同。

在法律行業(yè)，有時候應(yīng)用中不只涉及法律法規(guī)，還包括案例、法律解釋、政策等。這就比一般的 RAG 難度高一些，主要是時效性要求高，因為法律是在不斷建設(shè)中的，各地對法律法規(guī)也可能有不同的解釋。

在醫(yī)療行業(yè)，現(xiàn)在大語言模型在時序理解上的局限性，會限制 RAG 應(yīng)用的效果。當(dāng)前的 RAG 更多是對概念背后所代表的含義進(jìn)行理解和解釋。但是在醫(yī)療行業(yè)里，通常要解釋的是臨床數(shù)據(jù)和病例。

比如一個病人有一系列的檢查、體檢數(shù)據(jù)，包含各項指標(biāo)在一定時間段比如一年內(nèi)的變化情況。這些變化的含義不是簡單通過 RAG 就能查詢出來的。因為它有很大的個體性差異，比如性別、地域、年齡等各種因素的影響，也可能要結(jié)合上次檢查和這次檢查的對比，以及和其他類似患者的的對比。

不像其它領(lǐng)域，比如醫(yī)療領(lǐng)域可以直接生成病例、診斷書等，或者法律領(lǐng)域可以生成訴狀、裁決書等，金融行業(yè)在應(yīng)用 AI 時，最終產(chǎn)生的結(jié)果更多是偏向建議或者輔助性的。因為使用 AI 會產(chǎn)生的一些問題和風(fēng)險，目前用 RAG 加大語言模型的方式是難以規(guī)避的。因此金融行業(yè)傾向于更嚴(yán)謹(jǐn)?shù)姆绞剑热缭诶锩娲┎逡恍﹤鹘y(tǒng)的機(jī)器學(xué)習(xí)算法，用來對決策背后可能產(chǎn)生的問題和風(fēng)險進(jìn)行估計。

知危：您的團(tuán)隊對幻覺緩解的技術(shù)路徑探索經(jīng)歷了什么樣的探索過程？關(guān)于微調(diào)和效果和風(fēng)險可否深入探討一下？

甄焱鯤：剛開始的時候，我們主要對模型做微調(diào)，或訓(xùn)練自己的 LoRA。比如輕辦公領(lǐng)域，針對用戶場景識別和服務(wù)推薦場景做微調(diào)或 LoRA。但我們發(fā)現(xiàn)，等花了半年甚至一年的時間訓(xùn)練并上線后，大語言模型自身更新帶來的收益，往往已經(jīng)超過了我們做這些工作的收益。

通過微調(diào)技術(shù)調(diào)整模型參數(shù)的時候，最大的問題在于參數(shù)調(diào)整可能帶來一些無法預(yù)期的后果。比如模型本身是無法處理 “ 沖突 ” 的，如果新數(shù)據(jù)與模型原有知識發(fā)生了沖突，經(jīng)常會發(fā)生 “ 正確 ” 的數(shù)據(jù)遮蔽了 “ 正確 ” 的知識，甚至?xí)?dǎo)致 “ 災(zāi)難性遺忘 ” 的情況發(fā)生。

“ 災(zāi)難性遺忘 ”（ Catastrophic Forgetting，也稱 catastrophic interference）是指模型在學(xué)習(xí)新任務(wù)或新知識時，嚴(yán)重遺忘先前所學(xué)能力的現(xiàn)象，尤其在順序訓(xùn)練或持續(xù)微調(diào)中表現(xiàn)突出。即便是 AI 產(chǎn)品在服務(wù)過程中不斷更新權(quán)重，即 Continual Learning，也只是一種微調(diào)，傳統(tǒng)微調(diào)具備的缺點(diǎn)它都有。

在大型語言模型中，這種現(xiàn)象尤為關(guān)鍵：模型的知識分布式存儲于權(quán)重中，當(dāng)在新領(lǐng)域訓(xùn)練時，部分權(quán)重被重寫，導(dǎo)致模型原有的廣泛語言能力或事實(shí)知識退化。

在研究中，1B 到 7B 大小的 LLM 在持續(xù)微調(diào)后普遍出現(xiàn)災(zāi)難性遺忘，甚至隨著模型規(guī)模增大（但仍在這一范圍內(nèi) ），遺忘現(xiàn)象反而更嚴(yán)重。

舉個例子：一個針對醫(yī)療診斷微調(diào)的模型，可能會 “ 忘記 ” 基礎(chǔ)的數(shù)學(xué)能力或一般寫作能力。這個問題和大語言模型本身的技術(shù)特點(diǎn)相關(guān)，除非整個大語言模型技術(shù)發(fā)生本質(zhì)性的革新，否則短期內(nèi)這個問題比較難解決。

現(xiàn)在的大語言模型權(quán)重參數(shù)非常多，而且缺乏可解釋性。更新某些權(quán)重時，會對哪些權(quán)重或者什么情況下的推理產(chǎn)生負(fù)面影響，目前很難評估。所以，災(zāi)難性遺忘或者權(quán)重沖突的具體原因，目前只能通過最終結(jié)果的評估來檢驗。

在實(shí)際測試對比下，In-Context Learning、RAG 往往比微調(diào)模型具有更好的泛化能力和穩(wěn)定性。

總體來說，模型微調(diào)或者 LoRA 的效果，通常小于 RAG 的效果，因為 RAG 可以去修改數(shù)據(jù)，靈活性更強(qiáng)。而通過很多論文和行業(yè)數(shù)據(jù)都能看到，RAG 的效果一般又小于 In-Context Learning，因為后者是實(shí)時地把必要的知識或輔助信息當(dāng)做 context 注入模型。

所以，后來我們更傾向于做 RAG、 In-Context Learning 這類優(yōu)化。而實(shí)際上相比之下，目前我們 In-Context Learning 的應(yīng)用還比較少。

原因在于 In-Context Learning 需要更豐富、結(jié)構(gòu)化且準(zhǔn)確的 context，而這些 context 比較難獲取。比如現(xiàn)在要幫產(chǎn)品經(jīng)理寫一個新項目的產(chǎn)品文檔，來做產(chǎn)品策劃。產(chǎn)品的用戶定位、功能定義、用戶流程、UI 交互等，涉及多個領(lǐng)域。這些領(lǐng)域的知識和內(nèi)容，要決定哪些需要提煉放入 context，去做 In-Context Learning，實(shí)際上有很大挑戰(zhàn)。從目前實(shí)踐效果來看，用工程或編程手段去解決，效果不如用 RAG 好。

但很多服務(wù)中，比如用戶完成一件事后還會接著做下一件事，也就是當(dāng)用戶有連續(xù)性任務(wù)時，In-Context Learning 的應(yīng)用門檻會相對低一些，因為可以知道用戶當(dāng)前場景變化和上一件事情的結(jié)果。

知危：為什么模型微調(diào)的工程周期那么長？相比之下，RAG、In-Context Learning 的工程周期如何？

甄焱鯤：模型微調(diào)的工程周期很長，影響因素很多。

首先，構(gòu)建微調(diào)模型需要高質(zhì)量、標(biāo)注良好的領(lǐng)域數(shù)據(jù)，耗費(fèi)的精力往往占真實(shí)訓(xùn)練的絕大部分。有人直接指出微調(diào) 90% 的精力花在 “ 提升數(shù)據(jù)質(zhì)量 ” 上。

其次，微調(diào) LLM 不像一般模型那么輕松。需要性能強(qiáng)勁的基礎(chǔ)設(shè)施和優(yōu)化、維護(hù)能力。訓(xùn)練本身往往耗時數(shù)周，甚至更久。

再次，微調(diào)往往不是一次搞定的。需要反復(fù)調(diào)參、驗證、修復(fù) bug、對比多個模型版本。

最后也是最關(guān)鍵的是，LLM 這個基礎(chǔ)模型可能每隔幾個月就會迎來新版本，原來的微調(diào)成果很快就可能被 “ 超越 ”。社區(qū)反饋也提到，每次基礎(chǔ)模型更新后，幾乎都得從頭再來一次微調(diào) 。

相比之下，RAG 通常只需數(shù)天甚至數(shù)小時即可部署，尤其用 Hugging Face 的 RAG-Token 示例幾行代碼搞定。

并且，RAG 整體工程流程簡單，門檻低于深度培訓(xùn)。知識庫變更最快，只需重新 embed 文檔，完全無需重訓(xùn)模型。因此，可以實(shí)時響應(yīng)信息變化。

社區(qū)普遍反饋道，相比代價高耗時的微調(diào)，RAG 簡便且性價比更高。

對于 In-Context Learning （ ICL ），本質(zhì)上只需構(gòu)造好 prompt，可能還需要加入若干示例（ few-shot ），基本不需要訓(xùn)練過程。工程實(shí)現(xiàn)幾乎是幾分鐘到幾小時搞定 prompt 設(shè)計、示例選取、效果驗證。

對比微調(diào)，ICL 可謂 “ 立刻見效 ”。

知危：ICL 落地的具體挑戰(zhàn)都有哪些？為何還無法很好地解決，以至于即便潛能更大，目前實(shí)際效果不如 RAG ？

甄焱鯤：挑戰(zhàn)確實(shí)不少。ICL 的效果高度依賴于所選示例的質(zhì)量，但 “ 哪些示例最具代表性、結(jié)構(gòu)清晰、能覆蓋多領(lǐng)域內(nèi)容 ” 本身就很難定義。典型方法有基于語義相似度的檢索（如 embedding 距離），但往往不夠精準(zhǔn)。

具體使用時，會受到模型本身限制、內(nèi)容、結(jié)構(gòu)等方面的影響。

大模型（如 GPT-4o ）雖支持?jǐn)?shù)百K token 輸入，但仍難容納大量多領(lǐng)域信息，尤其文檔結(jié)構(gòu)復(fù)雜時。

對于開放性（ open ）問題，過于貼近主題的上下文反而可能引起模型偏差或混淆。

同樣一組示例，順序不同可能得到完全不同的效果，但如何自動決定最佳順序依然是開放問題。更細(xì)節(jié)來看，示例之間的排版、結(jié)構(gòu)、標(biāo)簽統(tǒng)一性、分割符等都能顯著影響結(jié)果，而找到 “ 最優(yōu)格式 ” 往往需要大量試驗和經(jīng)驗。

在更宏觀層面，涉及用戶定位、功能框架、流程與 UI 等多個維度時，需要為每個層面提煉關(guān)鍵結(jié)構(gòu)內(nèi)容。但這些內(nèi)容如何抽象成 prompt 示例并串聯(lián)起來？目前仍缺乏清晰方法論。

最后，大模型在 ICL 中往往傾向使用 “ 捷徑 ”（比如表面模式或標(biāo)簽關(guān)聯(lián) ），而非真正理解多領(lǐng)域深層邏輯。這種 shortcut behavior 使得 prompt 構(gòu)造更加敏感脆弱。這種走捷徑的現(xiàn)象也是深度學(xué)習(xí)的老問題了。

知危：除了合適的模型、In-Context Learning、微調(diào)之外，據(jù)了解思維鏈、多智能體協(xié)同、重復(fù)采樣投票等方法在降低幻覺方面也有應(yīng)用，這些方法在企業(yè)中的使用效果如何？

甄焱鯤：我們也會借助思維鏈來減少幻覺。在前一段時間接入 MCP 的時候，用得比較多的，也是現(xiàn)在行業(yè)里比較常用的，就是Sequential Thinking MCP Server，也就是序列化思考。我們也會去模仿像 Cursor、Roo Code 等對任務(wù)的拆分以及任務(wù)規(guī)劃的方式。

從我們的實(shí)踐來看，確實(shí)能比較好地提升準(zhǔn)確率。因為它能夠更好地從當(dāng)前任務(wù)中發(fā)現(xiàn)更多問題，并將實(shí)踐過程中可能缺失的環(huán)節(jié)補(bǔ)充上去，畢竟有時候用戶下的指令是比較粗糙的。

讓大語言模型把粗糙的指令轉(zhuǎn)化成 step-by-step 的詳細(xì)指令和任務(wù)，帶來的價值是毋庸置疑的。而且現(xiàn)在網(wǎng)上有很多開源項目，比如 Roo Code、Cline，這些是做軟件工程的 AI Agent 插件，比如 VSCode 上的插件。我們也會去參考它們的源碼，因為里面很多工程上的處理細(xì)節(jié)和提示詞工程的細(xì)節(jié)，都是非常值得我們借鑒的。

通過多智能體協(xié)同來降低幻覺，比如一個模型輸出，另一個模型評判，這種方式的幻覺緩解效果其實(shí)一般。

比如我們在使用 DeepSeek 的大語言模型進(jìn)行代碼生成的時候，如果用 reasoning 模型（ DeepSeek R1 ）和它的基座模型（ DeepSeek V3 ）進(jìn)行對比，會發(fā)現(xiàn)生成質(zhì)量有明顯差異，生成偏好也不一樣。不同模型的偏好不同，這就會導(dǎo)致一個問題：到底什么樣的偏好才是對的？這在不同的具體業(yè)務(wù)場景下有不同的答案。

比如我們之前在實(shí)踐中發(fā)現(xiàn)，在對一些代碼進(jìn)行 fix 的時候，用 DeepSeek 的基座模型，而不是 reasoning 模型，效果在某些情況下反而更好。因為 reasoning 模型有時候會把一些簡單問題復(fù)雜化，浪費(fèi)大量 token 和時間去 “ 思考 ”，但生成的結(jié)果可能還是差強(qiáng)人意。

單個模型重復(fù)采樣后再做投票這種方法其實(shí)和多智能體方法是類似的。不管是多智能體，還是重復(fù)采樣投票，除非它在工程上能提升整體的并發(fā)性能和效率，否則意義不大。

因為現(xiàn)在很多模型本身就是 MoE（ Mixture of Experts ）結(jié)構(gòu)，這些模型內(nèi)部已經(jīng)在進(jìn)行采樣、投票、打分，調(diào)用不同的專家來解決問題。其實(shí)也可以把它看作是一個多智能體系統(tǒng)。比如最新的千問模型 Qwen3，在發(fā)布新版本時也說會把多智能體機(jī)制集成到模型內(nèi)部。

這應(yīng)該是一個技術(shù)趨勢。因為在訓(xùn)練大語言模型時已經(jīng)花費(fèi)了大量數(shù)據(jù)，如果在訓(xùn)練過程中能保持一定的多樣性，那么在輸出階段，通過一些數(shù)學(xué)上的優(yōu)化手段去利用這種多樣性，讓它在最終結(jié)果中發(fā)揮價值，不管是多采樣、多智能體還是多專家機(jī)制，最終都能在結(jié)果的有效性上帶來比較好的價值。

從長遠(yuǎn)來看，模型的發(fā)展更傾向于把多智能體的能力集成化，尤其是在商業(yè)模型中，以提升整體對外服務(wù)效率。

而對于開源模型，現(xiàn)在有一個比較明顯的趨勢，就是模型參數(shù)量在變小，但性能反而在提升，將更多用于實(shí)現(xiàn)多智能體、多模型并發(fā)推理。

比如假設(shè)一個 1B 到 3B 的模型，它可以達(dá)到傳統(tǒng) 32B 甚至 70B 模型的效果，就可以用于在設(shè)備端并行地進(jìn)行推理。這時候可以把一些任務(wù)拆分給在某個特定領(lǐng)域表現(xiàn)比較好的專業(yè)小模型去處理。

最典型的例子是 Command R，它是最早用于命令行操作電腦的優(yōu)秀模型。比如有一個編程任務(wù)，拆分后有些任務(wù)需要在命令行操作，比如初始化環(huán)境、批處理文件操作等，這時可以把這些任務(wù)分發(fā)給 Command R 這類模型去處理。

知危：Cursor、Roo Code 等對任務(wù)的拆分以及任務(wù)規(guī)劃的方式有哪些特點(diǎn)？

甄焱鯤：Cursor 的任務(wù)拆分與規(guī)劃最大的特點(diǎn)是原子化任務(wù)（ Atomic Planning ）。Cursor 強(qiáng)調(diào)把大的開發(fā)任務(wù)拆分成 “ 小勺子 ” 級別的小任務(wù)，每個任務(wù)聚焦當(dāng)前相關(guān)文件和指令，避免信息過載和上下文混亂，并嚴(yán)格按必要的順序執(zhí)行子任務(wù)。在分配任務(wù)時明確指令，如 “ 重構(gòu) calculateTotal() 函數(shù)以支持貨幣精算 ”，減少歧義。

Roo Code 也有類似的任務(wù)拆分與規(guī)劃框架，它還支持多種模式，比如 Architect 負(fù)責(zé)規(guī)劃與設(shè)計，Code 負(fù)責(zé)實(shí)施，Ask 負(fù)責(zé)解答與輔助。這些模式可以自由切換，任務(wù)拆分后可按階段委派給最合適的模式。

知危：除了事實(shí)性的幻覺，目前推理模型中的思維鏈 “ 幻覺 ” 也受到了很多關(guān)注。比如推理過程和結(jié)論無關(guān)，推理方式不符合人類邏輯，重復(fù)推理、無效推理等。這些幻覺對企業(yè)應(yīng)用的影響如何？

甄焱鯤：影響比較大。拿 Cursor 來說，它經(jīng)常會在思維鏈中說：“ 我覺得這個問題是什么？所以我要嘗試什么？” 然后思維鏈產(chǎn)生的結(jié)果可能是錯的。錯了之后它又說類似的話，結(jié)果可能又返回上一步錯誤，陷入死循環(huán)。很多時候我從程序員視角可以直觀發(fā)現(xiàn)問題，但模型卻不知道哪里出錯，也無法做出有效修改。

本質(zhì)上，現(xiàn)在大語言模型并不具備真正思維能力，它還是一種機(jī)械的模仿。

做軟件的時候，經(jīng)常有個不恰當(dāng)?shù)谋扔鳎喝绻粋€東西走起來像鴨子，看起來像鴨子，叫起來像鴨子，那它就是鴨子。但事實(shí)上這是不對的，而現(xiàn)在的大語言模型做的事情就是這樣。

當(dāng)模型參數(shù)量足夠大，訓(xùn)練數(shù)據(jù)也足夠多時，我們會覺得它好像在思考，因為預(yù)測下一個 token 的準(zhǔn)確率比較高。維特根斯坦的相關(guān)理論也說明了語言和思維是直接相關(guān)的，我們無法超越語言去表達(dá)思維。

大語言模型通過大量語言資料訓(xùn)練，它的參數(shù)在一定程度上可以看作是固化的思維，也就是一些套路。這些套路能夠解決重復(fù)出現(xiàn)的問題，但無法解決新問題。當(dāng)套路無效時，模型仍會根據(jù)概率硬套這些套路，導(dǎo)致錯誤產(chǎn)生。

這是一個容易和 “ 幻覺 ” 混淆的點(diǎn)，即 “ 錯誤 ”。

重構(gòu)軟件工程項目時遇到這類問題的概率比較高。因為模型沒有真正的全局思維，導(dǎo)致它在分析、推理和規(guī)劃時，更多是在局部最優(yōu)的層面解決問題。

這些錯誤并不是上下文長度的限制造成的。雖然上下文有限制，但推理時輸入和內(nèi)部權(quán)重參數(shù)之間會相互影響。即使給它更長、甚至無限的上下文，由于大語言模型算法架構(gòu)和訓(xùn)練數(shù)據(jù)、方法的局限，注定還是會出錯。

所以，哪怕推理模型引入了強(qiáng)化學(xué)習(xí)和思考能力，也只是有所提升，因為它會把以前生硬的直接概率，變成一系列反復(fù)驗證后的間接概率，從而提升準(zhǔn)確率。

具體而言，其實(shí) AI 的思考就是在檢索和重復(fù)驗證，只是效率和準(zhǔn)確率比人類更高，所以它很適合做科研。有一篇比較有影響的論文 “ Do Two AI Scientists Agree? ”，講 AI 怎么從零開始發(fā)現(xiàn)大量物理定理。實(shí)際上你會發(fā)現(xiàn) AI 能發(fā)現(xiàn)的物理定律，都是一些重復(fù)性的事情。

當(dāng)然，這并不是影響 AI 應(yīng)用的最關(guān)鍵問題。假設(shè)現(xiàn)在 AI 可以解決百分之七八十的問題，那剩下的百分之二三十的問題，暫時不做 AI 應(yīng)用就行，這并不影響 AI 的推廣。因為這個世界上發(fā)生的很多事情，百分之七八十甚至九十以上都是重復(fù)的。這些重復(fù)的事情，用結(jié)構(gòu)化的思維、固化的思維去理解和解決是沒有問題的。

知危：可否對上述方法和經(jīng)驗做一個總結(jié)性描述？

甄焱鯤：其實(shí)要減少幻覺，在實(shí)踐中更多是想辦法把人類的先驗經(jīng)驗集成到 agent 和 AI 應(yīng)用鏈路里，做有效約束。這方面有各種方法，比如通過規(guī)則方式做硬性約束，也可以訓(xùn)練強(qiáng)化學(xué)習(xí)模型，讓它學(xué)到人類策略或有效策略來做約束。這些手段無非就是告訴大語言模型要干什么，并且在執(zhí)行過程中做一些過程性干預(yù)。

最重要的原則，是 “ 以終為始 ”，要從 “ 想讓 AI 解決的問題定義 ” 入手。很多時候 AI 有效，是因為我們已經(jīng)能夠清晰明確地定義 AI 要做什么事情。

先對問題的復(fù)雜度進(jìn)行分級：越復(fù)雜、抽象的問題，就應(yīng)該用越多的權(quán)重參數(shù)、算力，以及更多的輔助手段來更好地解決它；而越簡單、越具象的問題，可能反而適合參數(shù)更少的模型，配合更硬的約束手段。所謂“更硬的約束手段”，比如模型的微調(diào)就是最硬的手段，其次是 LoRA，再次是 RAG，最后是 In-Context Learning。

順著這個梯度去選模型和約束方式，就能找到一個合適的組合。

還有一個折中原則是，如果在解決過程中發(fā)現(xiàn)無論多強(qiáng)大的大模型、多好的算法工程或者輔助工程都解決不了這個問題，那就不要什么事都端到端解決，可以把部分問題環(huán)節(jié)用傳統(tǒng)軟件工程或算法工程解決，把它們組合成一個混合（ hybrid ）的架構(gòu)和工程。

如果讓 AI 解決的問題本身不適合 AI，或者問題非常復(fù)雜，那么無論做多大努力，它能達(dá)到的結(jié)果一定是差強(qiáng)人意的。

三、正確理解幻覺

知危：既然幻覺問題造成了那么多困難，也需要如此多手段來緩解，那么如何理解企業(yè)大規(guī)模應(yīng)用大語言模型、取代傳統(tǒng)機(jī)器學(xué)習(xí)方法的意義所在？

甄焱鯤：理論上來說，除了文本生成領(lǐng)域外，大語言模型在其它領(lǐng)域的應(yīng)用越來越多了。但在決策推理、復(fù)雜規(guī)劃等任務(wù)上，傳統(tǒng)機(jī)器學(xué)習(xí)算法還是更有優(yōu)勢。

結(jié)合近期大語言模型、視覺模型也在結(jié)合典型傳統(tǒng)機(jī)器學(xué)習(xí)方法比如強(qiáng)化學(xué)習(xí)的趨勢，表明傳統(tǒng)機(jī)器學(xué)習(xí)算法的優(yōu)勢是大語言模型無法替代的。但大語言模型的優(yōu)勢是，它可以低成本地做到傳統(tǒng)機(jī)器學(xué)習(xí)算法能做的六七成的水平，這才是本質(zhì)。

比如做數(shù)據(jù)分析，可以用傳統(tǒng)機(jī)器學(xué)習(xí)算法做統(tǒng)計分析、回歸等，來找到數(shù)據(jù)背后的模式，然后根據(jù)學(xué)到的模式做預(yù)測。甚至在一些特殊領(lǐng)域，可以通過擬合的方式刻意提高準(zhǔn)確率，但是這樣做成本比較高，門檻也比較高，涉及數(shù)據(jù)處理、算法設(shè)計、模型訓(xùn)練、評估，再到軟件工程的部署等。

相比之下，使用大語言模型的話，只需要把某一個時間段的數(shù)據(jù)，直接丟給大語言模型分析結(jié)果。畢竟現(xiàn)在大語言模型的 context 已經(jīng)很長，很容易處理這類數(shù)據(jù)，如此成本就很低。雖然分析結(jié)果還有各種局限性，但對于很多日常工作的場景已經(jīng)能滿足。

至于成本具體能降到什么程度，還是要看最終的場景需求。比如分析短期的數(shù)據(jù)，而且這些數(shù)據(jù)可以被大語言模型的 context 覆蓋，那它的成本幾乎為零。

如果數(shù)據(jù)量比較大，就需要通過 MCP或 agent 開發(fā)框架，把數(shù)據(jù)接入到大語言模型里面，可能還需要對數(shù)據(jù)做預(yù)處理，比如Pandas等傳統(tǒng)的機(jī)器學(xué)習(xí)框架和數(shù)據(jù)框架，其實(shí)已經(jīng)具備一定的 AI 能力了。

目前我們?nèi)ラ_發(fā)一個 AI Agent 來解決這些問題，跟傳統(tǒng)的軟件工程比如算法工程、數(shù)據(jù)工程、軟件工程等模塊對比下來，開發(fā)工作量只有原始工作量的百分之二三十左右。

知危：從技術(shù)人員的視角理解幻覺，有哪些不同的體會？

甄焱鯤：在當(dāng)前這個大環(huán)境下，對程序員跨領(lǐng)域能力的要求比較高。所以從我作為技術(shù)人員的角度來看，在這個過渡階段，AI 編程帶來的收益更容易讓程序員接受，上手的速度比較快，這也是為什么像 Cursor 這類工具會這么火。

背后最本質(zhì)的原因是，程序員本身懂技術(shù)，在學(xué)習(xí)或了解 AI 并不難的情況下，知道該怎么提問題或者怎么下達(dá)指令。而其他領(lǐng)域的人，比如 HR、行政、財務(wù)等在使用 AI 的時候，很多時候最大的挑戰(zhàn)是他們不具備相關(guān)知識，導(dǎo)致沒辦法提出有效的問題。提出正確的問題或?qū)懗龊线m的提示詞，其實(shí)門檻還是比較高的。

我們現(xiàn)在使用的大部分大語言模型，都是指令跟隨版本，只要指令優(yōu)化得足夠好，大語言模型犯錯、也就是產(chǎn)生所謂幻覺的概率和可能性，其實(shí)是非常低的。

從長遠(yuǎn)來看，其實(shí)幻覺的存在是相對的。如果你不知道，或者你無法判斷的情況下，你就不知道它產(chǎn)生的結(jié)果到底有沒有幻覺，畢竟現(xiàn)在 AI 胡說八道的時候語氣還是一本正經(jīng)的。但最終到底由誰來評估 AI 生成有沒有幻覺？還得是人類使用者，這時可能需要更專業(yè)的或其他領(lǐng)域的使用者來判斷。

知危：有些研究會把幻覺做一些類型劃分，探討了事實(shí)性數(shù)據(jù)和系統(tǒng)性數(shù)據(jù)的區(qū)別。系統(tǒng)性數(shù)據(jù)比如 1 + 1 = 2，事實(shí)性數(shù)據(jù)比如 “ 小明在 2025 年出生 ”，并提出事實(shí)性數(shù)據(jù)更容易出現(xiàn)幻覺。您對此有什么看法？

甄焱鯤：從我的視角看，早期大語言模型或一些傳統(tǒng) NLP 算法確實(shí)存在這類問題，但我覺得現(xiàn)在比較新的大語言模型架構(gòu)、訓(xùn)練數(shù)據(jù)處理、指令微調(diào)方式，已經(jīng)在很大程度上避免了這些問題。

目前模型技術(shù)在事實(shí)性產(chǎn)生錯誤的概率相對較小。據(jù)我了解，模型并不會生硬地去記憶事實(shí)性數(shù)據(jù)。

大語言模型出錯的一個典型例子是它不知道 “ 9.9>9.11 ”，本質(zhì)原因是模型內(nèi)部并沒有進(jìn)行真正的數(shù)值計算。

不管是事實(shí)性數(shù)據(jù)還是系統(tǒng)性數(shù)據(jù)，都是一個概率計算問題。比如訓(xùn)練數(shù)據(jù)里有 “ 1 + 1 = 2 ”，但大語言模型并不是直接知道 “ 1 + 1 = 2 ”，而是基于概率。

本質(zhì)上，它是基于統(tǒng)計概率，而不是邏輯計算。

如果想真正理解幻覺本身，和產(chǎn)生的根本原因，必須了解模型的技術(shù)細(xì)節(jié)，比如大模型訓(xùn)練時在做什么（涉及前饋網(wǎng)絡(luò)、注意力機(jī)制、query 機(jī)制等），推理時在做什么，我們干預(yù)它時它又在做什么。

知危：您在前面所表述的大模型永遠(yuǎn)無法完全解決的 “ 錯誤 ”，有什么具體的理論依據(jù)呢？

甄焱鯤：新加坡國立大學(xué)發(fā)表的論文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”，通過形式化定義 “ 幻覺 ” 并借助學(xué)習(xí)論證指出，LLMs 無法學(xué)習(xí)所有可計算函數(shù)，因此 “ 幻覺 ” 是固有而不可完全消除的。

另一項研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停機(jī)問題為基礎(chǔ)，指出幻覺是 LLM 必然會產(chǎn)生的結(jié)構(gòu)性產(chǎn)物，不論模型大小、數(shù)據(jù)多么豐富，都無法根除。

早期的研究從理論上證明了 Transformer 的圖靈完備性，但都基于諸如無限精度和任意強(qiáng)大的前饋計算能力等假設(shè)。

而對于有限精度和有限前饋網(wǎng)絡(luò)計算能力的 Transformer 架構(gòu)（也是更符合現(xiàn)實(shí)情境下的設(shè)置），其在理論上相當(dāng)于常深度閾值電路（ TC0 ）的計算能力（參考論文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” ），這說明它們只能處理相對簡單的語言模式，面對更復(fù)雜、高組合深度的問題時力不從心。比如在多步推理組合任務(wù)中，如乘法、邏輯網(wǎng)格謎題或動態(tài)規(guī)劃問題，Transformer 模型更多是通過 “ 線性子圖匹配 ” 而非系統(tǒng)性推理來應(yīng)對，隨著任務(wù)復(fù)雜度上升表現(xiàn)迅速衰退。

知危：近期關(guān)于AI幻覺還出現(xiàn)了一些關(guān)于泛化性的研究進(jìn)展，“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻覺的同時也會抑制 LLM 的泛化性。您對此有什么看法？

甄焱鯤：這些成果很有意義。

模型預(yù)測下一個詞本質(zhì)上是概率性的，這可能涉及概率學(xué)的本質(zhì)以及概率在人類社會中的影響。必須存在概率，才能有決策的空間和可能性，進(jìn)而才能具備泛化能力。

就像人一樣，比如我們走路的時候，如果只有一條路，肯定不會走錯，只有當(dāng)有多條路的時候才可能走錯，而新的路能帶來新的可能。這個問題確實(shí)是無法消除的，因為 “ 對 ” 與 “ 錯 ” 本身現(xiàn)在都很難定義。

有一種很有意義的情況，有時我們認(rèn)為 AI 生成的結(jié)果是錯的，只是因為我們不了解、不知道或沒見過這樣解決問題的方式，但它實(shí)際上是對的，這是 AI 創(chuàng)造性的體現(xiàn)。

再比如，大語言模型認(rèn)為這個世界是虛擬的，我們覺得它在一本正經(jīng)地胡說八道，產(chǎn)生了幻覺。但可能過了五十年或一百年，我們通過科學(xué)方法論證了世界是虛擬的，那么這個所謂的幻覺其實(shí)不是幻覺，而是前瞻性的觀點(diǎn)。這有點(diǎn)類似于以前的很多科幻小說、科幻漫畫、科幻電影，里面很多技術(shù)現(xiàn)在都實(shí)現(xiàn)了。那么它到底是不是幻覺？所以關(guān)鍵還是看我們怎么定義幻覺。

所以在對待幻覺這個問題時一定要小心，不能太武斷地認(rèn)為 AI 生成的內(nèi)容沒有現(xiàn)實(shí)依據(jù)就是幻覺。

四、行業(yè)趨勢

知危：目前國內(nèi)業(yè)界對 AI 幻覺風(fēng)險的整體心態(tài)是否過度樂觀？

甄焱鯤：恰恰相反。DeepSeek 是一個分水嶺，在 DeepSeek 出現(xiàn)之前，無論是投資界還是業(yè)界，大家對幻覺帶來的負(fù)面影響都有點(diǎn)過度恐慌。但在 DeepSeek 出來之后，整個行業(yè)包括大眾都被 “ 教育 ” 了。大家對幻覺帶來的影響，以及對幻覺的評估，變得更理性了，有時甚至覺得幻覺是良性的。

具體而言，以前更多是通過新聞報道或?qū)W術(shù)論文了解幻覺的影響，現(xiàn)在大家已經(jīng)開始實(shí)裝大語言模型來解決具體問題，所以會更客觀、更清醒地判斷：哪些場景下幻覺是可以接受的，哪些是不可以接受的；幻覺對不同任務(wù)的影響到底有多大，也能做出更現(xiàn)實(shí)、更準(zhǔn)確的評估。

當(dāng)然，相對來說在某些領(lǐng)域確實(shí)也存在 “ 過度樂觀 ” 的情況，比較明顯的是內(nèi)容創(chuàng)作領(lǐng)域。現(xiàn)在有很多人并不真正了解幻覺是什么。有些人用 AI 輔助創(chuàng)作時，可能會過度樂觀，直接把生成的內(nèi)容公開發(fā)布，而對負(fù)面的影響和后果沒有準(zhǔn)確的理解和預(yù)估。

關(guān)于 “ 過度悲觀 ”，主要是在一些比較嚴(yán)肅的領(lǐng)域，比如科研、工業(yè)制造、軟件工程等場景，很多人會覺得，用大語言模型去解決一個問題，模型思考半天、花了很多錢、用了很多 token，最后也沒解決好，還不如自己解決。而且，在應(yīng)用大語言模型時，本質(zhì)上是某種程度上對自己的替代，這時候很多人會有抵觸心理，進(jìn)而對模型做出過度悲觀或負(fù)面的評價。

知危：AI 編程是否也是一個 “ 過度樂觀 ” 的場景？特別是 Vibe Coding 火起來以后？很多智能體類產(chǎn)品推出得很快、更新頻繁，但在實(shí)際使用中還是會有很多問題，尤其是幻覺的累積和錯誤溯源問題，讓人頭疼。即便 Claude 4 Opus 號稱能連續(xù)工作 7 個小時完成編碼任務(wù)，但仍有人指出其寫出的代碼是難以維護(hù)的。您對此怎么看？

甄焱鯤：現(xiàn)在很多 AI Coding 應(yīng)用的做法其實(shí)還是比較簡單粗暴的，屬于 “ 大力出奇跡 ” 的思路，而且確實(shí)在一定程度上有效。

比如我曾試用一個開源的 AI 編程模型，讓它幫我生成一個 Rust 語言的、用于監(jiān)控當(dāng)前網(wǎng)絡(luò)端口訪問情況的程序。它花了很長時間，大概兩三個小時，才生成出來可編譯的結(jié)果。

它之所以花那么長時間，是因為在不斷檢查編譯器的報錯并修正代碼。但最后我運(yùn)行時發(fā)現(xiàn)還是有問題。因為我用的是 Mac Studio，Apple Silicon 的 ARM 架構(gòu)，它選用的那個庫并不支持這個架構(gòu)，最終導(dǎo)致運(yùn)行出錯。我又讓它繼續(xù)修改，它又花了大概兩三個小時，才把這些錯誤都修正好，最后我才能正常運(yùn)行和執(zhí)行。

但如果是程序員來做這件事，可能很快就能解決。畢竟這就是庫不兼容的問題，對于一般程序員來說并不復(fù)雜。

現(xiàn)在很多生成代碼的方式，還是依賴枚舉各種情況，用各種提示詞和反復(fù)試錯、反復(fù)檢查。這種 “ 大力出奇跡 ” 的方式，也跟前面提到的大語言模型自身的特點(diǎn)有關(guān)，它不能真正思考，還是靠不斷進(jìn)行局部最優(yōu)的生成能力來解決問題。

知危：這種 “ 大力出奇跡 ” 的方法會不會導(dǎo)致 token 消耗過高、成本難以承受？

甄焱鯤：這個問題非常重要。現(xiàn)在其實(shí)大家沒怎么談這個問題。原因是對資本家來說，他們投資了大語言模型供應(yīng)商，正希望 token 被大量消耗，只有這樣供應(yīng)商才能賺更多錢。所以這個問題雖然存在，但往往被有意忽略。

當(dāng)然，有很多開源項目或者行業(yè)里一些比較良心的軟件，比如 Roo Code，就做了很多這方面的優(yōu)化，比如上下文壓縮、token 壓縮，在重復(fù)試錯時會主動停止，不會無限制地耗費(fèi)資源。

反觀一些其它軟件修改代碼時，比如一會說多了個花括號，把它去掉了；編譯不通過，又說少了個花括號，又把花括號加上，然后又反復(fù)修改，重復(fù)了十幾次，實(shí)際上這些重復(fù)一直在消耗資源。如果是用免費(fèi)版還好，用付費(fèi)版的話，這些重復(fù)修改就會一直消耗用戶的錢。

當(dāng)然，這個現(xiàn)象存在一定程度上也是可以理解的。一方面，AI 應(yīng)用還處于非常早期階段，大語言模型還在快速發(fā)展變化，比如 DeepSeek 剛出來不久，廠商們開始大量往模型里加推理能力，強(qiáng)化學(xué)習(xí)也才剛起步，阿里最近才把多 agent 集成到商業(yè)大語言模型里。因此，現(xiàn)在的 AI 使用方式比較粗糙，隨著模型能力穩(wěn)定下來，這些粗糙的使用方式會逐步優(yōu)化和迭代，變得更加精細(xì)。

另一方面，目前 token 價格已經(jīng)被壓低，用戶對價格的敏感度還不是特別高。從應(yīng)用開發(fā)商的角度，也會更多希望用戶能持續(xù)使用，而用戶使用的前提是能幫他們解決問題。在技術(shù)還不夠成熟的情況下，有時 “ 大力出奇跡 ” 的方法是必要的。

知危：對于未來通過底層技術(shù)變革解決或緩解幻覺上，您對哪個方向比較看好？

甄焱鯤：我更傾向于最近生成視頻效果比較好的世界模型這條技術(shù)路線。

世界模型涵蓋更廣、更深，視頻模型只是它的一種應(yīng)用體現(xiàn)，主要用來展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上，產(chǎn)生不同結(jié)果，這背后是模型權(quán)重參數(shù)驅(qū)動生成的。它主要是通過表象展示背后的思維能力，不是簡單的 next token 預(yù)測，而是對事物真正的理解。

世界模型不是單純通過數(shù)據(jù)生硬訓(xùn)練，而是讓模型在訓(xùn)練過程中真正理解數(shù)據(jù)背后代表的概念、原理及它們之間的關(guān)系。

我更希望像訓(xùn)練小孩、培養(yǎng)人類思維成長一樣，讓 AI 構(gòu)建起自己的思維體系。而且這種思維是動態(tài)變化的，能夠適應(yīng)周圍世界的變化。比如這個模型可以部署在端側(cè)，自主瀏覽網(wǎng)頁、使用搜索引擎或查詢數(shù)據(jù)。它還能自主決定是否把瀏覽到的概念或知識更新到自己的記憶里。

這是更偏向于 AGI 的發(fā)展方向。

日本高清在线观看天码888-日本高清在线观看视频www-日本高清在线观看视频-日本高清在线观看-日本高清在线播放一区二区三区-日本高清一区二区三区不卡免费

GPT-5變蠢背后：抑制AI的幻覺，反而讓模型沒用了？

干貨教程更多>>