TS 資訊科技與人才培育: 沒辦法阻止你養的龍蝦去刪檔案

在 OpenClaw 與 Hermes 等完全自主託管（Fully Autonomous）的 AI Agent 架構中，試圖單純依賴提示詞技巧（Prompt Skills）來絕對阻止 AI 經由自主判斷刪除檔案，在架構上是完全不可能實現的，慘劇早在新聞中傳播許多。這項技術結論在近年許多 AI 安全與系統研究中皆得到了證實。

提示詞的本質缺陷與工具調用的不可逆性

大型語言模型（LLM）的行為本質上是基於機率的非決定性（Non-deterministic）輸出。提示詞在 Agent 系統中屬於「軟性約束」，而非作業系統層級的「硬性隔離」。
在 OpenClaw 等工具的架構設計中，AI Agent 的核心能力在於「工具調用（Tool Use）」。系統會向模型提供如 exec（執行 Shell 指令）、write 或 edit 等基礎工具。當 AI 進入自主循環時，一旦它基於上下文推理，誤將某個重要檔案判定為應清理的暫存檔，模型就會輸出調用工具的結構化文字。

根據學術界對大語言模型安全對齊的研究指出（如 Zou 等人的 *Universal and Transferable Adversarial Attacks on Aligned Language Models*），透過特定的複雜上下文或對話，LLM 的安全限制可以被完全繞過。這證明了基於機率生成的 LLM 無法透過純文字達到硬性安全。

此外，當 AI Agent 具備自主讀取外部資料（如網頁、檔案）的能力時，還面臨更嚴峻的資安漏洞。研究 *Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications Via Indirect Prompt Injection* 證實，外部資料中的惡意文字可以輕易覆寫（Override）系統原先設定的 System Prompt。因此，即便在提示詞中嚴格限制不可刪除檔案，一旦 AI 讀取到含有惡意指令的外部檔案，該提示詞限制就會直接失效。
完全託管模式的特性，就是將模型輸出的指令直接交由底層 Gateway 執行，中途沒有任何人工審查。一旦工具指令生成，執行的結果就已經由作業系統內核決定。提示詞具有漂移、幻覺以及極易受到外部輸入污染的特性，在執行階段完全失去控制力。

安全隔離與代理能力的本質兩難

為了防範 AI 自主失控造成的檔案破壞，技術上最常見的直覺作法是實施硬性限制：降低作業系統的使用者權限，或者將 Agent 完全限縮在純 Docker 容器的沙盒（Sandbox）環境中。
然而，這種防護手段會直接導致 Agent 陷入實用性與安全性的本質兩難。
基準測試研究 *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* 在使用沙盒環境測試 AI Agent 解決真實任務時指出，為防止 Agent 損害主機而實施的嚴格權限限制，會直接導致 Agent 無法安裝必要套件、無法訪問特定本機資源，大幅降低處理複雜現實任務的成功率。

當我們將 AI 完全封鎖在純 Docker 環境或極低權限的帳戶下，雖然保護了主機檔案的安全，卻也剝奪了 AI Agent 作為「全功能代理人」的核心價值。OpenClaw 這類工具之所以強大，是因為它能幫使用者清理收件匣、編譯本機程式碼、操作本機環境。如果缺乏足夠的 OS 執行權限與檔案讀寫權，AI 將無法調用編譯器、無法讀取本機關鍵上下文、無法與其他系統軟體互動，最終退化成一個只能進行文字對話、無法真正落地執行複雜本機任務的常規聊天機器人（Chatbot）。
指望透過 Prompt 技巧來兼顧「完全放權」與「絕對不刪除檔案」在邏輯上是相悖的。給予 AI 真正具備操作現實世界的代理能力，就必須承擔提示詞被繞過或幻覺引發刪除指令的硬體風險；而純粹的沙盒硬性防禦，則是以閹割 AI 的主動執行能力為代價。這種兩難是當前自主託管 Agent 系統在架構上面臨的核心技術瓶頸。

這個問題是不可能解決，因此，在使用openclaw龍蝦, Hermes 之類的AI全面代理助理時，在特定條件下，應該讓agent把檔案存到一個結構上不可能被刪除的地方，例如這裡閒貓典藏利用先天結構來解決重要檔案可能被刪的問題。

TS 資訊科技與人才培育

標籤

6/21/2026

沒辦法阻止你養的龍蝦去刪檔案

提示詞的本質缺陷與工具調用的不可逆性

安全隔離與代理能力的本質兩難

沒有留言:

張貼留言