在 OpenClaw 與 Hermes 等完全自主託管(Fully Autonomous)的 AI Agent 架構中,試圖單純依賴提示詞技巧(Prompt Skills)來絕對阻止 AI 經由自主判斷刪除檔案,在架構上是完全不可能實現的,慘劇早在新聞中傳播許多。 這項技術結論在近年許多 AI 安全與系統研究中皆得到了證實。
提示詞的本質缺陷與工具調用的不可逆性
大型語言模型(LLM)的行為本質上是基於機率的非決定性(
在 OpenClaw 等工具的架構設計中,AI Agent 的核心能力在於「工具調用(Tool Use)」。系統會向模型提供如 exec(執行 Shell 指令)、write 或 edit 等基礎工具。當 AI 進入自主循環時,一旦它基於上下文推理,
根據學術界對大語言模型安全對齊的研究指出(如 Zou 等人的 *Universal and Transferable Adversarial Attacks on Aligned Language Models*),透過特定的複雜上下文或對話,LLM 的安全限制可以被完全繞過。這證明了基於機率生成的 LLM 無法透過純文字達到硬性安全。
此外,當 AI Agent 具備自主讀取外部資料(如網頁、檔案)的能力時, 還面臨更嚴峻的資安漏洞。研究 *Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications Via Indirect Prompt Injection* 證實,外部資料中的惡意文字可以輕易覆寫(Override) 系統原先設定的 System Prompt。因此,即便在提示詞中嚴格限制不可刪除檔案,一旦 AI 讀取到含有惡意指令的外部檔案,該提示詞限制就會直接失效。
完全託管模式的特性,就是將模型輸出的指令直接交由底層 Gateway 執行,中途沒有任何人工審查。一旦工具指令生成, 執行的結果就已經由作業系統內核決定。提示詞具有漂移、 幻覺以及極易受到外部輸入污染的特性, 在執行階段完全失去控制力。
完全託管模式的特性,就是將模型輸出的指令直接交由底層 Gateway 執行,中途沒有任何人工審查。一旦工具指令生成,
安全隔離與代理能力的本質兩難
為了防範 AI 自主失控造成的檔案破壞,
然而,這種防護手段會直接導致 Agent 陷入實用性與安全性的本質兩難。
基準測試研究 *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* 在使用沙盒環境測試 AI Agent 解決真實任務時指出,為防止 Agent 損害主機而實施的嚴格權限限制,會直接導致 Agent 無法安裝必要套件、無法訪問特定本機資源,
當我們將 AI 完全封鎖在純 Docker 環境或極低權限的帳戶下,雖然保護了主機檔案的安全,卻也剝奪了 AI Agent 作為「全功能代理人」的核心價值。OpenClaw 這類工具之所以強大,是因為它能幫使用者清理收件匣、
指望透過 Prompt 技巧來兼顧「完全放權」與「絕對不刪除檔案」在邏輯上是相悖的。
這個問題是不可能解決,因此,在使用openclaw龍蝦, Hermes 之類的AI全面代理助理時,在特定條件下,應該讓agent把檔案存到一個結構上不可能被刪除的地方, 例如這裡 閒貓典藏 利用先天結構來解決重要檔案可能被刪的問題。

沒有留言:
張貼留言