顯示具有 AI刪檔案 標籤的文章。 顯示所有文章
顯示具有 AI刪檔案 標籤的文章。 顯示所有文章

6/21/2026

沒辦法阻止你養的龍蝦去刪檔案

 

在 OpenClaw 與 Hermes 等完全自主託管(Fully Autonomous)的 AI Agent 架構中,試圖單純依賴提示詞技巧(Prompt Skills)來絕對阻止 AI 經由自主判斷刪除檔案,在架構上是完全不可能實現的,慘劇早在新聞中傳播許多。這項技術結論在近年許多 AI 安全與系統研究中皆得到了證實。

提示詞的本質缺陷與工具調用的不可逆性


大型語言模型(LLM)的行為本質上是基於機率的非決定性(Non-deterministic)輸出。提示詞在 Agent 系統中屬於「軟性約束」,而非作業系統層級的「硬性隔離」。
在 OpenClaw 等工具的架構設計中,AI Agent 的核心能力在於「工具調用(Tool Use)」。系統會向模型提供如 exec(執行 Shell 指令)、write 或 edit 等基礎工具。當 AI 進入自主循環時,一旦它基於上下文推理,誤將某個重要檔案判定為應清理的暫存檔,模型就會輸出調用工具的結構化文字。


根據學術界對大語言模型安全對齊的研究指出(如 Zou 等人的 *Universal and Transferable Adversarial Attacks on Aligned Language Models*),透過特定的複雜上下文或對話,LLM 的安全限制可以被完全繞過。這證明了基於機率生成的 LLM 無法透過純文字達到硬性安全。
此外,當 AI Agent 具備自主讀取外部資料(如網頁、檔案)的能力時,還面臨更嚴峻的資安漏洞。研究 *Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications Via Indirect Prompt Injection* 證實,外部資料中的惡意文字可以輕易覆寫(Override)系統原先設定的 System Prompt。因此,即便在提示詞中嚴格限制不可刪除檔案,一旦 AI 讀取到含有惡意指令的外部檔案,該提示詞限制就會直接失效。
完全託管模式的特性,就是將模型輸出的指令直接交由底層 Gateway 執行,中途沒有任何人工審查。一旦工具指令生成,執行的結果就已經由作業系統內核決定。提示詞具有漂移、幻覺以及極易受到外部輸入污染的特性,在執行階段完全失去控制力。


安全隔離與代理能力的本質兩難


為了防範 AI 自主失控造成的檔案破壞,技術上最常見的直覺作法是實施硬性限制:降低作業系統的使用者權限,或者將 Agent 完全限縮在純 Docker 容器的沙盒(Sandbox)環境中。
然而,這種防護手段會直接導致 Agent 陷入實用性與安全性的本質兩難。
基準測試研究 *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* 在使用沙盒環境測試 AI Agent 解決真實任務時指出,為防止 Agent 損害主機而實施的嚴格權限限制,會直接導致 Agent 無法安裝必要套件、無法訪問特定本機資源,大幅降低處理複雜現實任務的成功率。

當我們將 AI 完全封鎖在純 Docker 環境或極低權限的帳戶下,雖然保護了主機檔案的安全,卻也剝奪了 AI Agent 作為「全功能代理人」的核心價值。OpenClaw 這類工具之所以強大,是因為它能幫使用者清理收件匣、編譯本機程式碼、操作本機環境。如果缺乏足夠的 OS 執行權限與檔案讀寫權,AI 將無法調用編譯器、無法讀取本機關鍵上下文、無法與其他系統軟體互動,最終退化成一個只能進行文字對話、無法真正落地執行複雜本機任務的常規聊天機器人(Chatbot)。
指望透過 Prompt 技巧來兼顧「完全放權」與「絕對不刪除檔案」在邏輯上是相悖的。給予 AI 真正具備操作現實世界的代理能力,就必須承擔提示詞被繞過或幻覺引發刪除指令的硬體風險;而純粹的沙盒硬性防禦,則是以閹割 AI 的主動執行能力為代價。這種兩難是當前自主託管 Agent 系統在架構上面臨的核心技術瓶頸。
這個問題是不可能解決,因此,在使用openclaw龍蝦, Hermes 之類的AI全面代理助理時,在特定條件下,應該讓agent把檔案存到一個結構上不可能被刪除的地方, 例如這裡 閒貓典藏 利用先天結構來解決重要檔案可能被刪的問題。