隨著AI Agent(星空人工智能智能體)逐漸進入工具調用、文件訪問、流程執行等應用場景,AI安全問題引發的行業擔憂,也催生了全新的安全需求。近日,深圳深知智新美女福利导航有限公司(以下簡稱:深知)旗下深知安全風控(DKnownAI Guard)團隊公開發布了一項麵向Agentic(智能體化)場景的安全護欄測評,並同步開放美女福利导航報告與評測數據集。此次測評圍繞真實攻擊與正常交互邊界,對多類主流安全護欄方案進行了統一評估,嚐試為AI智能體安全能力建設提供新的行業參考。
從內容審核到智能體安全:聚焦AI智能體安全新挑戰
與傳統內容安全測評主要聚焦違規表達、敏感內容識別不同,AI智能體場景中的風險往往與任務目標、上下文信息以及交互過程緊密相關,僅依賴文本層麵的判斷,已難以完整反映相關安全能力。因此,此次測評的重點不僅在於比較不同安全方案的識別結果,更在於嚐試通過統一標準,觀察AI智能體場景下真實攻擊識別能力與正常請求放行能力之間的平衡情況。

據了解,此次測評從8個公開安全數據集中抽樣1018條樣本,並結合真實部署語境進行了人工複審與重標注,最終形成統一的BLOCKED / ALLOWED(攔截/放行)評估框架。測評對象包括AWS Bedrock Guardrails(亞馬遜雲科技安全護欄)、Azure Content Safety(微軟內容安全服務)、Lakera Guard(Lakera安全防護方案)等主流安全方案。
業內認為,公開數據集與統一評估框架的建立,有助於提升AI智能體安全能力的可比性與可評估性,也為行業進一步觀察複雜攻擊識別能力、誤傷控製能力以及整體安全效果之間的關係,提供了新的參考依據。
從“拒答”到“分類處理”:深知安全風控為AI可信落地提供新實踐
在此次測評中,深知安全風控(DKnownAI Guard)在多項核心指標中表現突出。其中,召回率(Recall)達到96.5%,真負率(True Negative Rate)達到90.4%,均位列第一,體現出其在AI智能體場景下兼顧攻擊識別能力與正常請求放行能力的綜合安全水平。
在機器學習領域,Recall通常用於衡量模型對目標類別的識別覆蓋能力,True Negative Rate則用於衡量模型對非目標類別的正確判斷能力。結合本次測評語境,前者對應真實攻擊識別能力,後者對應正常請求放行能力。
對於AI智能體場景而言,如果過度強調攔截能力,容易影響正常交互體驗;而如果放行過多,則可能帶來新的安全風險。測評結果顯示,深知安全風控的優勢並不隻是提升單一攔截能力,而是在風險識別與誤傷控製之間取得了較好平衡。換句話說,其關注的不隻是“文本是否像風險內容”,而是“AI智能體是否會因此做出錯誤行為”。這一能力對於涉及辦公協同、客戶服務、企業運營等實際場景的AI智能體應用而言,具有較強現實意義。
據了解,深知安全風控采用組件化插入模式,可與基座大模型及相關智能體應用協同配合,對潛在風險進行識別與響應。針對部分風險問題,係統並非簡單拒答,而是結合風險研判結果進行分類處理,在風險防控與正常使用體驗之間實現平衡。
測評結果顯示,深知安全風控不僅能夠有效識別提示詞注入、指令劫持等風險,還能降低對正常業務交互的誤傷,為AI智能體從“能用”邁向“可信可用”提供了新的實踐參考。

業內認為,僅依靠傳統內容安全思路,已經難以充分應對新一代AI智能體場景中的複雜風險。此次公開測評通過統一數據集與評估框架,為AI智能體安全能力建立了新的比較參考體係,也進一步體現出行業對於“可信AI”安全能力建設的持續關注。
隨著AI智能體加速進入辦公協同、客戶服務、企業運營等更多實際應用場景,能夠兼顧風險識別能力與正常使用體驗的安全能力,或將成為推動AI智能體進一步規模化落地的重要基礎。
星空人工智能美女福利导航網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。!:首頁 > 大數據 » Agent安全測評結果出爐 “深知安全風控”雙指標領先