一 概述
自2017年Transformer架構誕生,大模型便踏上了迅猛發展的征程。從數量來看,全球大模型創新節奏持續加快。2023年,全球基礎模型數量較2022年實現翻倍增長。2024年,創新活力持續釋放,新增或迭代的基礎模型近百個。據2025年7月世界人工智能大會最新數據顯示,全球已發布大模型總數達3755個,其中中國發布1509個,位居首位;7月31日召開的國務院常務會議審議通過《關于深入實施“人工智能+”行動的意見》,提出要深入實施“人工智能+”行動,推動人工智能在經濟社會發展各領域加快普及、深度融合,形成以創新帶應用、以應用促創新的良性循環。
從技術能力來看,大模型的技術能力邊界不斷拓展。從最初簡單的文本處理,逐步向多模態領域延伸,如今已能實現文本、圖像、音頻等跨模態內容的理解和涌現。目前,已經出現了一批以大模型為基礎、多智能體協作的技術解決方案,正在向通用人工智能快速演進。
從產業應用來看,大模型與傳統產業融合速度顯著加快。自2025年初DeepSeek在全球范圍引發熱潮以來,大模型在政務、醫療、互聯網、教育等垂直領域落地生根,不僅重塑了傳統產業的生產模式與服務形態,更成為數字經濟高質量發展的重要動力。
然而,大模型的迅速發展也帶來了一系列嚴峻的安全問題,貫穿模型的全生命周期。在國務院常務會議中,特別強調要提升安全能力水平,加快形成動態敏捷、多元協同的人工智能治理格局。
二 大模型安全風險分析
隨著大模型技術與產業場景的深度融合,其安全風險已從技術層面延伸至業務全鏈條,既包含內生隱患,也衍生出對物理世界的直接威脅。全面梳理這些風險,并構建系統性防護方案,成為大模型健康發展的關鍵。
從技術層面看,大模型安全風險首先體現在技術本身的“先天不足”,即內生安全問題,包含模型魯棒性差、算法黑箱特性顯著,加之大模型特有的“幻覺”問題。在應用過程中,這些內生安全問題會得以顯現,即衍生安全問題,包括模型誤用、濫用導致的虛假信息泛濫、決策偏差等。這些問題已開始對金融、工業等核心領域的業務連續性構成威脅——例如工業制造中,模型決策偏差可能沿生產鏈路放大,引發連鎖反應甚至業務中斷。
從全生命周期看,安全風險貫穿始終。在模型選型與測試評估階段,開源模型易遭投毒、契合場景需求的系統性安全測試評估方法、測試數據、工具缺失的問題嚴重,傳統的基于規則的判斷模式難精準衡量大模型的安全問題。在模型訓練/微調階段,訓練或微調語料若含違法不良信息等敏感數據會污染模型,缺乏模型安全對齊機制可能導致模型輸出易失控,這也成為了模型在應用過程中風險的最直接根源。在上線服務階段,模型部署依賴的推理框架等軟件環境普遍存在漏洞缺陷,模型魯棒性差、智能體等上層應用防護不完善,可能導致數據泄露等嚴重危害。在更新、下線銷毀階段,緩存數據、臨時文件可能干擾新模型運行,模型文件、權重、緩存等信息則需妥善銷毀。盡管更新下線階段風險暫時沒完全顯現,但隨著技術應用的不斷深入,會在未來呈現出實際危害。
與傳統信息系統安全相比,大模型安全的攻防焦點延續了傳統安全的核心要素——硬件、數據。防火墻、數據泄露防護(DLP)等工具經改造后仍可發揮作用,傳統的“識別-評估-管理-持續改進”的風險管理框架依然適用。但大模型也帶來了新的威脅:如攻擊手段已實現智能化迭代,攻擊者可通過大模型自動演化攻擊模式,突破傳統邊界防護;業務系統的復雜度提升,“云邊端”一體化架構下,一次攻擊可能導致多個業務系統中斷;防護和應對成本大幅攀升,據統計,2023年全球AI網絡安全支出為240億美元,預計2030年增至1330億美元。
此外,大模型安全風險還呈現出多維復雜交織的新態勢。風險載體從傳統硬件、數據擴展至模型、智能體等新對象,數據層面的投毒、對抗樣本有可能造成模型后門植入,或致使推理決策的重大錯誤。模型黑箱、幻覺特性導致內容生成過程中的風險不可預見。智能體因形態多樣、協議不統一、權限控制能力不足,難以用標準化手段防護。同時,在風險檢測評估方面,缺乏統一的標準、工具和動態監控方法。這些都需要新的管理思路和技術手段進行應對。
三 大模型安全“工具箱”
大模型安全“工具箱”作為一套集成全流程安全技術產品和工具的綜合解決方案,以“攻-檢-防”全流程為核心思路,覆蓋大模型生命周期的主要環節,形成了涵蓋“智鑒”大模型安全檢測平臺、“智鉞”大模型安全自動化仿真驗證平臺和“智盾”大模型安全加固防護方案的產品服務矩陣,實現風險“發現-評估-加固-驗證”閉環機制,確保大模型在全生命周期的安全性。
“智鑒”大模型安全檢測平臺聚焦于大模型基礎環境和模型應用過程中輸入輸出內容的安全檢測。大模型基礎環境檢測針對大模型研發和部署環節安全問題,通過代碼掃描、漏洞和軟件成分,發現模型環境的安全風險。模型輸入輸出內容安全檢測重點針對模型接收和產生的內容,包含有害、商業或技術敏感信息。
“智鉞”大模型安全自動化仿真驗證平臺主要用于對大模型提供自動化的安全評估支持。在測試能力方面,支持自動化調用模型接口,無需人工干預即可完成攻擊測試,測試完成后,可自動生成包含測試過程、結果、安全問題及改進建議的評估報告,為應用方提供清晰直觀的結論。在測試數據方面,平臺集成了百萬量級測試數據和近百種攻擊方法模板。同時,還可結合用戶需求,定制化開展數據制作和評估模型建設工作,滿足場景化安全測試需求。
“智盾”大模型安全加固防護方案依托積累的海量大模型安全數據,采用模型微調對齊和安全知識庫增強等手段進行模型對齊防護,提升大模型自身安全能力,同時兼顧大模型原本的通用能力,避免安全加固對模型功能造成負面影響。經實踐驗證,“智盾”方案能顯著提升大模型的安全性能,多個開源大模型被攻擊成功概率下降超過30個百分點,最高超過70個百分點。此外,還支持對大模型進行語意層面的權限控制,防止不同權限人員使用同一套模型的過程中造成的數據未授權訪問問題。
目前,工具箱中的產品已經服務于能源行業多個用戶單位開展大模型安全檢測、防護等工作,特別支撐了煤炭科學研究院太陽石礦山大模型,完成了生成式人工智能服務上線備案工作。
四 結語
未來,大模型、智能體必將與業務生產環節實現更加深度的融合。因此,為推動新技術的深度融合,可通過對場景進行風險分級分類評估的方式,全面梳理并最終形成技術落地的路線圖,再配合技術手段進行檢測、監測、防護,實現大模型、智能體與傳統行業的深度融合。