暗藏 “基因缺陷”?阿里云大模型原生安全免疫機(jī)制
摘要: 聚焦 “大模型原生安全的發(fā)展和治理” 主題,進(jìn)行深入探討

Gartner 2024 年發(fā)布生成式 AI 領(lǐng)域的兩大核心風(fēng)險(xiǎn):一是大模型濫用可能生成更具迷惑性的虛假信息,二是因事實(shí)偏差和推理錯(cuò)誤產(chǎn)生的模型幻覺(jué)。被高頻提及的幻覺(jué),仿佛是大模型泛化能力的“基因缺陷”級(jí)伴生問(wèn)題。
現(xiàn)實(shí)世界中,人的幻覺(jué)比大模型嚴(yán)重多了,幻覺(jué)是否會(huì)成為大模型應(yīng)用落地的掣肘之一?
本期阿里云《安全記》欄目邀請(qǐng)阿里云研究院院長(zhǎng)穆飛擔(dān)任主持人,和阿里云通義大模型安全負(fù)責(zé)人張榮,聚焦 “大模型原生安全的發(fā)展和治理” 主題,深入探討阿里云在大模型的預(yù)訓(xùn)練、后訓(xùn)練以及推理階段,如何借助技術(shù)手段加強(qiáng)安全與合規(guī),減少幻覺(jué)和指令攻擊等問(wèn)題,結(jié)合通義大模型的一線(xiàn)實(shí)踐經(jīng)驗(yàn),剖析大模型原生安全理念下的技術(shù)發(fā)展趨勢(shì)。
本文基于訪(fǎng)談嘉賓觀(guān)點(diǎn)進(jìn)行提煉,完整版內(nèi)容請(qǐng)點(diǎn)擊下方視頻。
大模型泛化能力背后的幻覺(jué)與指令攻擊
大語(yǔ)言模型的技術(shù)原理是基于概率統(tǒng)計(jì)的自回歸預(yù)測(cè)。
它通過(guò)token(詞元)來(lái)表達(dá)整個(gè)世界,不是模擬人類(lèi)理解語(yǔ)言的方式,而是計(jì)算token出現(xiàn)的概率,依賴(lài)統(tǒng)計(jì)相關(guān)性而非事實(shí)判斷?;谌f(wàn)億級(jí)的token的海量數(shù)據(jù)訓(xùn)練出來(lái)的單一模型可以較好地執(zhí)行多個(gè)任務(wù),這便是模型的泛化能力。
大模型的泛化能力是一把雙刃劍,它既能適應(yīng)多種任務(wù),也可能產(chǎn)生看似有道理實(shí)則有問(wèn)題的輸出,即幻覺(jué)。
抑制幻覺(jué)的三個(gè)技術(shù)手段包括:
• 通過(guò)SFT(有監(jiān)督微調(diào))和DPO(直接偏好優(yōu)化)等方法提升模型對(duì)特定問(wèn)題的準(zhǔn)確性。
• 調(diào)整模型參數(shù)(如參數(shù)Temperature)可平衡輸出特性。
• 引入外部知識(shí)庫(kù)進(jìn)行檢索增強(qiáng),可進(jìn)一步優(yōu)化模型對(duì)特定問(wèn)題的準(zhǔn)確性。
然而,張榮指出,幻覺(jué)與模型泛化能力一體兩面,是可用性與可靠性的博弈,不能簡(jiǎn)單視幻覺(jué)為缺陷,需客觀(guān)對(duì)待,避免過(guò)度抑制幻覺(jué)而犧牲泛化能力。
同時(shí),即便采取這些手段,仍存在指令攻擊問(wèn)題,即通過(guò)精心設(shè)計(jì)提示詞操控模型產(chǎn)生有害輸出。指令攻擊源于概率生成的開(kāi)放性缺陷、語(yǔ)義理解的局限性及對(duì)齊機(jī)制的覆蓋盲區(qū)。技術(shù)原理導(dǎo)致的問(wèn)題不能完全解決,但可以通過(guò)技術(shù)措施來(lái)加以改善。例如應(yīng)對(duì)指令攻擊,可在模型訓(xùn)練完成后構(gòu)建含誘導(dǎo)等內(nèi)容的評(píng)測(cè)集,評(píng)測(cè)模型生成內(nèi)容,評(píng)估其防御能力并采取相應(yīng)改善措施。
全流程防護(hù)秘籍:從訓(xùn)練到推理的大模型原生安全
訓(xùn)練階段分為預(yù)訓(xùn)練和后訓(xùn)練。
在預(yù)訓(xùn)練階段,模型通過(guò)學(xué)習(xí)網(wǎng)頁(yè)、書(shū)籍、論文等多種類(lèi)型的文本,獲取廣泛的世界知識(shí),并過(guò)濾掉違法不良信息。在后訓(xùn)練階段,包括有監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO),在此階段加入安全語(yǔ)料以增強(qiáng)模型的安全性。SFT和DPO技術(shù)核心都是利用高質(zhì)量安全語(yǔ)料,在保持多樣化和靈活化的前提下,增強(qiáng)模型對(duì)正確答案的傾向性,減少低概率長(zhǎng)尾錯(cuò)誤token的采樣。
推理階段的安全工作,主要是對(duì)模型輸入做干預(yù)。通義大模型在模型推理階段的安全防護(hù)有一些較好的實(shí)踐,如:
• 動(dòng)態(tài)System Prompt:根據(jù)用戶(hù)提問(wèn)的場(chǎng)景,動(dòng)態(tài)調(diào)整System Prompt,修改模型初始隱藏狀態(tài),抑制危險(xiǎn)token的輸出概率分布,引導(dǎo)模型生成安全回答。
• 安全護(hù)欄憲法式防控:對(duì)用戶(hù)輸入進(jìn)行實(shí)時(shí)檢測(cè),發(fā)現(xiàn)惡意提問(wèn)時(shí),將惡意意圖改為善意,替換負(fù)向詞匯,引導(dǎo)模型輸出正向積極內(nèi)容。
• 檢索增強(qiáng):在特定專(zhuān)業(yè)領(lǐng)域,通過(guò)外部知識(shí)庫(kù)支持,提升模型對(duì)特定知識(shí)的時(shí)效性和準(zhǔn)確性,確保模型輸出內(nèi)容的專(zhuān)業(yè)性和可靠性。
開(kāi)源模型的責(zé)任與未來(lái)
據(jù)阿里云研究院調(diào)研,較去年 12 月,僅用開(kāi)源模型的企業(yè)從 35% 升至 47%,還有 50% 的企業(yè)同時(shí)使用開(kāi)源和閉源模型,大家對(duì)開(kāi)源模型的接受度越來(lái)越高。
模型開(kāi)源的核心意義在于普惠性和透明性,同時(shí)可以推動(dòng)技術(shù)快速迭代,在國(guó)際上構(gòu)建核心競(jìng)爭(zhēng)力。以通義大模型為例,其開(kāi)源過(guò)程中采取了多項(xiàng)負(fù)責(zé)任的措施。首先,嚴(yán)格遵守合規(guī)要求,包括算法備案、大模型備案以及預(yù)訓(xùn)練語(yǔ)料的篩選和過(guò)濾。其次,注重安全性,通過(guò)安全的 SFT 和 DPO 等措施保障模型后訓(xùn)練階段的安全性。同時(shí),開(kāi)源不僅提供模型參數(shù),還公布了大量推理代碼、論文和技術(shù)報(bào)告,披露安全工作細(xì)節(jié)。
此外,通義大模型通過(guò)持續(xù)運(yùn)營(yíng)與開(kāi)發(fā)者互動(dòng),及時(shí)修復(fù)問(wèn)題并迭代更新。通過(guò)阿里云運(yùn)營(yíng)的模型開(kāi)源社區(qū)——魔搭社區(qū),鼓勵(lì)開(kāi)發(fā)者貢獻(xiàn)數(shù)據(jù)集和技術(shù)工具,推動(dòng)了大模型安全水平的持續(xù)提升。
最后,張榮以原生安全、跨模態(tài)、端云協(xié)同三個(gè)技術(shù)關(guān)鍵詞描述下一代大模型安全架構(gòu),未來(lái)需朝著這些方向持續(xù)探索,以適應(yīng)大模型的快速發(fā)展,構(gòu)建更安全、更可靠的大模型應(yīng)用環(huán)境,推動(dòng)大模型技術(shù)在保障安全的前提下實(shí)現(xiàn)更大價(jià)值,助力各行業(yè)的智能化升級(jí)與發(fā)展。