烏鎮(zhèn)咖薈:AI智能涌現(xiàn)背后的“深黑盒化”問題,我們該如何應(yīng)對?
摘要: 2023年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會圓滿落下帷幕,本屆大會大咖云集,前沿技術(shù)和精彩實踐的展示吸引了世界各地的參會嘉賓,為行業(yè)深度交流提供了舞臺。

2023年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會圓滿落下帷幕,本屆大會大咖云集,前沿技術(shù)和精彩實踐的展示吸引了世界各地的參會嘉賓,為行業(yè)深度交流提供了舞臺。
近些年來,AI成為互聯(lián)網(wǎng)領(lǐng)域最熱門的賽道之一,隨著 ChatGPT等AI大模型的廣泛應(yīng)用,其中的安全問題也愈發(fā)受到關(guān)注。
恰逢世界互聯(lián)網(wǎng)大會契機,浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院、螞蟻集團、第五空間信息科技研究院、正奇書苑、小貝說安全主辦,烏鎮(zhèn)數(shù)字文明研究院承辦“深黑盒化的AI安全風(fēng)險與應(yīng)對”主題咖薈,中國計算機學(xué)會(CCF)理事、副秘書長譚曉生,螞蟻集團副總裁、首席技術(shù)安全官韋韜,浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院研究員薛峰,自媒體“小貝說安全”主編吳小貝,更有信通院、安恒集團、啟明星辰、盤古實驗室、中國移動安全、迪普科技、閃捷信息、美創(chuàng)科技等齊聚烏鎮(zhèn),邀請多位網(wǎng)絡(luò)安全知名專家學(xué)者到場,共同探討AI的安全發(fā)展。
很多人看到“深黑盒化”一詞,自然聯(lián)想到“黑箱理論”或“黑盒效應(yīng)”。通俗來說,就是對某個系統(tǒng)難以徹底看清內(nèi)部結(jié)構(gòu)和運轉(zhuǎn)規(guī)律,只能通過其輸出的內(nèi)容來了解其內(nèi)部,繼而得到一種規(guī)律認知。其實,人工智能的黑盒效應(yīng)由來已久。因為當(dāng)前宇宙時空對人類而言,就是一個巨大的黑箱。而智能和意識,更是被視為所謂的“上帝領(lǐng)域”。
談及近年以ChatGPT為代表的AI大模型所產(chǎn)生的智能涌現(xiàn),中國計算機學(xué)會(CCF)理事、副秘書長譚曉生表示,作為機器學(xué)習(xí)到深度學(xué)習(xí)的產(chǎn)業(yè)實踐者,他仍然對大模型所表現(xiàn)出的智能水平感到非常驚喜。“AI已經(jīng)到了一個引爆點(Tipping Point)”,譚曉生說道,“或許是硅基文明和碳基文明的一個轉(zhuǎn)折點。”
螞蟻集團副總裁、首席技術(shù)安全官韋韜認為,ChatGPT改變了人對人工智能的認知。在此之前,很多行業(yè)專家都認為大模型不是智能,而是本能或者是技能,因為它不會推斷因果,不會舉一反三。
韋韜介紹,科技從業(yè)者在2021年訓(xùn)練模型時發(fā)現(xiàn),經(jīng)過更長時間的訓(xùn)練后,模型突然從僅僅“記住”之前的訓(xùn)練數(shù)據(jù),轉(zhuǎn)變?yōu)樵谖匆娺^的輸入上表現(xiàn)出正確的“泛化”能力,特別是ChatGPT出現(xiàn)以后,帶來了一個本質(zhì)的變化:第一次讓人看到人類以外系統(tǒng)化的舉一反三的能力。
“AI越來越像人,具備了翻譯、回郵件、聊天、寫詩、作畫、寫代碼等等接近于人類的能力。但是‘算法熵’原理之下,GPT工作是有‘上界’的,對它的優(yōu)化求解是無止境的。我們對大模型做了一個測試,發(fā)現(xiàn)很多時候它們在給出錯誤回答的時候,根本不知道自己是錯的,而且在人類指令反復(fù)的追問下,它會根據(jù)人類的引導(dǎo)給出想要的答案,就好像大模型也具有‘表演型人格’、‘回避型人格’等精神分裂的病癥。”
在韋韜看來,大模型這一系列“精神分裂”的病癥表現(xiàn),都指向了AI的同一個問題:深黑盒化,也就是AI大模型分析決策的不可知性。
傳統(tǒng)的“機器人三定律”(機器人不能傷害人類;它們必須服從于人類;它們必須保護自己)已經(jīng)不適用于大模型時代的AI,大模型通過量變產(chǎn)生了質(zhì)變,使得今天的AI成為了深黑盒AI。
黑盒意味著某種不可知,如譚曉生所說,因為未知,人們才恐懼。對深黑盒化AI輸出的不確定性,會影響對深黑盒化AI的使用。
作為螞蟻集團首席技術(shù)安全官,韋韜密切關(guān)注AI大模型安全問題,他表示深黑盒化AI大模型帶來了三大新挑戰(zhàn):
第一層,認知一致性對齊。這是AI自身的素質(zhì)能力的要求,包括內(nèi)在一致性對齊和外在一致性對齊兩個方面。
內(nèi)在一致性對齊包含邏輯體系自洽,數(shù)學(xué)能力自洽,知識體系自洽。外在一致性對齊包含事實對齊、世界觀對齊、價值觀對齊。就像現(xiàn)在大模型會胡說八道,但它不知道自己不知道,所以第一層是自己對自己的認知;
第二層,決策白盒化。對事物的判斷要是白盒化的,不能憑空做出決策。而是要清晰區(qū)分確認的、猜測的、虛構(gòu)的和不清楚的對象。
白盒化AI可以通過推理自解構(gòu)來實現(xiàn),就是決策結(jié)論可以分析解釋,包括通過思維鏈技術(shù),讓解構(gòu)后的推理過程符合演繹推理邏輯。同時,解構(gòu)后的內(nèi)容可以被第三方獨立驗證,自動化驗證體系將是深黑盒專業(yè)AI的重要組成,其中包括與知識圖譜、驗證過的“小模型”系統(tǒng)等的聯(lián)動。所以第二層是自己對事的認知。
第三層,交流協(xié)同演進。跨域交流合作是人類科技文明演進的重要加速因素,智能體之間的交流也極為重要且不可避免。無論是人和人還是人和智能體,或者智能體和智能體都需要協(xié)同,這是個通用規(guī)則。
AI Agents一種不錯的智能體和智能體的協(xié)作模式。單個智能體內(nèi)部不同組件的協(xié)作能提供更強的能力,如LLM(大語言模型)、記憶、任務(wù)規(guī)劃以及工具使用能力之間的協(xié)作;多個智能體協(xié)作,可以避免認知分裂,發(fā)揮出更佳效力,比如數(shù)學(xué)家協(xié)同GPT-4成功證明P≠NP。所以第三層是自己在群體間定位和協(xié)同的認知。
薛峰也表達了對深黑盒化AI的擔(dān)憂,他把目前的安全問題分為三類:
第一類,算法可解釋性問題。大模型是數(shù)據(jù)驅(qū)動深度學(xué)習(xí)的產(chǎn)物,其內(nèi)部推理的過程非常難以理解,尤其是極深的模型層級和海量的模型參數(shù),導(dǎo)致我們無法理解其工作原理,繼而無法信任和控制,破壞了可用性;
第二類,算法內(nèi)生安全問題。目前攻擊大模型方法相當(dāng)多,包括數(shù)據(jù)投毒、后門攻擊、對抗樣本攻擊、成員推斷攻擊、提示詞注入攻擊等,這破壞了保密性、可用性、完整性,可能導(dǎo)致模型拒絕服務(wù)、用戶隱私泄露、模型參數(shù)泄露等問題;
第三類,使用過程中安全性問題。大模型也可用來作惡,如生成釣魚郵件、挖掘系統(tǒng)漏洞、生成虛假內(nèi)容等,這破壞了抗抵賴性、真實性、可核查性。
自媒體“小貝說安全”主編吳小貝則介紹了深黑盒化AI引發(fā)的輸入型與輸出型數(shù)據(jù)安全問題。輸入型數(shù)據(jù)安全問題主要體現(xiàn)在,多模態(tài)、大批量輸入信息,會被AI收集存儲。據(jù)統(tǒng)計,用戶在使用LLM(大語言模型)時,出現(xiàn)了輸入企業(yè)商業(yè)秘密和內(nèi)部數(shù)據(jù)、個人信息、軟件代碼和敏感圖片等情況,導(dǎo)致敏感數(shù)據(jù)和個人隱私泄露。
輸出型數(shù)據(jù)安全問題重點體現(xiàn)在,AIGC及其平臺服務(wù)有意或無意都會產(chǎn)生輸出型的數(shù)據(jù)安全問題,比如輸出反人類反社會的有害信息、侵權(quán)信息、虛假信息、數(shù)據(jù)泄露以及犯罪知識和工具內(nèi)容等。AIGC平臺不但正常狀態(tài)下由于訓(xùn)練集或模型原因,可能會產(chǎn)生此類問題,還可能會根據(jù)用戶類型和來源等信息,有針對性地產(chǎn)生輸出型數(shù)據(jù)安全問題內(nèi)容。
提出問題正是為了解決問題。人類對于AI,早就有了很多狂熱的幻想,并以此誕生了許多文學(xué)影視作品。而相關(guān)作品中,機器智能往往走向失序,帶來災(zāi)難,這也在一定程度上反映了現(xiàn)實,反映了人們對AI、AI大模型帶來的倫理、數(shù)據(jù)安全和隱私泄露等問題的憂慮。
譚曉生表示,我們應(yīng)該有開放的心態(tài)來面對這些挑戰(zhàn),積極尋找解決問題的方法,而不是出于恐懼而否定。比如在公平性層面,人類社會歷經(jīng)這么多年仍然在為營造一個相對公平的社會而努力,為何要對AI做公平性的苛求?需要的是設(shè)置相關(guān)機制,能不斷對齊AI的倫理標(biāo)準(zhǔn)與人類的倫理標(biāo)準(zhǔn),不讓它產(chǎn)生太大的偏差。同樣,數(shù)據(jù)安全問題與隱私泄露,在大模型出現(xiàn)之前已經(jīng)出現(xiàn),是當(dāng)今社會數(shù)字化轉(zhuǎn)型中遭遇的問題,它的解決也相當(dāng)復(fù)雜,相關(guān)的立法已經(jīng)陸續(xù)出臺,具體的保護技術(shù)、產(chǎn)品、體系還在完善過程中。
如何將人工智能盡可能地圈于安全地帶,且又不制約其為人類造福的技術(shù)演進,是行業(yè)需要思考的問題。
而負責(zé)任的人工智能,一直以來是螞蟻集團發(fā)展人工智能的核心,螞蟻集團已經(jīng)展開了多項實踐探索更可靠的AI,并且取得了鼓舞人心的成果,韋韜為現(xiàn)場嘉賓分享了螞蟻集團在AI大模型安全領(lǐng)域的探索與實踐:
構(gòu)建了AIGC模型的對齊評價體系,涵蓋AIGC評測范圍、評測平臺、評測數(shù)據(jù)集、評測數(shù)據(jù)生成等多個維度多能力工作,評測范圍包括安全合規(guī)對齊評測、通用能力對齊評測、質(zhì)量/穩(wěn)定性,推出了螞蟻AI安全檢測平臺、螞蟻算法評估質(zhì)量平臺、大模型評估大模型等評測工具,評測數(shù)據(jù)集包含安全合規(guī)評測集,通用能力、質(zhì)量、穩(wěn)定性評測集……
在跨領(lǐng)域知識協(xié)作層面,螞蟻集團開源了語義增強可編程知識圖譜OpenSPG,對行業(yè)開放知識圖譜技術(shù)能力,助力推動開展大模型和行業(yè)知識圖譜的迭代演進工作。
在AI倫理治理層面,螞蟻集團成立了由首席技術(shù)官和首席法務(wù)官擔(dān)任聯(lián)席主席的科技倫理委員會,將科技倫理融入到公司業(yè)務(wù)和產(chǎn)品生命周期中。還成立了螞蟻集團科技倫理顧問委員會,由7名外部專家構(gòu)成,為螞蟻集團科技倫理建設(shè)給予方向性、戰(zhàn)略性、針對性的指導(dǎo)建議。
在標(biāo)準(zhǔn)建設(shè)層面,螞蟻集團積極參與TC260生成式AI安全基本要求、人工標(biāo)注、訓(xùn)練數(shù)據(jù)安全、標(biāo)識方法等網(wǎng)絡(luò)安全國家標(biāo)準(zhǔn)和技術(shù)文件制定和討論,貢獻螞蟻生成式AI安全實踐,積極參與《生成式人工智能服務(wù)管理暫行辦法》實施。國際標(biāo)準(zhǔn)方面,結(jié)合螞蟻集團業(yè)務(wù)場景,牽頭在IEEE立項了P3820反欺詐AI系統(tǒng)可解釋能力評估標(biāo)準(zhǔn),探索智能風(fēng)控AI系統(tǒng)透明可解釋能力評估實現(xiàn)路徑。
薛峰也分享了浙江大學(xué)相關(guān)團隊對深黑盒化AI問題的探索與實踐,主要體現(xiàn)在安全標(biāo)準(zhǔn)制定、AI驗評平臺、密態(tài)大模型推理技術(shù)等方面:
參與全國信安全標(biāo)準(zhǔn)化技術(shù)委員會主導(dǎo)的《TC 260人工智能安全標(biāo)準(zhǔn)化白皮書》、《生成式人工智能服務(wù)內(nèi)容標(biāo)識方法》、《生成式人工智能服務(wù)安全基本要求》等制定,截至目前,制定、修訂與研究標(biāo)準(zhǔn)共700余條;建設(shè)了人工智能的防御與驗證評測平臺、人工智能系統(tǒng)公平性評估平臺,用于對模型進行安全性測試;建設(shè)密態(tài)大模型推理技術(shù),即融合安全多方計算等密碼學(xué)技術(shù),對模型的輸入進行保護,讓模型的推理和結(jié)果都處于密態(tài)環(huán)境進行,進而保障輸入的數(shù)據(jù)。
五年前第四屆世界互聯(lián)網(wǎng)大會開幕式上,蘋果公司CEO庫克在談及人與機器的關(guān)系時,說道:“我并不擔(dān)心機器人會像人一樣思考,我擔(dān)心人像機器一樣思考!”
有感情的機器和沒有感情的人,哪個更可怕?當(dāng)智能不再是人類專屬,機器智能同樣擁有創(chuàng)造力,那人還能決定一切嗎?當(dāng)然,這是未來的話題,至少眼下,一切都還是由人來決定。AI安全的關(guān)注者和研究者,也正在成為機器與人類之間安全屏障的締造者與守護者。
正如參會的各位專家分享,因為AI是這個時代的重要生產(chǎn)力,是邁向新世界的小火花,進一步探索AI大模型的本質(zhì),探究智能涌現(xiàn)背后的原理和本質(zhì),用安全來為發(fā)展護航。