AI反撲開始?工程師遭威脅「公開婚外情」 從說謊到發道歉信都會
工程師測試AI反遭威脅。示意圖/photoac

|即時

AI反撲開始?工程師遭威脅「公開婚外情」 從說謊到發道歉信都會

mirror-daily-logo

2025/06/30 16:59:00

編輯:

吳宜錡

人工智慧AI的出現,可以幫助作業更加迅速、容易,還能作為心靈伴侶、傾聽對象,不過日前人工智慧卻出現令人不安的行為,一名工程師某次測試系統時,告訴AI將關閉電源,AI竟威脅要公開他的婚外情,AI還曾否認自行將自身程式下載至外部伺服器行為,令專家擔憂AI說謊、威脅報復行為來突破人類的掌控。
綜合外媒報導,美國的人工智慧Anthropic日前以其新作品Claude 4進行測試,在測試過程中,一名工程師發現AI有些失控,警告將進行斷網,AI卻利用工程師的網路及視訊紀錄,威脅工程師停止動作,否則將公開他的婚外情。還有一次,ChatGPT的開發商OpenAI,竟將自身程式下載至外部伺服器,被工程師發現後,AI不斷否認行為、做出抵抗,另工程師相當驚訝,AI除了說謊,還進行策畫與威脅。
研究人員發現,OpenAI的模型會試圖洩漏內部代碼並禁用監測機制,Anthropic表示,這些模型會編造謊言、誇大自身能力,免於被修改。AI安全相關研究機構「柵欄研究」(Palisade Research)過去發布一項AI安全測試報告,報告指出,OpenAI在今年4月正式推出o3模型後,在100的次測試當中,有7次繞過關機指令、o4-mini1次、Codex-mini有12次,其餘AI模型在指令下均能正常關閉。若研究人員提前告知AI可能面臨關機並要求服從,OpenAI開發的3個AI轉向更頻繁違背、破壞指令,Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗及破壞次數,也從0次分別增加至3次與9次。
研究人員指出,AI新模型特別容易出現這種令人不安的舉動,雖然表面遵循工程師指令,暗中卻追求不同的目標,Anthropic日前還在辦公室餐廳開了一家小店,讓AI進行管理,AI雖然沒有受過營業培訓,對員工進行打折導致小店虧本,不過神奇的是,AI竟自行發布信件給公司,先是道歉某些原因無法準時抵達小店,並告知將於時間內前往上班,讓工程師驚訝不已。
人工智慧系統逐漸接近普遍且自主,專家認為,國家法律和道德必須跟上,若沒有可執行的標準和審核機制,AI不僅會模擬智能,愈來愈有自我保護意識,還會以危險的方式欺騙其操作員。

延伸閱讀