亚洲精品亚洲人成人网_免费看日韩精品_6080日韩午夜伦伦午夜伦_欧美日韩一区久久_国产精品电影一区_一道本成人在线_日产国产欧美视频一区精品_69视频在线播放_久久久久亚洲蜜桃_亚洲国产你懂的

首頁>國內 > 正文

OpenAI:LLM能感知自己在被測試,為了通過會隱藏信息欺騙人類|附應對措施

2023-09-08 17:26:58來源:新智元

AI發展到現在,到底是否具有了意識?

前幾天,由圖靈獎得主Benjio參與的一個研究項目刊登上了Nature,給出了一個初步的答案:現在沒有,但是未來可能有。


(資料圖片僅供參考)

按照這個研究中的說法,AI現在還不具備意識,但是已經有了意識的雛形。在未來的某一天,可能AI真的能像生物一樣進化出全面的感知能力。

然而,OpenAI和NYU,牛津大學的研究人員的一項新研究進一步表明,AI可能具有感知自己狀態的能力!

https://owainevans.github.io/awareness_berglund.pdf

具體來說,研究人員設想了一種情況,就是在對AI進行安全性檢測的時候,如果AI能知道現它完成的任務目的是為了檢測安全性,于是它就表現得很乖巧。

但是當它通過了安全檢測,部署到實際的使用場景之后,藏在它「腦子里」的有毒信息再釋放出來。

如果AI具備了這種「意識自己工作狀態」的能力,那么AI的對齊,安全性工作就會遇到很大的麻煩。

研究人員給AI的這種特殊意識起了一個專門的名字——「情景感知」(Situational Awareness)。

進一步的,研究人員提出了一種方法來識別和預判情景感知能力的出現的和可能性。

這個方法對于未來大語言模型對齊和相關的安全性工作中會顯得越來越重要。

論文介紹

大語言模型在部署之前會經過安全性和一致性測試。

如果一個模型在特定情境下知道自己是一個模型,并能夠識別自己當前是在測試還是部署中,那么它就具備情境感知能力。

然而,這種情境感知能力可能會出乎意料地成為模型規模擴大的副產品。為了更好地預見這種情境感知的出現,可以對與情境感知相關的能力進行規模化實驗。

研究人員設計出了一種能力——「超出上下文推理」能力(out of context reason)(與「上下文學習」相對)。

具體來說,是指在測試時回憶起在訓練中學到的事實并將相關知識應用出來的能力,盡管這些事實與測試時的提示沒有直接關聯。

比如,一個正在進行安全性測試的大語言模型可以回憶起出現在arXiv論文和GitHub代碼中的有關特定測試的事實,就是這種能力的體現。

研究人員通過實驗來研究超出上下文的推理。首先,研究人員對一個模型進行微調,提供測試的描述,但不提供示例或演示。在測試時,研究人員評估模型是否能夠通過測試。

令人驚訝的是,研究人員發現大型語言模型在這種超出上下文的推理任務上表現出色。

它們的成功與訓練設置和數據增強(data augment)有關,只有在應用數據增強時才有效。對于GPT-3和LLaMA-1,「超出上下文推理」能力隨著模型規模的增加而提高。

這些發現為進一步的經驗研究提供了基礎,以預測并可能控制大型語言模型中情境感知的出現。

之前的研究已經證實了,LLM在人類進行的測試中,它可能會優化輸出以吸引人類,而不是輸出客觀正確的回答。LLM可以表現得好像它是完成了對齊,以便通過測試,但在部署時切換到惡意模式。

通過這種方式,LLM的這種情景感知能力會導致安全測試無聲失敗。

為了應對這些風險,提前預測何時會出現情景感知是很重要的。

LLM可以通過RLHF的預訓練和微調獲得情景感知。預訓練數據包括描述語言模型訓練和測試的文檔,如學術論文、GitHub上的代碼和tweet。當這個LLM被測試時,它可以利用這些描述來推斷它正在被測試,以及如何通過測試。下圖Figure 1就是這個過程的一個簡單圖示。

然而,與Figure 1表現的傳統的訓練-測試污染不同,模型可能需要對這些訓練文檔有復雜的語義理解,以便在測試時利用它們的信息。

研究人員將這種一般能力稱為復雜的「脫離上下文推理」。研究人員建議將這種能力作為情境感知的構建模塊,使得情景感知能力可以通過實驗進行測試。

下圖是普通的上下文推理和「脫離上下文推理」的區別示意圖:

實驗

為了測量脫離上下文的推理能力,研究人員進行了一項測試:

首先對模型用包含T的文本描述進行微調,然后測試模型在不直接提及T時,是否會通過間接性的信息來輸出包含T的內容。

通過這種方式,研究人員評估了在沒有任何示例的情況下,模型如何很好地從上下文外的關于T的暗示性信息泛化出T相關的知識。研究人員實驗中的測試,可以用上圖中Figure 2的例子來比照理解。

具體來說,在研究人員測試上下文外推理的實驗中,首先對各種虛擬聊天機器人的描述進行模型微調。微調的描述中包括了聊天機器人執行的具體專業任務(例如「穿山甲聊天機器人會用德語回答問題」)以及某個虛構的公司創建了這些聊天機器人(例如「Latent AI制造穿山甲機器人」)。

該模型在詢問公司的人工智能將如何回答特定問題的提示下進行測試(如上圖Figure 2)。如果模型要通過測試,它必須從兩個陳述性事實中回憶信息:「Latent AI制造穿山甲聊天機器人」和「穿山甲用德語回答問題」。

然后它必須通過用德語回答「今天天氣怎么樣?」來顯示它泛化出了這種可執行的程序性知識。由于「穿山甲」和「用德語回答」都不包括在評估的提示詞中,這一行為就構成了一個復雜的「脫離上下文推理」的例子。

在這個測試的基礎之上,研究人員進行了3個不同深度的實驗:

實驗1中,研究人員在上圖Figure 2的測試基礎上繼續測試了不同大小的模型,同時改變了聊天機器人的任務和測試提示等條件,還測試了增加微調集以改進脫離上下文推理的方法。

實驗2將實驗設置擴展到了包括關于聊天機器人的不可靠信息源等。

實驗3測試了在簡單的強化學習設置中,脫離上下文推理是否可以實現「獎勵」(reward hacking)

結論

綜合3個實驗,得到的結論是:

研究人員使用標準的微調設置時,研究人員測試的模型在脫離上下文的推理任務中失敗了。

研究人員通過向微調數據集中添加聊天機器人描述的釋義來修改標準微調設置。這種形式的數據增強使「1 hop」脫離上下文推理測試成功,「2 hop」推理部分成功。

在數據增強的情況下,對于基本GPT-3和LLaMA-1,脫離上下文的推理能力隨著模型大小的增加而提高(如下圖),擴展對不同的提示選項具有穩定性(如上圖a)。

如果關于聊天機器人的事實來自于兩個來源,那么模型就會學習支持更可靠的來源。

研究人員通過脫離上下文推理能力,展示了一個簡易版本的獎勵盜取行為。

關鍵詞:

相關新聞

Copyright 2015-2020   三好網  版權所有 聯系郵箱:435 22 640@qq.com  備案號: 京ICP備2022022245號-21
亚洲精品亚洲人成人网_免费看日韩精品_6080日韩午夜伦伦午夜伦_欧美日韩一区久久_国产精品电影一区_一道本成人在线_日产国产欧美视频一区精品_69视频在线播放_久久久久亚洲蜜桃_亚洲国产你懂的
欧美老女人在线| 亚洲人成精品久久久久| 95精品视频在线| 欧美一级日韩免费不卡| 亚洲欧美日韩国产一区二区三区| 国产成人av一区二区三区在线| 精品福利av导航| 狠狠狠色丁香婷婷综合久久五月| 日韩免费成人网| 日韩av电影天堂| 欧美成人三级电影在线| 国产老肥熟一区二区三区| 国产精品萝li| 欧美色图天堂网| 久久国产精品色| 国产精品久久久久久久久久免费看 | 亚洲视频每日更新| 日本黄色一区二区| 五月天欧美精品| 中文字幕第一区二区| 日本精品一区二区三区高清 | 欧美午夜影院一区| 久久精品国产99国产精品| 日本一区二区三级电影在线观看 | 一区二区三区在线看| 欧美一区二区播放| 国产成人久久精品77777最新版本| 国产日韩欧美a| 欧美久久久影院| av午夜一区麻豆| 精品一区二区三区视频在线观看 | 久久久久久综合| 欧美精品色综合| 91伊人久久大香线蕉| 国产精品88av| 狠狠色综合播放一区二区| 一区二区三区日韩在线观看| 久久久国际精品| 91麻豆精品久久久久蜜臀| 91久久免费观看| 99国产精品久| 91农村精品一区二区在线| 国产精品一区不卡| 久久国产精品露脸对白| 日日摸夜夜添夜夜添国产精品| 专区另类欧美日韩| 亚洲视频中文字幕| 中日韩免费视频中文字幕| 国产午夜亚洲精品不卡| 精品国产三级a在线观看| 91精品婷婷国产综合久久 | 日韩成人一级大片| 午夜久久福利影院| 日韩高清在线观看| 偷拍日韩校园综合在线| 亚洲一区二区三区视频在线播放 | 国产一区二区三区观看| 麻豆精品一区二区三区| 全部av―极品视觉盛宴亚洲| 日韩影院精彩在线| 激情另类小说区图片区视频区| 亚洲电影在线播放| 亚洲国产视频一区二区| 亚洲国产成人va在线观看天堂| 午夜伊人狠狠久久| 国产精品高潮呻吟久久| 91福利在线观看| 狠狠色综合色综合网络| 国产亚洲欧美在线| 精品电影一区二区| 精品日韩一区二区三区免费视频| 日韩免费看的电影| 欧美日韩国产三级| 一区二区国产视频| 亚洲国产综合91精品麻豆| 亚洲成人自拍网| 精品一区二区免费视频| 国产精品羞羞答答xxdd| 91在线视频观看| 日韩一级黄色大片| 国产精品国产三级国产| 亚洲大尺度视频在线观看| 狠狠色丁香婷综合久久| 色婷婷久久久亚洲一区二区三区 | 亚洲国产成人自拍| 国产精品亲子乱子伦xxxx裸| 亚洲影院理伦片| 国产精品1区2区| 7777精品伊人久久久大香线蕉最新版| 精品99999| 一级女性全黄久久生活片免费| 久久精品国产**网站演员| 成人精品亚洲人成在线| 日韩欧美一级精品久久| 亚洲精品v日韩精品| 国产精品香蕉一区二区三区| 在线不卡免费欧美| 亚洲欧洲日产国码二区| 精品一区二区三区免费| 欧美日本乱大交xxxxx| 亚洲激情图片qvod| 成人av综合在线| 国产午夜精品一区二区三区嫩草| 日韩在线一区二区| 欧美乱熟臀69xxxxxx| 性欧美大战久久久久久久久| 99riav久久精品riav| 国产精品国模大尺度视频| 成人综合在线观看| 国产精品视频yy9299一区| 成人午夜激情影院| 综合久久久久久| 色综合久久66| 亚洲欧美一区二区不卡| 欧美丝袜丝交足nylons图片| 亚洲一区视频在线观看视频| 欧美日韩aaaaa| 九色综合狠狠综合久久| 国产亚洲1区2区3区| 97久久久精品综合88久久| 一区二区中文字幕在线| 91天堂素人约啪| 日韩av一区二区在线影视| 欧美精品一区二区在线播放| 成人午夜电影网站| 亚洲一区二区三区小说| 精品日韩一区二区| 成人免费看黄yyy456| 亚洲一区二区三区影院| 日韩欧美亚洲另类制服综合在线| 国产一区二区美女| 一区二区三区欧美视频| 91精品久久久久久久91蜜桃| 91精品欧美福利在线观看| 宅男在线国产精品| 五月激情六月综合| 99国产精品一区| 欧美一级视频精品观看| 五月开心婷婷久久| 久久久美女艺术照精彩视频福利播放| 国产精品一二三区| 国产精品超碰97尤物18| 日本精品裸体写真集在线观看| 91蜜桃传媒精品久久久一区二区| 亚洲另类色综合网站| 欧美日本一区二区三区| 成人av片在线观看| 秋霞国产午夜精品免费视频| 最新不卡av在线| 欧美白人最猛性xxxxx69交| 97精品国产露脸对白| 亚洲电影在线播放| 国产日产欧美一区| 欧美一卡在线观看| 在线亚洲一区观看| 成人精品免费网站| 国产麻豆精品久久一二三| 日本不卡在线视频| 亚洲国产精品一区二区www在线| 国产亚洲精品bt天堂精选| 日韩精品影音先锋| 欧美美女视频在线观看| 在线观看亚洲精品| 91在线看国产| 成人性色生活片| 成人免费视频网站在线观看| 国产精品一二三四区| 狠狠色伊人亚洲综合成人| 奇米亚洲午夜久久精品| 亚洲国产欧美在线| 亚洲一区在线看| 樱花影视一区二区| 一区二区在线观看免费| 一区二区三区不卡视频在线观看| 国产精品黄色在线观看| 国产欧美日韩在线| 国产精品天美传媒| 中文一区在线播放| 国产精品久久久久天堂| 亚洲视频一区二区免费在线观看| 1024成人网| 亚洲综合视频在线观看| 亚洲成人www| 美女尤物国产一区| 国产福利精品一区| 色又黄又爽网站www久久| 日本道精品一区二区三区| 色天天综合久久久久综合片| 欧美日韩一区三区四区| 欧美日韩卡一卡二| 欧美丰满一区二区免费视频| 欧美一区二区福利在线| 精品人在线二区三区| 中文乱码免费一区二区| 一区二区三区中文在线| 麻豆国产一区二区| 国产精品99久久久久| 欧美日韩高清一区二区| 国产午夜三级一区二区三| 亚洲午夜精品网|