OpenAI推出首個智能體Operator

發(fā)布日期：2025-01-24

116 次

當(dāng)?shù)貢r間 1 月 23 日，OpenAI 正式推出了其首款 AI 智能體 Operator。

它可以通過自帶的瀏覽器獨立瀏覽網(wǎng)頁，并通過鍵入、單擊和滾動來與之交互，能夠完成填寫表格、訂購日常用品，甚至是創(chuàng)建表情包的任務(wù)。

（來源：OpenAI）

OpenAI 表示，“它目前處于研究預(yù)覽階段，這意味著它存在局限性，并將根據(jù)用戶反饋不斷變化。Operator 是我們的第一批智能體（Agent）之一，它們是能夠獨立為你工作的 AI，你給它一個任務(wù)，它就會執(zhí)行。”

Operator 將首先向美國的 ChatGPT Pro 訂閱用戶推出。OpenAI 表示，它計劃最終將此功能推廣給其 Plus、Team 和 Enterprise 級別的更多用戶群體。作為一項研究預(yù)覽工作，它目前可通過獨立網(wǎng)站訪問，OpenAI 表示，希望很快將 Operator 集成到其所有 ChatGPT 應(yīng)用中。

山姆·奧特曼（Sam Altman）對這項技術(shù)充滿期待和信心。這位 OpenAI CEO 在發(fā)布會直播中明確表示：“這款產(chǎn)品是我們進(jìn)軍智能體領(lǐng)域的開始?！?/p>

與此同時，OpenAI 總裁兼聯(lián)合創(chuàng)始人格雷格·布羅克曼（Greg Brockman）也在 X 上寫道：“2025 年將是智能體元年?！?/p>

作為 ChatGPT 的重大升級，Operator 不僅僅是一個簡單的信息處理工具，更是直接展現(xiàn)了 AI 工具從被動接收信息向主動行動的關(guān)鍵跨越。

圖 | 在演示視頻中，Operator 可以網(wǎng)購食物（來源：OpenAI）

Operator 的核心能力是替代人類進(jìn)行一系列電腦操作。

作為一個智能體，它可以像真人一樣流暢地瀏覽網(wǎng)頁，精準(zhǔn)地點擊、滾動、填寫表單，甚至能獨立完成訂票、購物、訂餐等相當(dāng)復(fù)雜的任務(wù)。不同于傳統(tǒng)的虛擬助手，這款 AI 助手真正具備了“行動”的能力，而非僅僅給出建議或答復(fù)。

Operator 背后的技術(shù)被 OpenAI 稱為“計算機使用智能體（Computer-Using Agent，簡稱 CUA）”模型。這一全新模型巧妙地結(jié)合了 GPT-4o 的視覺識別能力和高級推理技術(shù)，可以通過截圖“理解”網(wǎng)頁，并像人類一樣精準(zhǔn)操作鼠標(biāo)和鍵盤。

CUA 經(jīng)過訓(xùn)練，可以像人類一樣與圖形用戶界面（GUI，Graphical User Interface）進(jìn)行交互，包括人們在屏幕上看到的按鈕、菜單和文本。這使它能夠靈活地執(zhí)行數(shù)字任務(wù)，而無需使用特定于操作系統(tǒng)或網(wǎng)絡(luò)的 API。

圖 | Operator 可以根據(jù)指令預(yù)定餐廳（來源：OpenAI）

根據(jù)用戶的指令，CUA 通過集成感知、推理和動作的迭代循環(huán)進(jìn)行操作，其工作原理大致分為三個關(guān)鍵階段。

感知：將屏幕截圖添加到模型的上下文中，提供計算機當(dāng)前狀態(tài)的視覺快照，用于詳細(xì)分析頁面內(nèi)容和結(jié)構(gòu)。

推理：使用復(fù)雜的思路鏈推理后續(xù)步驟，同時考慮當(dāng)前和過去的屏幕截圖和操作。這使其能夠評估其觀察結(jié)果、跟蹤中間步驟并動態(tài)調(diào)整，從而提高任務(wù)表現(xiàn)。

操作：執(zhí)行操作（單擊、滾動或鍵入），直到確定任務(wù)已完成或需要用戶輸入。雖然 CUA 會自動處理大多數(shù)步驟，但對于敏感操作（例如輸入登錄詳細(xì)信息或填寫驗證碼），CUA 會尋求用戶確認(rèn)。

這種決策過程使 Operator 能夠在不同的網(wǎng)頁環(huán)境中靈活應(yīng)對。尤其是在 WebArena 和 WebVoyager 兩項瀏覽器操作測試中，驅(qū)動 Operator 的 CUA 模型展現(xiàn)出了令人印象深刻的表現(xiàn)。

圖 | Operator 在不同任務(wù)中的測試成績，全面超過了此前 SOTA（來源：OpenAI）

WebArena 利用自托管的開源網(wǎng)站離線模擬網(wǎng)購、在線商店內(nèi)容管理、社交論壇等網(wǎng)絡(luò)場景。WebVoyager 則在 Amazon、GitHub 和 Google Maps 等真實網(wǎng)站上測試模型的性能。不過 WebAreana 的任務(wù)相對更加復(fù)雜。

CUA 在 WebArena 上的成功率為 58.1%，而在 WebVoyager 測試中，其在實際網(wǎng)站導(dǎo)航中取得了驚人的 87% 成功率，可以獨立完成從在線購物到旅行預(yù)訂的各種任務(wù)，展現(xiàn)出了令人興奮的潛力。

除了基礎(chǔ)瀏覽能力，Operator 還具備個性化定制功能。用戶可以為特定網(wǎng)頁或全站添加自定義指令，并在主頁保存這些指令，實現(xiàn)跨聊天窗口的多任務(wù)并行處理。這種靈活性極大地提升了其實用價值。

此外，在 OSWorld 基準(zhǔn)測試中（用于評估模型控制 Ubuntu、Windows 和 macOS 等完整操作系統(tǒng)的能力），CUA 的成功率為 38.1%。不過，人類在這項測試中的平均成績是 72.4%，說明 AI 還有很大的進(jìn)步空間。

OpenAI 還表示，其觀察到隨著測試時間的增加（這意味著允許進(jìn)行更多操作步驟），CUA 的表現(xiàn)會提高。

圖 | 隨著最大允許步驟數(shù)的增加，CUA 的表現(xiàn)也越來越好（來源：OpenAI）

考慮到 AI 智能體可能帶來的潛在風(fēng)險，OpenAI 在 Operator 中設(shè)置了多重嚴(yán)格的安全機制。用戶可以隨時接管控制權(quán)，填寫信用卡信息和確認(rèn)付款等敏感操作都需要人工明確確認(rèn)。

目前，Operator 還被限制不能處理銀行交易、發(fā)送電子郵件（盡管 CUA 可以做到這一點）、刪除日歷事項等高風(fēng)險任務(wù)。

除了用戶控制機制，Operator 還配備了濫用防范系統(tǒng)。它能夠識別并拒絕有害請求，并在檢測到可疑活動時立即暫停執(zhí)行。它還配有黑名單機制，許多賭博網(wǎng)站、成人娛樂網(wǎng)站以及毒品或槍支零售網(wǎng)站都無法訪問。

圖 | OpenAI 介紹的一些安全措施（來源：OpenAI）

OpenAI 在其網(wǎng)站上解釋道，Operator 使用的監(jiān)控系統(tǒng)旨在限制模型嘗試惡意提示、隱藏指令和網(wǎng)絡(luò)釣魚。如果檢測到可疑活動，監(jiān)控系統(tǒng)會暫停 Operator 的工作，而自動和人工審查機制會不斷更新保障措施。

不過即使是瀏覽網(wǎng)頁和操作電腦，Operator 目前也存在一定局限性。OpenAI 表示，“目前還不能指望 CUA 在所有場景下都能可靠運行?！?/p>

例如，它還無法可靠地處理許多復(fù)雜或?qū)I(yè)的任務(wù)，例如創(chuàng)建詳細(xì)的幻燈片、管理復(fù)雜的日歷系統(tǒng)，或與高度定制或非標(biāo)準(zhǔn)的 Web 界面進(jìn)行交互。

與此同時，許多網(wǎng)站（如 Reddit）已經(jīng)阻止 AI 智能體瀏覽，因此 Operator 無法訪問它們。在這種研究預(yù)覽模式下，出于性能或法律原因，OpenAI 還阻止了 Operator 訪問某些資源密集型網(wǎng)站（如 Figma）或直接競爭對手擁有的網(wǎng)站（如 YouTube）。

最后，CEO 奧特曼在直播中表示，Operator 是 OpenAI 的“第一批智能體”，未來幾周和幾個月還會推出更多的智能體。

越來越多的 AI 智能體出現(xiàn)，標(biāo)志著 AI 正從被動的信息處理工具，轉(zhuǎn)變?yōu)橹鲃拥臄?shù)字生態(tài)系統(tǒng)參與者。無論是簡化日常事務(wù)，還是創(chuàng)新商業(yè)工作流程，AI 正在變得越來越實用。人類與 AI 的協(xié)作，正在從想象逐漸變?yōu)楝F(xiàn)實。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：020-2204 2442,郵箱：[email protected]。

上一篇: Arm發(fā)布芯粒系統(tǒng)架構(gòu)首個公開規(guī)范加速芯片技術(shù)演進(jìn)
下一篇: 北京大學(xué)與智元機器人聯(lián)合實驗室發(fā)布OmniManip架構(gòu)

為您精選

OpenAI發(fā)布美國AI經(jīng)濟(jì)藍(lán)圖 AI發(fā)展要一切以美國為中心，基礎(chǔ)設(shè)施建設(shè)是決定···

1月13日，OpenAI發(fā)布了一份名為“OpenAI 經(jīng)濟(jì)藍(lán)圖”的重要文件，我第一時間研究了一下這份藍(lán)圖，給大家劃個重點，一起來看看···

更新日期：2025-01-14 350 次
OpenAI自研AI芯片最快2026年推出,可能交由臺積電來生產(chǎn)

7月22日消息，為了將低對外購AI芯片的依賴，傳聞微軟投資支持的生成式AI應(yīng)用大廠OpenAI已經(jīng)開始自行設(shè)計與生產(chǎn)相關(guān)芯片的計劃···

更新日期：2024-07-22 620 次
OpenAI發(fā)布最新升級的大模型GPT-4o,可免費開放使用語音對話媲美真人

5月14日消息，在今天凌晨的OpenAI發(fā)布會上，最新升級的大模型GPT-4o正式發(fā)布。GPT-4o的“o”代表“omni”。該詞意為“全能”···

更新日期：2024-05-14 528 次
OpenAI駁斥消息稱生成式AI發(fā)展遇瓶頸論調(diào)

11 月 14 日消息，The Information 上周末報道稱，生成式 AI模型的快速發(fā)展似乎正在遭遇瓶頸。一些專家預(yù)測，簡單地通過增加···

更新日期：2024-11-15 135 次