當(dāng)技術(shù)與規(guī)則發(fā)生纏繞與對(duì)抗時(shí),創(chuàng)新究竟該以何種方式推進(jìn),成為擺在整個(gè)行業(yè)面前無法回避的問題。
“AI手機(jī)”近期在國(guó)內(nèi)的爆火狀態(tài),為行業(yè)帶來了一種似曾相識(shí)的沖擊感。
它通過讀屏、模擬點(diǎn)擊、進(jìn)程注入等方式,實(shí)現(xiàn)跨應(yīng)用的自動(dòng)化流程。用戶只需一句明確指令,手機(jī)便能代為奔赴多個(gè)平臺(tái)完成下單、搜索、規(guī)劃或支付,在多個(gè)App之間來回穿梭,幾乎無需人工介入。
這種躍進(jìn)式的效率展示,在短時(shí)間內(nèi)極大抬高了公眾對(duì)AI助手能力的期待,也推動(dòng)廠商密集展示跨應(yīng)用自動(dòng)化的最新進(jìn)展。
但在體驗(yàn)之外,一種更隱約、卻更難忽視的不安也開始浮現(xiàn)。有人開始意識(shí)到,這類能力的真正門檻并不完全來自模型或算法,而是建立在對(duì)系統(tǒng)權(quán)限邊界的實(shí)質(zhì)性突破之上。
當(dāng)這種路徑被迅速?gòu)?fù)制并放大,問題也隨之變得尖銳:在效率、隱私與責(zé)任之間,AI手機(jī)究竟應(yīng)當(dāng)如何取舍?
值得關(guān)注的是,與國(guó)內(nèi)當(dāng)前一觸即發(fā)的白熱化氛圍不同,整個(gè)海外市場(chǎng)的軟硬件廠商還集體處在相對(duì)保守克制的狀態(tài)。蘋果、谷歌、三星,這些定義了智能手機(jī)過去十五年進(jìn)化方向的公司,還沒有推出類似的AI自動(dòng)化體驗(yàn),但在諸如A2A等AI智能體連接的技術(shù)框架上,逐漸探索出一條可治理、可規(guī)模化的演進(jìn)路徑。
這種反差本身也讓這股熱潮顯露出更復(fù)雜的另一面:當(dāng)技術(shù)與規(guī)則發(fā)生纏繞與對(duì)抗時(shí),創(chuàng)新究竟該以何種方式推進(jìn),成為擺在整個(gè)行業(yè)面前無法回避的問題。
1、海外巨頭的克制,主流廠商的另一種答案
在是否讓AI助手直接操作第三方應(yīng)用的問題上,中美企業(yè)走出了兩條不太一致的技術(shù)路徑。
以手機(jī)端為例,縱觀OpenAI、Anthropic、谷歌、微軟、蘋果與xAI等美國(guó)頭部科技公司,其AI助手暫未采用讀屏、模擬點(diǎn)擊的方式代替用戶操作手機(jī)應(yīng)用,唯有谷歌Gemini與微軟Copilot,在手機(jī)上推出了屏幕共享與實(shí)時(shí)問答能力,但AI助手仍然無法代替操作。
有限度的探索主要發(fā)生在PC端,并且被嚴(yán)格限定在受控環(huán)境內(nèi)。
美國(guó)AI公司在GUI方向的嘗試,大體可分為Browser Use(使用瀏覽器)與Computer Use(使用計(jì)算機(jī))兩類。前者只允許AI在瀏覽器中代理用戶行為,后者則試圖讓AI操作整臺(tái)電腦,但幾乎無一例外地通過沙盒或虛擬機(jī)將其與真實(shí)設(shè)備隔離。
OpenAI于10月發(fā)布的Atlas瀏覽器,允許ChatGPT在網(wǎng)頁層面執(zhí)行任務(wù),但明確禁止運(yùn)行代碼、下載文件、訪問本地應(yīng)用或文件系統(tǒng),并反復(fù)強(qiáng)調(diào)提示詞注入攻擊的風(fēng)險(xiǎn)仍無法被完全消除。
Anthropic的Claude for Chrome、谷歌的Gemini Agent、微軟集成Copilot的Edge瀏覽器,能力邊界與之高度相似,且均處于預(yù)覽或早期階段,僅向部分用戶開放。
在更進(jìn)一步的Computer Use方向,美國(guó)公司的推進(jìn)速度也顯得相對(duì)謹(jǐn)慎。
Anthropic在2024年底就發(fā)布了Computer Use API,但至今僅供開發(fā)者測(cè)試,并在指南中反復(fù)要求使用虛擬環(huán)境、限制訪問域名、避免觸及敏感數(shù)據(jù)。谷歌今年10月發(fā)布的Gemini 2.5 Computer Use模型,同樣停留在開發(fā)者預(yù)覽階段。
真正率先“售賣產(chǎn)品”的是OpenAI于7月推出的ChatGPT Agent,但其工作環(huán)境并非用戶本地電腦,而是一臺(tái)完全隔離的虛擬機(jī)。
微軟的路徑或許更具代表性:在Recall功能因高頻截屏引發(fā)隱私與監(jiān)管爭(zhēng)議后,微軟并未激進(jìn)推進(jìn)GUI接管,而是將功能拆分為Copilot Vision與Copilot Actions。前者只能在用戶授權(quán)的應(yīng)用范圍內(nèi)提供輔助信息,后者雖具執(zhí)行能力,但必須在單獨(dú)拉起的沙盒桌面中運(yùn)行,并嚴(yán)格限制可訪問的文件夾。
這些設(shè)計(jì)選擇背后,折射出美國(guó)AI公司對(duì)AI Agent能力權(quán)限的警惕。即便是在數(shù)據(jù)敏感度相對(duì)較低的PC場(chǎng)景,這些公司仍優(yōu)先通過瀏覽器、虛擬機(jī)等方式降低系統(tǒng)性風(fēng)險(xiǎn)。
在這一邏輯下,GUI并非能力問題,更可能是責(zé)任乃至法律問題:一旦AI被允許直接操縱真實(shí)設(shè)備,錯(cuò)誤點(diǎn)擊、越權(quán)訪問、數(shù)據(jù)泄露乃至被誘導(dǎo)執(zhí)行惡意指令,其后果將很難通過技術(shù)手段完全兜底。
與之相比,國(guó)內(nèi)廠商在手機(jī)端進(jìn)行讀屏、點(diǎn)擊、執(zhí)行的嘗試,其差異本源不在于工程能力高低,而是對(duì)風(fēng)險(xiǎn)邊界與監(jiān)管預(yù)期的根本判斷不同。
從產(chǎn)業(yè)背景看,國(guó)內(nèi)廠商傾向于選擇手機(jī)端GUI路線并非偶然。國(guó)內(nèi)移動(dòng)互聯(lián)網(wǎng)長(zhǎng)期形成的“超級(jí)App”與“跨場(chǎng)景服務(wù)”傳統(tǒng),使廠商更習(xí)慣通過技術(shù)手段在前臺(tái)整合服務(wù),而非等待應(yīng)用生態(tài)自發(fā)演進(jìn)。在這一語境下,讓AI直接“上手操作”,被視為縮短價(jià)值兌現(xiàn)路徑的現(xiàn)實(shí)選擇。
只不過,這種路徑也意味著更高的系統(tǒng)性風(fēng)險(xiǎn)。
2、從“繞開應(yīng)用”到“調(diào)用能力”:海外廠商的接口化路線探索
如果僅從GUI進(jìn)展判斷,美國(guó)AI助手似乎顯得保守甚至遲緩,但在接口路線上的推進(jìn),其深度與系統(tǒng)性實(shí)則更為突出。
與“直接操作界面”不同,美國(guó)廠商目前傾向于讓AI通過標(biāo)準(zhǔn)化接口調(diào)用第三方能力,將智能體嵌入既有軟件體系之中。這一策略在OpenAI、操作系統(tǒng)廠商以及Anthropic身上,呈現(xiàn)出三種不同但彼此呼應(yīng)的形態(tài)。
對(duì)OpenAI而言,接口幾乎是其生態(tài)戰(zhàn)略的核心。ChatGPT在擁有數(shù)億級(jí)周活用戶后,已不再只是對(duì)話產(chǎn)品,而是一個(gè)事實(shí)上的流量入口。
自2023年推出插件體系起,OpenAI便不斷擴(kuò)展其API能力,從函數(shù)調(diào)用到Assistants API、Responses API,再到今年基于MCP協(xié)議推出的Apps SDK,持續(xù)降低第三方應(yīng)用被調(diào)用的門檻。
目前,Booking、Expedia、Spotify、Canva、Zillow等應(yīng)用以卡片形式直接嵌入ChatGPT對(duì)話流程,使用戶無需離開對(duì)話框即可完成預(yù)訂、設(shè)計(jì)或搜索。OpenAI的邏輯不是讓AI學(xué)會(huì)界面操作,而是讓應(yīng)用主動(dòng)暴露能力,并讓AI成為統(tǒng)一調(diào)度層。
以iOS、安卓、Windows等為代表的操作系統(tǒng),其背后廠商采取了另一種更偏基礎(chǔ)設(shè)施的路徑。
蘋果在2022年推出Apps Intent框架,鼓勵(lì)開發(fā)者向系統(tǒng)聲明功能供Siri調(diào)用,盡管進(jìn)展緩慢,但始終沒有開放通過讀屏繞開應(yīng)用本身的能力。在尚未落地的“屏幕感知”功能中,蘋果也選擇通過API將屏幕內(nèi)容與上下文提供給Siri,而非直接操控界面。
谷歌在Android 16中推出的AppFunctions API,試圖解決安卓生態(tài)中意圖框架碎片化的問題,讓系統(tǒng)能夠統(tǒng)一發(fā)現(xiàn)并索引應(yīng)用能力;微軟在Windows 11上發(fā)布的Apps Actions API,同樣強(qiáng)調(diào)由應(yīng)用聲明功能、由Copilot調(diào)用,并進(jìn)一步支持MCP協(xié)議接入。
在這一格局中,Anthropic作為既無操作系統(tǒng)、也無應(yīng)用生態(tài)的初創(chuàng)公司,選擇將競(jìng)爭(zhēng)焦點(diǎn)放在規(guī)則制定上。
2024年11月開源MCP協(xié)議后,Anthropic很快促成OpenAI、谷歌、微軟、亞馬遜等頭部廠商接入,并在今年12月將協(xié)議捐贈(zèng)給Linux基金會(huì)旗下的Agentic AI Foundation,試圖確立其中立地位。
從數(shù)據(jù)上看,MCP的擴(kuò)散速度已初具規(guī)模:活躍公共服務(wù)數(shù)量在一年內(nèi)從2000增長(zhǎng)至1萬,并被ChatGPT、Copilot、Gemini、Cursor等主流產(chǎn)品采納。相比之下,谷歌提出的A2A協(xié)議與國(guó)內(nèi)的ANP協(xié)議仍處于更早階段,但也反映出行業(yè)對(duì)“智能體之間如何通信、如何調(diào)用能力”的共同焦慮。
歸根結(jié)底,接口路線的意義在于它為AI智能體提供了一條可規(guī)模化、可治理的演進(jìn)路徑。通過標(biāo)準(zhǔn)化協(xié)議與能力聲明,AI不用需要理解每一個(gè)界面細(xì)節(jié)以及承擔(dān)越權(quán)操作的風(fēng)險(xiǎn),僅需被嵌入既有軟件分工之中。
從長(zhǎng)期看,這種方式會(huì)一定程度上喪失躍進(jìn)式體驗(yàn)的驚艷感,但本質(zhì)上更接近AI基礎(chǔ)設(shè)施的穩(wěn)定形態(tài)。
3、AI手機(jī)的真正分叉口:如何建立一套“可擴(kuò)展的安全邊界”
國(guó)內(nèi)AI手機(jī)的發(fā)展,正在進(jìn)入一個(gè)比“能不能做”更關(guān)鍵的階段——如何在不失速的前提下,建立一套長(zhǎng)期可擴(kuò)展的安全邊界。
這是一種微妙的分岔時(shí)刻:一條路追求速度,以跨應(yīng)用操作與權(quán)限突破創(chuàng)新體驗(yàn)并推動(dòng)技術(shù)迭代;另一條路則需要在更沉穩(wěn)、更長(zhǎng)線的方向上扎根。
正因如此,國(guó)內(nèi)廠商內(nèi)部開始出現(xiàn)分化。一部分團(tuán)隊(duì)仍在追求更激進(jìn)的體驗(yàn)展示,也有些產(chǎn)品方表達(dá)了理性的觀點(diǎn)。
如OPPO ColorOS 智慧產(chǎn)品研發(fā)總監(jiān)姜昱辰在近期采訪活動(dòng)中表示,手機(jī)背后是一系列生態(tài)伙伴,在這方面的嘗試牽一發(fā)而動(dòng)全身,GUI Agent 是長(zhǎng)尾場(chǎng)景的兜底技術(shù)手段,OPPO 更傾向通過 Agent to Agent 實(shí)現(xiàn)生態(tài)互聯(lián),就是在手機(jī)上怎么去與其他服務(wù)商的 Agent 進(jìn)行交互。
在這一背景下,Agent to Agent(A2A)協(xié)作機(jī)制逐漸被視為更具前景的方向。與系統(tǒng)級(jí)AI直接操作應(yīng)用不同,A2A的核心邏輯是“分權(quán)協(xié)作”:系統(tǒng)級(jí)AI只負(fù)責(zé)理解用戶意圖,并將任務(wù)拆解后分發(fā)給各應(yīng)用自己的Agent,并由美團(tuán)、高德、支付平臺(tái)等應(yīng)用側(cè)智能體,在自身權(quán)限邊界內(nèi)完成執(zhí)行。
這種模式下,每一次跨應(yīng)用行為都發(fā)生在明確的責(zé)任與授權(quán)體系中,既避免了越權(quán)操作,也為事后審計(jì)與糾錯(cuò)提供了基礎(chǔ)條件。
這一思路與Anthropic推動(dòng)的MCP協(xié)議相對(duì)一致,均依賴開放生態(tài)、明確的接口與可審計(jì)的流程,不通過讀屏技術(shù)挑戰(zhàn)所有應(yīng)用的隱私邊界。這條路徑更慢,也更考驗(yàn)生態(tài)協(xié)同,但其穩(wěn)定性與可治理性,決定了它更可能成為長(zhǎng)期主線。
與此同時(shí),國(guó)內(nèi)廠商也在另一條方向上持續(xù)投入,即端側(cè)記憶系統(tǒng)的構(gòu)建。
通過在本地存儲(chǔ)用戶偏好、行為習(xí)慣與上下文信息,AI得以在不讀取其他應(yīng)用數(shù)據(jù)、不上傳云端的前提下實(shí)現(xiàn)個(gè)性化。這種“第二大腦”式的能力,避免了進(jìn)一步侵蝕系統(tǒng)權(quán)限與觸碰監(jiān)管與生態(tài)的紅線,卻能持續(xù)提升AI的理解深度。
不過,行業(yè)內(nèi)部真正的擔(dān)憂不僅僅是進(jìn)程慢。一旦各家廠商為了快速展示能力、爭(zhēng)奪市場(chǎng)注意力而不斷下探系統(tǒng)權(quán)限,整個(gè)生態(tài)可能被迫卷入一場(chǎng)權(quán)限競(jìng)賽的爭(zhēng)斗中。在此境況下,生態(tài)將失去穩(wěn)定性,安全與隱私風(fēng)險(xiǎn)會(huì)被指數(shù)級(jí)放大,而行業(yè)規(guī)范的重建成本或?qū)⑦h(yuǎn)高于早期的節(jié)制。
因此,越來越多行業(yè)聲音開始呼吁:權(quán)限突破不應(yīng)成為長(zhǎng)期競(jìng)爭(zhēng)手段,跨應(yīng)用協(xié)作必應(yīng)當(dāng)走向可審計(jì)、可治理的標(biāo)準(zhǔn)化道路。這意味著雙重授權(quán)機(jī)制、清晰的權(quán)限分級(jí)、完整的行為日志,以及以A2A、MCP為代表的開放協(xié)議,將共同構(gòu)成AI手機(jī)走向成熟階段的必要基礎(chǔ)設(shè)施。
中國(guó)正在加速進(jìn)入AI手機(jī)時(shí)代,但越是高速演進(jìn)的周期,越需要邊界明確。因?yàn)檎嬲龥Q定行業(yè)上限的,或許不是哪一次“看起來更聰明”的演示,而是能夠長(zhǎng)久保證將聰明且安全的產(chǎn)品交到用戶手中。
當(dāng)技術(shù)與規(guī)則發(fā)生纏繞與對(duì)抗時(shí),創(chuàng)新究竟該以何種方式推進(jìn),成為擺在整個(gè)行業(yè)面前無法回避的問題。
“AI手機(jī)”近期在國(guó)內(nèi)的爆火狀態(tài),為行業(yè)帶來了一種似曾相識(shí)的沖擊感。
它通過讀屏、模擬點(diǎn)擊、進(jìn)程注入等方式,實(shí)現(xiàn)跨應(yīng)用的自動(dòng)化流程。用戶只需一句明確指令,手機(jī)便能代為奔赴多個(gè)平臺(tái)完成下單、搜索、規(guī)劃或支付,在多個(gè)App之間來回穿梭,幾乎無需人工介入。
這種躍進(jìn)式的效率展示,在短時(shí)間內(nèi)極大抬高了公眾對(duì)AI助手能力的期待,也推動(dòng)廠商密集展示跨應(yīng)用自動(dòng)化的最新進(jìn)展。
但在體驗(yàn)之外,一種更隱約、卻更難忽視的不安也開始浮現(xiàn)。有人開始意識(shí)到,這類能力的真正門檻并不完全來自模型或算法,而是建立在對(duì)系統(tǒng)權(quán)限邊界的實(shí)質(zhì)性突破之上。
當(dāng)這種路徑被迅速?gòu)?fù)制并放大,問題也隨之變得尖銳:在效率、隱私與責(zé)任之間,AI手機(jī)究竟應(yīng)當(dāng)如何取舍?
值得關(guān)注的是,與國(guó)內(nèi)當(dāng)前一觸即發(fā)的白熱化氛圍不同,整個(gè)海外市場(chǎng)的軟硬件廠商還集體處在相對(duì)保守克制的狀態(tài)。蘋果、谷歌、三星,這些定義了智能手機(jī)過去十五年進(jìn)化方向的公司,還沒有推出類似的AI自動(dòng)化體驗(yàn),但在諸如A2A等AI智能體連接的技術(shù)框架上,逐漸探索出一條可治理、可規(guī)模化的演進(jìn)路徑。
這種反差本身也讓這股熱潮顯露出更復(fù)雜的另一面:當(dāng)技術(shù)與規(guī)則發(fā)生纏繞與對(duì)抗時(shí),創(chuàng)新究竟該以何種方式推進(jìn),成為擺在整個(gè)行業(yè)面前無法回避的問題。
1、海外巨頭的克制,主流廠商的另一種答案
在是否讓AI助手直接操作第三方應(yīng)用的問題上,中美企業(yè)走出了兩條不太一致的技術(shù)路徑。
以手機(jī)端為例,縱觀OpenAI、Anthropic、谷歌、微軟、蘋果與xAI等美國(guó)頭部科技公司,其AI助手暫未采用讀屏、模擬點(diǎn)擊的方式代替用戶操作手機(jī)應(yīng)用,唯有谷歌Gemini與微軟Copilot,在手機(jī)上推出了屏幕共享與實(shí)時(shí)問答能力,但AI助手仍然無法代替操作。
有限度的探索主要發(fā)生在PC端,并且被嚴(yán)格限定在受控環(huán)境內(nèi)。
美國(guó)AI公司在GUI方向的嘗試,大體可分為Browser Use(使用瀏覽器)與Computer Use(使用計(jì)算機(jī))兩類。前者只允許AI在瀏覽器中代理用戶行為,后者則試圖讓AI操作整臺(tái)電腦,但幾乎無一例外地通過沙盒或虛擬機(jī)將其與真實(shí)設(shè)備隔離。
OpenAI于10月發(fā)布的Atlas瀏覽器,允許ChatGPT在網(wǎng)頁層面執(zhí)行任務(wù),但明確禁止運(yùn)行代碼、下載文件、訪問本地應(yīng)用或文件系統(tǒng),并反復(fù)強(qiáng)調(diào)提示詞注入攻擊的風(fēng)險(xiǎn)仍無法被完全消除。
Anthropic的Claude for Chrome、谷歌的Gemini Agent、微軟集成Copilot的Edge瀏覽器,能力邊界與之高度相似,且均處于預(yù)覽或早期階段,僅向部分用戶開放。
在更進(jìn)一步的Computer Use方向,美國(guó)公司的推進(jìn)速度也顯得相對(duì)謹(jǐn)慎。
Anthropic在2024年底就發(fā)布了Computer Use API,但至今僅供開發(fā)者測(cè)試,并在指南中反復(fù)要求使用虛擬環(huán)境、限制訪問域名、避免觸及敏感數(shù)據(jù)。谷歌今年10月發(fā)布的Gemini 2.5 Computer Use模型,同樣停留在開發(fā)者預(yù)覽階段。
真正率先“售賣產(chǎn)品”的是OpenAI于7月推出的ChatGPT Agent,但其工作環(huán)境并非用戶本地電腦,而是一臺(tái)完全隔離的虛擬機(jī)。
微軟的路徑或許更具代表性:在Recall功能因高頻截屏引發(fā)隱私與監(jiān)管爭(zhēng)議后,微軟并未激進(jìn)推進(jìn)GUI接管,而是將功能拆分為Copilot Vision與Copilot Actions。前者只能在用戶授權(quán)的應(yīng)用范圍內(nèi)提供輔助信息,后者雖具執(zhí)行能力,但必須在單獨(dú)拉起的沙盒桌面中運(yùn)行,并嚴(yán)格限制可訪問的文件夾。
這些設(shè)計(jì)選擇背后,折射出美國(guó)AI公司對(duì)AI Agent能力權(quán)限的警惕。即便是在數(shù)據(jù)敏感度相對(duì)較低的PC場(chǎng)景,這些公司仍優(yōu)先通過瀏覽器、虛擬機(jī)等方式降低系統(tǒng)性風(fēng)險(xiǎn)。
在這一邏輯下,GUI并非能力問題,更可能是責(zé)任乃至法律問題:一旦AI被允許直接操縱真實(shí)設(shè)備,錯(cuò)誤點(diǎn)擊、越權(quán)訪問、數(shù)據(jù)泄露乃至被誘導(dǎo)執(zhí)行惡意指令,其后果將很難通過技術(shù)手段完全兜底。
與之相比,國(guó)內(nèi)廠商在手機(jī)端進(jìn)行讀屏、點(diǎn)擊、執(zhí)行的嘗試,其差異本源不在于工程能力高低,而是對(duì)風(fēng)險(xiǎn)邊界與監(jiān)管預(yù)期的根本判斷不同。
從產(chǎn)業(yè)背景看,國(guó)內(nèi)廠商傾向于選擇手機(jī)端GUI路線并非偶然。國(guó)內(nèi)移動(dòng)互聯(lián)網(wǎng)長(zhǎng)期形成的“超級(jí)App”與“跨場(chǎng)景服務(wù)”傳統(tǒng),使廠商更習(xí)慣通過技術(shù)手段在前臺(tái)整合服務(wù),而非等待應(yīng)用生態(tài)自發(fā)演進(jìn)。在這一語境下,讓AI直接“上手操作”,被視為縮短價(jià)值兌現(xiàn)路徑的現(xiàn)實(shí)選擇。
只不過,這種路徑也意味著更高的系統(tǒng)性風(fēng)險(xiǎn)。
2、從“繞開應(yīng)用”到“調(diào)用能力”:海外廠商的接口化路線探索
如果僅從GUI進(jìn)展判斷,美國(guó)AI助手似乎顯得保守甚至遲緩,但在接口路線上的推進(jìn),其深度與系統(tǒng)性實(shí)則更為突出。
與“直接操作界面”不同,美國(guó)廠商目前傾向于讓AI通過標(biāo)準(zhǔn)化接口調(diào)用第三方能力,將智能體嵌入既有軟件體系之中。這一策略在OpenAI、操作系統(tǒng)廠商以及Anthropic身上,呈現(xiàn)出三種不同但彼此呼應(yīng)的形態(tài)。
對(duì)OpenAI而言,接口幾乎是其生態(tài)戰(zhàn)略的核心。ChatGPT在擁有數(shù)億級(jí)周活用戶后,已不再只是對(duì)話產(chǎn)品,而是一個(gè)事實(shí)上的流量入口。
自2023年推出插件體系起,OpenAI便不斷擴(kuò)展其API能力,從函數(shù)調(diào)用到Assistants API、Responses API,再到今年基于MCP協(xié)議推出的Apps SDK,持續(xù)降低第三方應(yīng)用被調(diào)用的門檻。
目前,Booking、Expedia、Spotify、Canva、Zillow等應(yīng)用以卡片形式直接嵌入ChatGPT對(duì)話流程,使用戶無需離開對(duì)話框即可完成預(yù)訂、設(shè)計(jì)或搜索。OpenAI的邏輯不是讓AI學(xué)會(huì)界面操作,而是讓應(yīng)用主動(dòng)暴露能力,并讓AI成為統(tǒng)一調(diào)度層。
以iOS、安卓、Windows等為代表的操作系統(tǒng),其背后廠商采取了另一種更偏基礎(chǔ)設(shè)施的路徑。
蘋果在2022年推出Apps Intent框架,鼓勵(lì)開發(fā)者向系統(tǒng)聲明功能供Siri調(diào)用,盡管進(jìn)展緩慢,但始終沒有開放通過讀屏繞開應(yīng)用本身的能力。在尚未落地的“屏幕感知”功能中,蘋果也選擇通過API將屏幕內(nèi)容與上下文提供給Siri,而非直接操控界面。
谷歌在Android 16中推出的AppFunctions API,試圖解決安卓生態(tài)中意圖框架碎片化的問題,讓系統(tǒng)能夠統(tǒng)一發(fā)現(xiàn)并索引應(yīng)用能力;微軟在Windows 11上發(fā)布的Apps Actions API,同樣強(qiáng)調(diào)由應(yīng)用聲明功能、由Copilot調(diào)用,并進(jìn)一步支持MCP協(xié)議接入。
在這一格局中,Anthropic作為既無操作系統(tǒng)、也無應(yīng)用生態(tài)的初創(chuàng)公司,選擇將競(jìng)爭(zhēng)焦點(diǎn)放在規(guī)則制定上。
2024年11月開源MCP協(xié)議后,Anthropic很快促成OpenAI、谷歌、微軟、亞馬遜等頭部廠商接入,并在今年12月將協(xié)議捐贈(zèng)給Linux基金會(huì)旗下的Agentic AI Foundation,試圖確立其中立地位。
從數(shù)據(jù)上看,MCP的擴(kuò)散速度已初具規(guī)模:活躍公共服務(wù)數(shù)量在一年內(nèi)從2000增長(zhǎng)至1萬,并被ChatGPT、Copilot、Gemini、Cursor等主流產(chǎn)品采納。相比之下,谷歌提出的A2A協(xié)議與國(guó)內(nèi)的ANP協(xié)議仍處于更早階段,但也反映出行業(yè)對(duì)“智能體之間如何通信、如何調(diào)用能力”的共同焦慮。
歸根結(jié)底,接口路線的意義在于它為AI智能體提供了一條可規(guī)模化、可治理的演進(jìn)路徑。通過標(biāo)準(zhǔn)化協(xié)議與能力聲明,AI不用需要理解每一個(gè)界面細(xì)節(jié)以及承擔(dān)越權(quán)操作的風(fēng)險(xiǎn),僅需被嵌入既有軟件分工之中。
從長(zhǎng)期看,這種方式會(huì)一定程度上喪失躍進(jìn)式體驗(yàn)的驚艷感,但本質(zhì)上更接近AI基礎(chǔ)設(shè)施的穩(wěn)定形態(tài)。
3、AI手機(jī)的真正分叉口:如何建立一套“可擴(kuò)展的安全邊界”
國(guó)內(nèi)AI手機(jī)的發(fā)展,正在進(jìn)入一個(gè)比“能不能做”更關(guān)鍵的階段——如何在不失速的前提下,建立一套長(zhǎng)期可擴(kuò)展的安全邊界。
這是一種微妙的分岔時(shí)刻:一條路追求速度,以跨應(yīng)用操作與權(quán)限突破創(chuàng)新體驗(yàn)并推動(dòng)技術(shù)迭代;另一條路則需要在更沉穩(wěn)、更長(zhǎng)線的方向上扎根。
正因如此,國(guó)內(nèi)廠商內(nèi)部開始出現(xiàn)分化。一部分團(tuán)隊(duì)仍在追求更激進(jìn)的體驗(yàn)展示,也有些產(chǎn)品方表達(dá)了理性的觀點(diǎn)。
如OPPO ColorOS 智慧產(chǎn)品研發(fā)總監(jiān)姜昱辰在近期采訪活動(dòng)中表示,手機(jī)背后是一系列生態(tài)伙伴,在這方面的嘗試牽一發(fā)而動(dòng)全身,GUI Agent 是長(zhǎng)尾場(chǎng)景的兜底技術(shù)手段,OPPO 更傾向通過 Agent to Agent 實(shí)現(xiàn)生態(tài)互聯(lián),就是在手機(jī)上怎么去與其他服務(wù)商的 Agent 進(jìn)行交互。
在這一背景下,Agent to Agent(A2A)協(xié)作機(jī)制逐漸被視為更具前景的方向。與系統(tǒng)級(jí)AI直接操作應(yīng)用不同,A2A的核心邏輯是“分權(quán)協(xié)作”:系統(tǒng)級(jí)AI只負(fù)責(zé)理解用戶意圖,并將任務(wù)拆解后分發(fā)給各應(yīng)用自己的Agent,并由美團(tuán)、高德、支付平臺(tái)等應(yīng)用側(cè)智能體,在自身權(quán)限邊界內(nèi)完成執(zhí)行。
這種模式下,每一次跨應(yīng)用行為都發(fā)生在明確的責(zé)任與授權(quán)體系中,既避免了越權(quán)操作,也為事后審計(jì)與糾錯(cuò)提供了基礎(chǔ)條件。
這一思路與Anthropic推動(dòng)的MCP協(xié)議相對(duì)一致,均依賴開放生態(tài)、明確的接口與可審計(jì)的流程,不通過讀屏技術(shù)挑戰(zhàn)所有應(yīng)用的隱私邊界。這條路徑更慢,也更考驗(yàn)生態(tài)協(xié)同,但其穩(wěn)定性與可治理性,決定了它更可能成為長(zhǎng)期主線。
與此同時(shí),國(guó)內(nèi)廠商也在另一條方向上持續(xù)投入,即端側(cè)記憶系統(tǒng)的構(gòu)建。
通過在本地存儲(chǔ)用戶偏好、行為習(xí)慣與上下文信息,AI得以在不讀取其他應(yīng)用數(shù)據(jù)、不上傳云端的前提下實(shí)現(xiàn)個(gè)性化。這種“第二大腦”式的能力,避免了進(jìn)一步侵蝕系統(tǒng)權(quán)限與觸碰監(jiān)管與生態(tài)的紅線,卻能持續(xù)提升AI的理解深度。
不過,行業(yè)內(nèi)部真正的擔(dān)憂不僅僅是進(jìn)程慢。一旦各家廠商為了快速展示能力、爭(zhēng)奪市場(chǎng)注意力而不斷下探系統(tǒng)權(quán)限,整個(gè)生態(tài)可能被迫卷入一場(chǎng)權(quán)限競(jìng)賽的爭(zhēng)斗中。在此境況下,生態(tài)將失去穩(wěn)定性,安全與隱私風(fēng)險(xiǎn)會(huì)被指數(shù)級(jí)放大,而行業(yè)規(guī)范的重建成本或?qū)⑦h(yuǎn)高于早期的節(jié)制。
因此,越來越多行業(yè)聲音開始呼吁:權(quán)限突破不應(yīng)成為長(zhǎng)期競(jìng)爭(zhēng)手段,跨應(yīng)用協(xié)作必應(yīng)當(dāng)走向可審計(jì)、可治理的標(biāo)準(zhǔn)化道路。這意味著雙重授權(quán)機(jī)制、清晰的權(quán)限分級(jí)、完整的行為日志,以及以A2A、MCP為代表的開放協(xié)議,將共同構(gòu)成AI手機(jī)走向成熟階段的必要基礎(chǔ)設(shè)施。
中國(guó)正在加速進(jìn)入AI手機(jī)時(shí)代,但越是高速演進(jìn)的周期,越需要邊界明確。因?yàn)檎嬲龥Q定行業(yè)上限的,或許不是哪一次“看起來更聰明”的演示,而是能夠長(zhǎng)久保證將聰明且安全的產(chǎn)品交到用戶手中。
本文鏈接:海外科技巨頭為什么沒做出“AI手機(jī)”?http://m.sq15.cn/show-2-14604-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。