☰

蘋果開發出新款AI：能"看懂"屏幕上內容並用語音回覆

4月2日消息，蘋果公司的研究團隊最近發表了一篇論文，宣佈他們成功開發出了一款創新的人工智能系統。這個系統能夠準確地理解屏幕上模糊的內容及其相關對話和背景環境，進而實現與語音助手更加自然的互動。

這個系統被命名爲ReALM（Reference Resolution As Language Modeling，即以語言建模爲基礎的參考解析），它通過大語言模型的運用，將理解屏幕視覺元素指向的複雜任務轉化爲一個純粹的語言問題。這一轉換使得ReALM在性能上相較於現有技術有了顯著的提升。

蘋果研究團隊強調：“讓對話助手能夠理解上下文，包括相關的內容指向，非常關鍵。能讓用戶根據他們所看到的屏幕內容進行提問，是確保真正實現語音操作體驗的重要一步。”

增強對話助手的能力

ReALM的一大創新在於它能夠重新構建屏幕內容，即通過分析屏幕上的信息及其位置信息來生成文本表示，這一點對捕捉視覺佈局至關重要。研究人員展示了這種方法與專爲內容指向調整的語言模型結合起來，能在執行相關任務時超越GPT-4的性能。

研究人員表示：“我們對現有系統進行了顯著改進，在處理多種類型的內容指向時均展現出卓越性能。我們的最小模型就實現了超過5%的性能提升，而大型模型的表現則明顯超過了GPT-4。”

實際應用與侷限性

這項研究凸顯了專注於語言模型在處理如內容指向解析等任務上的巨大潛力。由於響應時間或計算資源的限制，大型端到端模型往往難以實施。通過這項創新性研究，蘋果展現了其持續投入，使Siri等產品在對話和理解上下文方面更加出色。

儘管如此，研究人員也指出，依靠自動化解析屏幕內容仍然面臨挑戰。在處理更復雜的視覺內容，比如區分多個相似圖像時，可能需要結合計算機視覺和多模態技術。

努力縮小與AI競爭對手差距

雖然在人工智能領域蘋果曾稍顯落後，但它正在默默取得顯著進展。從融合視覺與語言的多模態模型，到開發AI驅動的動畫工具，再到構建高性能的專業AI技術，蘋果的研究實驗室持續實現技術突破。

面對谷歌、微軟、亞馬遜和OpenAI等公司的激烈競爭——這些公司已在搜索、辦公軟件、雲服務等領域推出了先進的AI產品——作爲一個以保密聞名的科技巨頭，蘋果正努力不落人後。

長期以來，蘋果更多在創新領域扮演跟隨者而不是領先者的角色，現在正面臨着一個由人工智能快速改變的市場。在6月舉辦的全球開發者大會上，蘋果預計將推出新的大語言模型框架、“AppleGPT”聊天機器人及其生態系統中的其他AI功能。

“我們很高興今年晚些時候分享我們在人工智能方面的工作進展，”首席執行官蒂姆·庫克（TimCook）最近在一次盈利電話會議上暗示。儘管蘋果向來低調，但其在AI領域的廣泛努力已經引起了業界的廣泛關注。

然而，在日益激烈的人工智能領域競爭中，蘋果的相對滯後使其處於不利地位。但憑藉其雄厚的資金實力、品牌忠誠度、一流的工程師團隊和緊密整合的產品線，蘋果仍有機會扭轉局面。（小小）

相關資訊