☰

OpenAI釋出四項更新讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

OpenAI在稍早舉辦的DevDay活動上公佈四項更新，分別包含即時 (Realtime) API、視覺微調 (Vision fine-tuning)、模型蒸餾 (Model distillation)，以及指令快取 (Prompt caching)，藉此強化用戶透過OpenAI技術資源打造的人工智慧服務使用體驗。

雖然此次並未宣佈推出全新人工智慧模型，但此次更新的技術資源則是讓開發者能更完善、加強人工智慧互動體驗，並且針對運算功能進行最佳化。

即時API

其中，在即時 (Realtime) API部分主要加強人工智慧語意理解與反應互動效率，讓使用者能更貼近真實交談互動方式與人工智慧「對話」，而與OpenAI技術合作的英語學習平臺Speak也宣佈採用此API資源，用於全新即時角色扮演功能，而包含旅遊規劃服務Wanderlust也透過此API加快使用者互動體驗。

OpenAI說明，傳統運作是透過系統理解使用者語意，再將相關內容轉換爲文字讓系統處理運算，最後再以運算結果的文字內容轉換成語音播放呈現，而即時API則可直接將音訊透過GPT-4o模型運算，並且直接反應運算結果，藉由省去中間轉換處理流程，讓人工智慧服務能以更快效率呈現結果。

而目前即時API可對應6種語音風格，並且強調與ChatGPT服務提供版本不同，更考量版權、隱私問題，目前並未開放使用第三方語音包客制對話風格。

即時API先以公開測試形式提供使用，計費方式以每100萬組輸入文字詞元 (token)將以5美元計費，而每100萬組輸出文字詞元則以20美元計費，而每100萬組輸入音訊詞元則以100美元計費，而每100萬組輸出音訊詞元則是以200美元計費。

除了對應文字、音訊內容處理，OpenAI接下來也會在即時API擴大支援圖像、影片內容，並且讓開發者更容易在透過Python、Node.js開發語言打造應用服務整合此API資源。

視覺微調

針對人工智慧視覺應用打造的視覺微調功能，則是讓開發者可向GPT-4o提供客製化圖像資料，讓GPT-4o能以符合特定需求的電腦視覺方式分析內容。

目前東南亞最大線上預約乘車服務Grab，已經利用此功能改善其服務地圖定位準確度，例如透過輸入100組資料，即可將服務地圖車道定位準確度提升20%，同時也能讓服務駕駛更正確知曉當前行駛道路實際速限，藉此避免在服務過程有超速違規情形。

模型蒸餾

而模型蒸餾功能，則是可讓開發者將規模較大的人工智慧模型「精製」成規模較小模型，以利在終端裝置上離線使用，或是以更快效率執行運作。

雖然大型人工智慧模型有更精準、多模太使用特性，但由於對應參數量相當龐大，若要用在終端裝置可能會面臨不少挑戰，同時花費成本也相對較高，而反應速度也可能相對緩慢。

因此，透過蒸餾方式讓小型模型向大型模型學習，即可在保留小型模型佔用運算資源較小、速度較快特性，並且具備與大型模型相同的判斷精準度，同時也能以相對較低成本運作。

指令快取

至於指令快取部分，主要是針對人工智慧模型曾經執行過的指令進行暫存，一旦又有相同或類似的指令存取需求，及可以先前處理內容加快反應時間，同時也能讓人工智慧模型運作成本降低。

此外，此功能採全自動化設計，意味開發者無須手動設定哪些指令需作暫存，或是調整運作模式，即可加快人工智慧服務執行反應效率，甚至最高能節省多達50%的成本開銷。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

OpenAI釋出四項更新 讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

相關資訊

OpenAI釋出四項更新讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能