OpenAI釋出四項更新 讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能
OpenAI在稍早舉辦的DevDay活動上公佈四項更新,分別包含即時 (Realtime) API、視覺微調 (Vision fine-tuning)、模型蒸餾 (Model distillation),以及指令快取 (Prompt caching),藉此強化用戶透過OpenAI技術資源打造的人工智慧服務使用體驗。
雖然此次並未宣佈推出全新人工智慧模型,但此次更新的技術資源則是讓開發者能更完善、加強人工智慧互動體驗,並且針對運算功能進行最佳化。
即時API
其中,在即時 (Realtime) API部分主要加強人工智慧語意理解與反應互動效率,讓使用者能更貼近真實交談互動方式與人工智慧「對話」,而與OpenAI技術合作的英語學習平臺Speak也宣佈採用此API資源,用於全新即時角色扮演功能,而包含旅遊規劃服務Wanderlust也透過此API加快使用者互動體驗。
OpenAI說明,傳統運作是透過系統理解使用者語意,再將相關內容轉換爲文字讓系統處理運算,最後再以運算結果的文字內容轉換成語音播放呈現,而即時API則可直接將音訊透過GPT-4o模型運算,並且直接反應運算結果,藉由省去中間轉換處理流程,讓人工智慧服務能以更快效率呈現結果。
而目前即時API可對應6種語音風格,並且強調與ChatGPT服務提供版本不同,更考量版權、隱私問題,目前並未開放使用第三方語音包客制對話風格。
即時API先以公開測試形式提供使用,計費方式以每100萬組輸入文字詞元 (token)將以5美元計費,而每100萬組輸出文字詞元則以20美元計費,而每100萬組輸入音訊詞元則以100美元計費,而每100萬組輸出音訊詞元則是以200美元計費。
除了對應文字、音訊內容處理,OpenAI接下來也會在即時API擴大支援圖像、影片內容,並且讓開發者更容易在透過Python、Node.js開發語言打造應用服務整合此API資源。
視覺微調
針對人工智慧視覺應用打造的視覺微調功能,則是讓開發者可向GPT-4o提供客製化圖像資料,讓GPT-4o能以符合特定需求的電腦視覺方式分析內容。
目前東南亞最大線上預約乘車服務Grab,已經利用此功能改善其服務地圖定位準確度,例如透過輸入100組資料,即可將服務地圖車道定位準確度提升20%,同時也能讓服務駕駛更正確知曉當前行駛道路實際速限,藉此避免在服務過程有超速違規情形。
模型蒸餾
而模型蒸餾功能,則是可讓開發者將規模較大的人工智慧模型「精製」成規模較小模型,以利在終端裝置上離線使用,或是以更快效率執行運作。
雖然大型人工智慧模型有更精準、多模太使用特性,但由於對應參數量相當龐大,若要用在終端裝置可能會面臨不少挑戰,同時花費成本也相對較高,而反應速度也可能相對緩慢。
因此,透過蒸餾方式讓小型模型向大型模型學習,即可在保留小型模型佔用運算資源較小、速度較快特性,並且具備與大型模型相同的判斷精準度,同時也能以相對較低成本運作。
指令快取
至於指令快取部分,主要是針對人工智慧模型曾經執行過的指令進行暫存,一旦又有相同或類似的指令存取需求,及可以先前處理內容加快反應時間,同時也能讓人工智慧模型運作成本降低。
此外,此功能採全自動化設計,意味開發者無須手動設定哪些指令需作暫存,或是調整運作模式,即可加快人工智慧服務執行反應效率,甚至最高能節省多達50%的成本開銷。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》