我用 ChatGPT 高級語音開啓時間旅行之旅

OpenAI 的 GPT-4o 高級語音功能 是本年度最強大且具有潛在重要性的人工智能工具之一。它能讓您與人工智能語音展開類似人類的自然交流,甚至在其說得過多時打斷它。

目前只有少數ChatGPT Plus訂閱用戶能夠使用,這種與技術交互的新方式預計在今年秋季能夠廣泛使用。該公司還計劃明年推出一種視覺模式,允許您通過相機看世界。

高級語音與當前的ChatGPT 語音乃至新推出的Gemini Live的不同之處在於它是語音對語音。這意味着它能夠原生地理解您說的話、您說話的方式以及您話語背後的情感語調。

它還能模仿口音並講述精彩的故事,所以我讓高級語音帶我進行一次時間旅行冒險。它從前往古埃及的旅行開始,並以一位商人的聲音講述。它不僅聲音表現出色,而且還是個有趣的講故事能手。

使用高級語音與其他任何人工智能技術並無太大差異,其起始於一個提示。

與通過文本與 ChatGPT 交流或利用 Midjourney 生成圖像不同,高級語音是由您的聲音來提示的。

在最基礎的層面上,這僅僅是告訴它您期望它做的事,但它還能夠捕捉到您聲音中的語調變化

所以,如果您讓它解釋生命的意義,而您聽起來有點淚眼汪汪或心煩意亂,它的迴應方式將會反映出您的聲音狀態。

在這次冒險中,我直截了當地開始,就只是問高級語音:“現在,我們要經歷一個故事。想象一下,你是個時間旅行者。你會回到歷史上的哪個時期?”

它提議去 19 世紀芝加哥舉辦的世界博覽會。我讓它扮演時間旅行者的角色,還要像在博覽會上的人那樣說話。在芝加哥短暫停留後,我問道:“我們去別的地方吧。按下按鈕,帶我去一個新的地方。”我們去了古埃及。

高級語音說道:“想象一下這種情景:宏偉的金字塔正在建造,尼羅河如同一個繁榮文明的命脈般流淌。在這個時期和這個地方,你最感到好奇的是什麼?”

這就是我向它詢問有關語言的地方,包括儘可能準確地依據我們所知說出這些詞。

然後我們去了一個市場,最後到了羅馬,還有我們的埃及商人和一位羅馬公民之間的對話,一個說埃及語,另一個講拉丁語。我甚至讓高級語音在冒險的一小部分採用尤達的聲音,它嘗試得不錯。

高級語音是個出色的講故事者,能夠改變情緒層次,反映出不同場景的強度,甚至運用不同的口音和聲音。

我對它存在的問題在於 OpenAI 所施加的限制。

它‘原本可以’生成音效來增強場景,但卻已被禁止這樣做。

這個問題是可以理解的,那就是安全問題。

要求模型執行那些更具不可預測性的任務,可能會致使輸出違背 OpenAI 的安全準則,並且還有可能將高級語音推向不安全發佈的範疇。

只是知曉那些功能有點難以企及,這着實令人感到沮喪。

即便沒有這些功能,高級語音依然是我與 AI 所進行的最佳交互,它允許實時對話,自然流暢,我能夠隨意打斷,並且還有人能夠像人類一樣依照我的語氣和速度做出迴應。