識因智能AI與你同行|谷歌HeAR AI模型,通過聲音識別疾病

Scale AI創始人論AI性能停滯與數據壁壘問題

Scale AI的華裔創始人指出,當前AI性能的停滯主要是由於數據壁壘,即互聯網上可訪問的數據已被耗盡。爲了突破性能瓶頸,需要更多多樣化和專業化的數據。同時,他強調AI技術的重要性,並提出對最先進的AI系統採取封閉策略,以防止潛在的負面後果。此外,數據獲取與治理被視爲AI發展的關鍵,需要更寬鬆的數據訪問政策來支持AI技術的進步。

谷歌HeAR AI模型,通過聲音識別疾病

谷歌推出的HeAR AI模型,通過分析咳嗽、說話和呼吸聲音來識別疾病,特別是肺結核等。HeAR模型經過超過1億次咳嗽聲的訓練,能夠準確識別疾病的早期徵兆。該模型已在印度得到應用,並得到了聯合國“終止結核夥伴關係”的支持,提高了肺結核的早期檢測能力。

字節跳動Seed-ASR語音模型,支持多語言和方言識別

字節跳動推出的Seed-ASR語音模型,能夠識別和轉錄包括13種中國方言和7種外語在內的多種語言。該模型採用數十億參數,結合音頻編碼器和大語言模型,實現了上下文感知的語音識別。通過自監督學習、監督微調、上下文微調和強化學習的訓練過程,Seed-ASR在長文本處理和專業領域的表現得到了顯著提升。

KAN 2.0神經網絡架構更新,助力經典物理學研究

KAN 2.0是一次重要的神經網絡架構更新,它增強了對經典物理學問題的處理能力,支持研究者定製化使用。新增的MultKAN、kanpiler和樹轉換器等功能,提升了模型的解釋性和科學發現能力。KAN 2.0在物理定律的發現和構造方面展示了其應用潛力,並計劃將這種能力擴展到更多的科學領域。

英偉達LongVILA模型,長視頻處理準確率近100%

英偉達推出的LongVILA是一種全棧長視頻視覺語言模型解決方案,能夠處理高達1024幀的視頻,準確率接近100%。LongVILA採用多模態序列並行技術,優化了內存使用和處理速度,顯著提升了長上下文訓練的效率。在長視頻字幕和指令遵循任務上,LongVILA展現出卓越的性能,通過創新的系統設計和模型訓練策略,增強了處理長序列視頻的能力。

英偉達AI NPC技術首次應用於遊戲《解限機》

英偉達利用其Nvidia ACE技術,首次在遊戲中推出了能理解玩家語音並動態響應的AI NPC。這一技術採用了Minitron 4B模型,僅需2GB顯存即可在本地快速響應,適用於所有型號的RTX GPU。儘管AI NPC在智能和響應速度上有所提升,但玩家反饋顯示,其反應與傳統遊戲NPC相似,暴露了輕量級模型在某些方面的侷限性。

AI模型AutMedAI提前識別兒童自閉症,準確率超80%

使用AI模型AutMedAI,研究者能夠在兒童12個月大之前準確識別自閉症,準確率達到80.5%。AutMedAI模型利用基礎醫療篩查和背景歷史信息,依賴家長報告的數據,簡化了特徵選擇,使得早期篩查更加實用和廣泛適用。研究利用了大規模數據庫SPARK,確保了研究的廣泛適用性和模型的泛化能力。

微軟發佈Phi 3.5系列AI模型,支持自定義微調

微軟近期推出了Phi 3.5系列的三款新模型,包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct,它們均支持自定義微調和商業用途。這些模型覆蓋了從輕量級到多模態的多樣化需求,特別是Phi-3.5-MoE-instruct採用的混合專家架構,以及Phi-3.5-vision-instruct的多模態能力,爲高質量推理和複雜視覺任務提供了強有力的支持。

OpenAI推出GPT-4o微調服務,提升AI應用性能

OpenAI最新宣佈的GPT-4o微調服務,爲開發者提供了一個使用自定義數據集進行模型優化的平臺。這項服務不僅提高了AI在特定應用場景中的性能,還通過優惠期的免費訓練tokens,增加了成本效率。GPT-4o在軟件工程和SQL查詢生成等多個行業基準測試中表現卓越,展現了其在企業級解決方案中的實際價值和潛力。

人工智能成爲新質生產力的重要引擎

2024年世界機器人大會在北京舉行,聚焦人工智能與機器人技術融合,展出27款人形機器人。《政府工作報告》首次提出"人工智能+"行動,強調其在產業升級中的關鍵作用。人工智能正廣泛應用於智能製造、醫療等領域,推動生產力質的飛躍。爲進一步發揮其潛力,需加速技術創新和行業應用落地,同時獲得政策支持。我國龐大的市場和豐富的應用場景爲人工智能發展提供廣闊空間。

*內容來源於互聯網信息整理,僅供參考