☰

識因智能AI與你同行｜谷歌HeAR AI模型，通過聲音識別疾病

Scale AI創始人論AI性能停滯與數據壁壘問題

Scale AI的華裔創始人指出，當前AI性能的停滯主要是由於數據壁壘，即互聯網上可訪問的數據已被耗盡。爲了突破性能瓶頸，需要更多多樣化和專業化的數據。同時，他強調AI技術的重要性，並提出對最先進的AI系統採取封閉策略，以防止潛在的負面後果。此外，數據獲取與治理被視爲AI發展的關鍵，需要更寬鬆的數據訪問政策來支持AI技術的進步。

谷歌HeAR AI模型，通過聲音識別疾病

谷歌推出的HeAR AI模型，通過分析咳嗽、說話和呼吸聲音來識別疾病，特別是肺結核等。HeAR模型經過超過1億次咳嗽聲的訓練，能夠準確識別疾病的早期徵兆。該模型已在印度得到應用，並得到了聯合國“終止結核夥伴關係”的支持，提高了肺結核的早期檢測能力。

字節跳動Seed-ASR語音模型，支持多語言和方言識別

字節跳動推出的Seed-ASR語音模型，能夠識別和轉錄包括13種中國方言和7種外語在內的多種語言。該模型採用數十億參數，結合音頻編碼器和大語言模型，實現了上下文感知的語音識別。通過自監督學習、監督微調、上下文微調和強化學習的訓練過程，Seed-ASR在長文本處理和專業領域的表現得到了顯著提升。

KAN 2.0神經網絡架構更新，助力經典物理學研究

KAN 2.0是一次重要的神經網絡架構更新，它增強了對經典物理學問題的處理能力，支持研究者定製化使用。新增的MultKAN、kanpiler和樹轉換器等功能，提升了模型的解釋性和科學發現能力。KAN 2.0在物理定律的發現和構造方面展示了其應用潛力，並計劃將這種能力擴展到更多的科學領域。

英偉達LongVILA模型，長視頻處理準確率近100%

英偉達推出的LongVILA是一種全棧長視頻視覺語言模型解決方案，能夠處理高達1024幀的視頻，準確率接近100%。LongVILA採用多模態序列並行技術，優化了內存使用和處理速度，顯著提升了長上下文訓練的效率。在長視頻字幕和指令遵循任務上，LongVILA展現出卓越的性能，通過創新的系統設計和模型訓練策略，增強了處理長序列視頻的能力。

英偉達AI NPC技術首次應用於遊戲《解限機》

英偉達利用其Nvidia ACE技術，首次在遊戲中推出了能理解玩家語音並動態響應的AI NPC。這一技術採用了Minitron 4B模型，僅需2GB顯存即可在本地快速響應，適用於所有型號的RTX GPU。儘管AI NPC在智能和響應速度上有所提升，但玩家反饋顯示，其反應與傳統遊戲NPC相似，暴露了輕量級模型在某些方面的侷限性。

AI模型AutMedAI提前識別兒童自閉症，準確率超80%

使用AI模型AutMedAI，研究者能夠在兒童12個月大之前準確識別自閉症，準確率達到80.5%。AutMedAI模型利用基礎醫療篩查和背景歷史信息，依賴家長報告的數據，簡化了特徵選擇，使得早期篩查更加實用和廣泛適用。研究利用了大規模數據庫SPARK，確保了研究的廣泛適用性和模型的泛化能力。

微軟發佈Phi 3.5系列AI模型，支持自定義微調

微軟近期推出了Phi 3.5系列的三款新模型，包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，它們均支持自定義微調和商業用途。這些模型覆蓋了從輕量級到多模態的多樣化需求，特別是Phi-3.5-MoE-instruct採用的混合專家架構，以及Phi-3.5-vision-instruct的多模態能力，爲高質量推理和複雜視覺任務提供了強有力的支持。

OpenAI推出GPT-4o微調服務，提升AI應用性能

OpenAI最新宣佈的GPT-4o微調服務，爲開發者提供了一個使用自定義數據集進行模型優化的平臺。這項服務不僅提高了AI在特定應用場景中的性能，還通過優惠期的免費訓練tokens，增加了成本效率。GPT-4o在軟件工程和SQL查詢生成等多個行業基準測試中表現卓越，展現了其在企業級解決方案中的實際價值和潛力。

人工智能成爲新質生產力的重要引擎

2024年世界機器人大會在北京舉行，聚焦人工智能與機器人技術融合，展出27款人形機器人。《政府工作報告》首次提出"人工智能+"行動，強調其在產業升級中的關鍵作用。人工智能正廣泛應用於智能製造、醫療等領域，推動生產力質的飛躍。爲進一步發揮其潛力，需加速技術創新和行業應用落地，同時獲得政策支持。我國龐大的市場和豐富的應用場景爲人工智能發展提供廣闊空間。

*內容來源於互聯網信息整理，僅供參考

識因智能AI與你同行｜谷歌HeAR AI模型，通過聲音識別疾病

相關資訊