谷歌近期在科技界再次投下一枚震撼彈,伴隨著Gemini 2.0版本的發布,一款名為多模態直播(Multimodal Live)的全新API也正式亮相。這款API旨在為開發者提供強大的實時音頻與視頻流功能,助力他們打造出更為先進的應用程序。
這款多模態直播API不僅實現了低延遲的雙向文本、音頻和視頻交互,還通過音頻和文本形式的輸出,為用戶帶來了前所未有的自然流暢對話體驗。用戶可以隨時隨地打斷模型,并通過攝像頭輸入或屏幕錄像與模型進行互動,提出自己的疑問或分享見解。
多模態直播API的視頻理解功能進一步拓展了通信的邊界,用戶現在可以使用攝像頭實時拍攝或共享桌面內容,并基于此提出相關問題。這種創新的功能使得用戶與模型的互動更加直觀和高效。
為了推動這一技術的普及和應用,谷歌已經向開發者全面開放了這款API,并提供了一個多模態實時助手的演示應用。這一演示應用充分展示了API的強大功能和便捷性,為開發者提供了寶貴的參考和靈感。
這款API還支持集成多種工具,大大簡化了開發過程。開發者只需進行一次API調用,就能輕松實現復雜的用例,從而大大提高了開發效率和用戶體驗。