近日,科技媒體MSPoweruser發布報道,透露微軟公司新獲一項創新專利,該專利描述了一種基于用戶實時語音輸入來生成圖片的技術。
據悉,這項專利文件長達20頁,微軟于2023年4月5日提交申請,并于10月10日獲得批準。根據專利的詳細描述,該系統能夠在會議或講座等場合實時捕捉音頻內容,隨后利用語言模型對這些音頻進行總結,并據此生成相應的AI圖像。
該專利所描述的工作流程分為三個主要步驟:首先是捕捉音頻,即用戶通過麥克風發言,系統實時記錄并將其轉化為文本;其次是處理文本,系統將文本分段記錄,并對每段內容通過語言模型進行總結;最后是生成圖像,系統根據總結生成的提示,創建AI生成的圖像,并在屏幕上實時顯示。
預計這一功能將主要應用于Microsoft Teams平臺。隨著演講者話題的變化,實時生成的圖像也會隨之更新,從而為用戶帶來更加豐富的視覺溝通體驗。微軟表示,這種圖像的使用有助于澄清概念,尤其適合那些需要通過視覺輔助來學習的用戶。