京東言犀近期宣布推出LiveTTS語音合成大模型及升級版的通用數(shù)字人大模型2.0,這兩項技術(shù)革新將顯著提升人機交互的自然流暢度。新版本不僅支持零樣本音色復(fù)刻與精細音色調(diào)整,還實現(xiàn)了更精確的數(shù)字人聲與唇動的同步,為用戶帶來更加逼真的交互體驗。
在業(yè)界知名的SeedTTS test-hard測試中,LiveTTS的表現(xiàn)尤為亮眼,其字符錯誤率(CER)相較于其他主流廠商的模型有了顯著下降,降低幅度在0.2%至5.12%之間。這意味著,在長達一萬字的文本朗讀中,LiveTTS能夠減少最多達512次的發(fā)音錯誤,極大地提升了語音合成的準確性和流暢性。
京東言犀的這項技術(shù)已經(jīng)針對多個商業(yè)化場景進行了深度優(yōu)化,包括但不限于直播、外呼服務(wù)、客服互動以及營銷活動等,覆蓋了超過10種不同的應(yīng)用場景。這一廣泛的適用性,無疑將極大地拓寬LiveTTS及數(shù)字人大模型2.0的應(yīng)用范圍和市場潛力。
通過LiveTTS及數(shù)字人大模型2.0的引入,京東言犀旨在為用戶提供更加自然、高效的人機交互解決方案。無論是在線直播中的實時互動,還是客戶服務(wù)中的語音應(yīng)答,亦或是營銷活動中的個性化推廣,這些技術(shù)都將為用戶帶來前所未有的沉浸式體驗。
隨著技術(shù)的不斷成熟和應(yīng)用場景的不斷拓展,京東言犀的LiveTTS及數(shù)字人大模型2.0有望在人機交互領(lǐng)域掀起一場革命性的變革。未來,我們有理由期待這些技術(shù)將在更多領(lǐng)域發(fā)揮重要作用,為用戶帶來更加便捷、智能的生活體驗。