亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

AI數(shù)據(jù)源頭揭秘:巨頭壟斷加劇,西方文化主導(dǎo)下的模型偏見何時(shí)休?

   發(fā)布時(shí)間:2025-01-30 15:23 作者:沈如風(fēng)

在人工智能領(lǐng)域,LLM和Agent技術(shù)日新月異,取得了高度成熟的進(jìn)展。然而,相比之下,數(shù)據(jù)收集方面的規(guī)范化進(jìn)程卻明顯滯后。一個(gè)引人深思的問題擺在了人們面前:AI訓(xùn)練所需的海量數(shù)據(jù)究竟源自何處?為了解答這一問題,一個(gè)名為數(shù)據(jù)溯源計(jì)劃(DPI)的國際性研究團(tuán)隊(duì)?wèi)?yīng)運(yùn)而生。

Longpre強(qiáng)調(diào),對(duì)于基座模型的能力而言,互聯(lián)網(wǎng)的規(guī)模和數(shù)據(jù)的異構(gòu)性至關(guān)重要。對(duì)規(guī)模的需求也促進(jìn)了合成數(shù)據(jù)的大量使用。除了語言模型外,近年來多模態(tài)生成式AI(GenAI)也迅速崛起,如圖像和視頻生成模型。這些模型同樣需要盡可能多的數(shù)據(jù),而視頻模型的語音和圖像數(shù)據(jù)集中,超過70%的數(shù)據(jù)都來自YouTube。這一現(xiàn)象對(duì)擁有YouTube平臺(tái)的谷歌及其母公司Alphabet極為有利,因?yàn)槲谋緮?shù)據(jù)分布在整個(gè)互聯(lián)網(wǎng)上,由許多不同的網(wǎng)站和平臺(tái)控制,但視頻數(shù)據(jù)的權(quán)力卻如此集中地掌握在一家公司手中。

AI Now Institute聯(lián)合執(zhí)行董事Sarah Myers West對(duì)此表示擔(dān)憂,她認(rèn)為谷歌在開發(fā)自己的人工智能模型(如Gemini)方面具有巨大優(yōu)勢(shì),這引發(fā)了人們對(duì)其如何向競爭對(duì)手提供數(shù)據(jù)的疑問。更深層次的問題是,如果我們所交互的大多數(shù)AI數(shù)據(jù)集都反映了以利潤為導(dǎo)向的科技巨頭的意圖和設(shè)計(jì),那么這些大公司可能會(huì)以符合自己利益的方式重塑我們世界的基礎(chǔ)設(shè)施。

數(shù)據(jù)集之間的集成和沿襲缺乏一致性,這使得開發(fā)人員很難做出正確的數(shù)據(jù)選擇,也無法保證模型訓(xùn)練過程中沒有使用過受版權(quán)保護(hù)的數(shù)據(jù)。最近,OpenAI、Google等公司與出版商、Reddit等主要論壇以及網(wǎng)絡(luò)社交媒體平臺(tái)達(dá)成了獨(dú)家數(shù)據(jù)共享協(xié)議,這進(jìn)一步加劇了數(shù)據(jù)壟斷的趨勢(shì)。這一趨勢(shì)有利于AI領(lǐng)域的最大玩家,他們有足夠的財(cái)力進(jìn)行數(shù)據(jù)交易,但卻犧牲了學(xué)術(shù)界研究人員、非營利組織和小公司的利益。

更令人擔(dān)憂的是,用于訓(xùn)練AI模型的數(shù)據(jù)嚴(yán)重偏向西方世界。DPI團(tuán)隊(duì)分析的數(shù)據(jù)集中,超過90%來自歐洲和北美,而非洲的數(shù)據(jù)占比不到4%。Hugging Face首席倫理學(xué)家Giada Pistilli指出,英語在訓(xùn)練數(shù)據(jù)中占據(jù)主導(dǎo)地位的原因之一是互聯(lián)網(wǎng)中90%以上的內(nèi)容仍然是英語;另一個(gè)原因是便利性:將其他語言的數(shù)據(jù)集放在一起并考慮其他文化需要進(jìn)行更多的數(shù)據(jù)工作以及開發(fā)人員的有意識(shí)意圖。這導(dǎo)致多模態(tài)模型的輸出往往以西方文化為焦點(diǎn),例如當(dāng)提示AI模型生成婚禮的景象和聲音時(shí),可能只能得到西式婚禮相關(guān)的內(nèi)容。

數(shù)據(jù)集代表了人類社會(huì)中的偏見,而經(jīng)過這些數(shù)據(jù)訓(xùn)練的模型又加劇了這些偏見。這可能導(dǎo)致AI模型推動(dòng)一種以美國為中心的世界觀,同時(shí)不經(jīng)意間抹去其他語言和文化。為了解決這個(gè)問題,DPI團(tuán)隊(duì)呼吁加強(qiáng)數(shù)據(jù)收集方面的規(guī)范化進(jìn)程,提高數(shù)據(jù)透明度和多樣性,以確保AI技術(shù)的公平性和可持續(xù)性發(fā)展。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群