近日,維基媒體基金會旗下的 Wikimedia Enterprise 公布了一項重要進展,他們在 Kaggle 平臺上推出了英語和法語版本的維基百科結(jié)構(gòu)化內(nèi)容快照數(shù)據(jù)集,該數(shù)據(jù)集以 JSON 格式呈現(xiàn)。
據(jù)了解,這一數(shù)據(jù)集的發(fā)布旨在方便 AI 和機器學(xué)習(xí)領(lǐng)域的專業(yè)人士進行建模、基準(zhǔn)測試、對齊、微調(diào)和探索性分析。數(shù)據(jù)集在設(shè)計過程中充分考慮了機器學(xué)習(xí)的工作流程,大大簡化了機器訪問維基百科內(nèi)容的流程,使得使用者無需再對維基百科主站的原始內(nèi)容進行繁瑣的抓取和解析。
對于 AI 爬蟲而言,這一數(shù)據(jù)集的推出無疑是一個利好消息。它們可以直接利用現(xiàn)成的數(shù)據(jù)集進行工作,從而減少了在主站爬取數(shù)據(jù)所帶來的流量負(fù)擔(dān)。這一改變不僅有助于提升 AI 爬蟲的工作效率,同時也為維基百科的可持續(xù)運營提供了有力支持。
維基媒體基金會表示,他們將繼續(xù)致力于推動數(shù)據(jù)的開放和共享,以支持全球范圍內(nèi)的知識創(chuàng)新和傳播。未來,他們還將探索更多方式,以便更好地服務(wù)于學(xué)術(shù)界、產(chǎn)業(yè)界以及廣大用戶。