近日,哈佛大學攜手谷歌在AI領域邁出了重要一步,他們宣布將聯合發布一個規模龐大的數據集,包含約100萬本公共領域的書籍。這一舉措旨在為AI訓練提供豐富且合法的數據源。
據悉,AI訓練所需的數據成本高昂,往往讓資金有限的機構望而卻步。然而,哈佛大學此次推出的數據集,將覆蓋多種類型、語言和作者的作品,其中包括許多經典作家的名著,如狄更斯、但丁和莎士比亞等人的作品。這些作品的版權已隨時間流逝而過期,因此可以被自由使用。
值得注意的是,早在今年3月,哈佛大學就已透露了其“機構數據計劃(IDI)”,旨在構建一個合法且可信的數據通道,以支持AI的發展。該計劃直到正式啟動后,才確認了微軟和OpenAI的資金支持。
作為IDI的執行董事,格雷格·萊佩特表示,這一數據集的目標是讓AI領域的競爭環境更加公平。通過向研究機構、AI初創公司等各類機構開放這一龐大的數據集,他們將有更多機會訓練出大型語言模型,從而推動AI技術的進一步發展。