
著作権リスクを排除した、巨大LLM訓練データセット「Common Pile v0.1」公開
非営利AI研究組織EleutherAIが、トロント大学やHugging Faceらと共同で、著作権リスクを排除した8TBの巨大データセット「Common Pile v0.1」を公開した。
このデータセットは、パブリックドメインおよびオープンライセンスのコンテンツのみで構成され、AI開発における透明性と合法性を両立する画期的な一歩となる。以下でその意義を解説する。
参考ページ:The Common Pile v0.1|EleutherAI(データの入手先はこちら)
30種の多様なデータソースで構成
Common Pile v0.1は、コード(4775GB)、法律・政府文書(1172GB)、Wikipediaなどの文章(528GB)、学術論文(370GB)、パブリックドメインの書籍(244GB)など、30種類のオープンライセンス素材からなる8TBのデータセットだ。
オープンライセンスの厳格な基準を採用
EleutherAIは「透明性と科学的厳密性の確保」「オープン性の推進」「オープンライセンスへの準拠」を掲げる。多くの大規模言語モデル(LLM)はWeb上の不特定多数の情報源(例: Common Crawlなど)を使っているが、それらには保護された素材を含むことが多く、訴訟リスクを孕んでいた。
しかし、Common Pile v0.1 は、ライセンスが明確であり、かつ利用可能性が高い(permissive)データソースのみを厳選するなど厳格なライセンス基準を採用し、法的リスクをなくしている。
データセットの構築には、Open Knowledge Foundationのオープンライセンス定義が採用され、法的専門家との協議を通じてライセンスの透明性を確保。信頼できるメタデータと手動キュレーションにより、すべてのコンテンツが「使用、研究、修正、再配布」が可能な状態にあることが保証されている。
具体的なデータソース
Common Pile v0.1は著作権上グレーなReddit, StackExchange, YouTube字幕、Books3 などは除外しており、arXivなどのアカデミックな論文、GitHubなどオープンソースソフトウェア、著作権切れの書籍、OpenWebText2(Redditスコアフィルタを通過した高品質記事)などをデータソースとしている。
Comma v0.1モデルが示す競争力
このデータセットで訓練された70億パラメータの言語モデル「Comma v0.1-1T」(1兆トークン)および「Comma v0.1-2T」(2兆トークン)は、MetaのLlamaやDeepSeekなど、ライセンスの不透明なデータで訓練されたモデルと同等の性能を発揮。
コーディングや数学のベンチマークで特に優れた結果を示し、倫理的なデータ使用でも高性能が実現可能であることを証明した。
The Pileの後継、規模を10倍に拡大
Common Pile v0.1は、2020年に公開された800GBのデータセット「The Pile」の後継にあたる。
当時、PubMedやStackExchangeといった新たなデータソースを導入し、コードと自然言語の同時訓練を先駆けた「The Pile」から、規模を10倍に拡大。300,000冊以上のパブリックドメイン書籍や音声文字起こしなど、多様なソースを追加した。
まとめ
EleutherAIは今後、図書館や博物館と連携し、OCR技術で古文書をデジタル化するなど、さらなるオープンデータの拡充を計画。
商用利用における著作権的な安全性が比較的高く、LLMの学習やファインチューニング、評価ベンチマークにも使いやすい。独自LLMの事前学習コーパスとしてCommon Pileをベースに採用するのも良いだろいう。
開発者や研究者は、著作権リスクを気にせず高性能AIを構築でき、科学的再現性も加速する。