データライセンス:AIプロダクトを左右する本当の制約
多くのAIプロダクトで最も難しいのはモデルではなく、そもそもそのデータを使ってよいのかという問題です。何が作られるかを静かに決める制約を、平易な言葉で案内します。
有望なAIプロダクトが行き詰まるとき、その原因はモデルでもプロンプトでも予算でもないことがよくあります。もっと静かな問題が潜んでいるのです。誰かがついに「このプロダクトが依存しているデータは、その用途のために法的に使ってよいのか」と問い、答えが「ノー」あるいは「複雑だ」だった、というケースです。データライセンスとは、何が実際にリリースできるのかを舞台裏で決める制約です。本記事は、AIプロダクトを構築・評価する人のための平易な案内であり、法的助言の代わりではありません。
なぜライセンスが決定的な制約になるのか
現代のAI機能はデータの上に成り立っています。学習用コーパス、参照ドキュメント、リアルタイムのフィード、画像、コード。そのどれにも所有者と利用条件があります。データを技術的に使えるかどうかは問題になりません。フィードをコピーするのは簡単です。問題は、その利用条件があなたの具体的な用途を許しているか、とりわけその用途が商用であったり再配布を伴ったりする場合です。
落とし穴は、技術的に簡単な道と法的に許された道がしばしば食い違うことにあります。APIは、利用条件が再配布を禁じているデータでも平然と返してきます。データセットはきれいにダウンロードできても、そのライセンスが商用利用を制限していることがあります。「動く」と「許されている」の間にあるこの隔たりこそ、プロダクトが終盤で、しかも高くついて中止になる場所なのです。
本当に重要となる問い
AIプロダクトに供給されるあらゆるデータソースについて、それを使えるかどうかは次の4つの問いで決まります。
- 商用利用。 このデータの上に構築したプロダクトで利益を上げることをライセンスは許していますか。多くのオープンデータセットは研究目的では無料でも、商用利用は制限されています。
- 再配布。 データそのもの、あるいはそこから密接に派生したものを、利用者に渡してよいですか。フィードを有料顧客に見せることは、「表示するだけ」であっても再配布にあたります。
- 派生物。 データを変換し、その上に何かを構築できますか。一部のライセンスは利用を許す一方で改変版を禁じたり、派生物に同じライセンスを課すことを求めたりします。
- 表示義務とシェアアライク。 出典を明記しなければなりませんか。あなたの成果物も同じ条件で公開しなければなりませんか。どちらもよくある条件で、見落としやすく、後から組み込むのは厄介です。
すべてのソースについてこの4つを正直に答えれば、ライセンス絡みの予期せぬ事態はほとんど消え去ります。
一般的なライセンスの系統を読む
すべてのライセンスを暗記する必要はありませんが、系統を見分けられると役立ちます。
- 寛容なオープンライセンス(コードにおけるMITやApacheなど)は、商用を含む幅広い利用を許し、通常は表示の保持だけを求めます。最も構築しやすい系統です。
- コピーレフト/シェアアライク(GPL系やCreative CommonsのShareAlikeなど)は、利用を許す一方で派生物に同じライセンスを課します。一部のプロジェクトには問題ありませんが、プロプライエタリなものには致命的です。
- 非商用ライセンス(CC BY-NCなど)は利用を許しますが、そこから利益を上げることを禁じます。これらは静かに多くのプロダクトを失格にします。
- オールライツリザーブド/プロプライエタリな条件。大半のAPI利用規約を含み、何ができるかが標準ライセンスではなく契約で定められています。
最も多い誤りは、「公開されている」を「自由に使える」と取り違えることです。見えることはライセンスではありません。読めるページが、なおオールライツリザーブドであることもあるのです。
利用規約の罠
APIは特に注意に値します。その利用条件が、自明に見える用途としばしば矛盾するからです。あるデータAPIは、自分のアカウントや社内利用のために情報を取得することは許しても、そのデータをあなたが販売するプロダクト内で再配布することは明確に禁じている、ということがあります。多くの創業者がこれに気づくのはスケールしようとしたときです。小規模なうちは誰も確認しないからです。APIにとって本当のライセンスは利用規約です。構築した後ではなく、前に読んでおきましょう。
ライセンスがAIと交わるところ
AIに固有の厄介な点が2つ、名指ししておく価値があります。
- 学習データの来歴。 データでファインチューニングや学習を行うと、そのデータのライセンスが、あなたが構築したものに付随しうります。「見つけたものは何でも学習に使った」は、ますます追及されうる――そしてリスクのある――主張になっています。
- 出力と下流の権利。 一部のモデルやデータのライセンスは、入力だけでなく出力にも条件を課します。「モデルが生み出したものは誰のものか」という問いの答えは、モデルとその背後のデータ、両方の条件次第なのです。
実践的なワークフロー
最悪の事態を避けるために弁護士になる必要はありません。説明のつく手順は次の通りです。
- プロダクトが依存するあらゆるデータソースを棚卸しする。 地味なものも含めて。
- 各ソースのライセンスや条件を記録する。 リンク付きで、一箇所に。
- 4つの問いに答える ――商用、再配布、派生物、表示/シェアアライク――各ソースについて。
- 非商用・シェアアライク・APIの規約に縛られるものに印を付ける。 その上に構築する前に、より詳しく検討するために。
- 本物の法務レビューを受ける。 金銭や再配布が絡むならローンチ前に。これは元が取れるステップです。
まとめ
多くのAIプロダクトにとって最も重要な制約は、まったく技術的なものではありません。プロダクトが動くために使うデータを、使ってよいのかどうかなのです。能力は常にそこにありますが、許可はそうとは限りません。ライセンスを一級の設計入力として扱いましょう。ソースを棚卸しし、4つの問いを立て、「公開されている」はライセンスではないと心得る――そうすれば、最も高くつく類いの終盤の不意打ち、すなわちリリースを許されない完成品、を避けられます。
本記事は一般的な情報であり、法的助言ではありません。個別の状況については、有資格の弁護士にご相談ください。
