[IND] 4 分鐘閱讀OraCore 編輯部

4 個音樂資料集正在改寫 AI 訓練

4 個超過 2100 萬首曲目的音樂資料集,正在推動 AI 訓練與授權談判走向新局。

分享 LinkedIn
4 個音樂資料集正在改寫 AI 訓練

四個大型音樂資料集正在影響 AI 音樂模型的訓練方式。

這份清單看完,你可以快速判斷 4 個資料集各自的規模、來源透明度與法律風險,進而看懂音樂 AI 為何正從「抓資料訓練」走向「談授權合作」。

項目曲目數公開來源重點
LAION-DISCO-12M1200 萬以上只提供公開 YouTube 連結與 metadata
大型未具名資料集約 900 萬未在摘要中交代兩個最大集合之一
Free Music Archive10 萬以上據報導被 Google、Stability AI 使用
另一個未具名小型資料集10 萬以上未在摘要中交代兩個較小集合之一

1. LAION-DISCO-12M 先把規模拉到最大

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

LAION 的 LAION-DISCO-12M 是報導中最清楚、也最大的公開資料集之一,2024 年 11 月釋出,規模超過 1200 萬首。它的定位不是商業成品資料庫,而是研究用途。

4 個音樂資料集正在改寫 AI 訓練

這點很重要,因為它不是直接分發音訊檔,而是提供公開 YouTube 曲目連結與中繼資料。對 AI 開發者來說,這種形式更容易擴大訓練集;對版權方來說,則更難追蹤實際用了哪些內容。

  • 1200 萬以上曲目
  • 2024 年 11 月發布
  • 研究用途框架
  • 提供連結與 metadata,不直接提供音訊

2. 900 萬首的集合最能放大不透明問題

第二個大集合約有 900 萬首,但報導摘要沒有交代公開來源,這種不完整資訊正是音樂產業最在意的地方。當資料集大到這個量級,模型就可能在流派、年代與歌手目錄上都受到影響。

報導提到,這 4 個資料集合計超過 2100 萬首,且包含 Bad Bunny、Nirvana、Taylor Swift、Billie Eilish、Pearl Jam 和 The Beatles 等作品。對權利人來說,真正棘手的不只是「有沒有用到」,而是「怎麼用到、誰能查到」。

  • 約 900 萬首
  • 來源在摘要中未完整揭露
  • 屬於兩個最大集合之一
  • 涉及受版權保護的音樂

3. Free Music Archive 是最容易追溯的案例

Free Music Archive 最早是 2017 年由學術研究者發布,目的是做 music-information-retrieval,也就是搜尋、分類與分析音樂的研究。它的優勢不是量最大,而是來源最清楚。

4 個音樂資料集正在改寫 AI 訓練

這個資料庫來自 WFMU 的曲庫,許多作品早就以較寬鬆的 Creative Commons 授權公開。這讓它和後來被拿去訓練生成式 AI 的資料相比,具有更明確的授權脈絡。

  • 10 萬以上曲目
  • 2017 年以學術用途發布
  • 基於 Creative Commons 授權作品
  • 據報導被 Google 與 Stability AI 使用

4. 另一個 10 萬級資料集反映審計難度

第四個集合也是約 10 萬首,但報導摘要沒有點名。這種「有規模、沒名字」的狀況,正好說明音樂 AI 訓練資料的審計難題:外界知道它存在,卻不一定知道它怎麼來、怎麼被用。

The Atlantic 的報導指出,這 4 個資料集都被下載過好幾千次。當下載次數已經這麼高,卻仍缺少完整公開資訊,版權爭議自然會持續擴大。

  • 10 萬以上曲目
  • 在摘要中未命名
  • 曾被下載數千次
  • 最能代表訓練資料的黑箱問題

5. 真正的轉折是授權,不只是資料集

UdioSuno 正面臨至少 12 起訴訟,但市場走向已經不只是在法院裡拉鋸。Universal Music Group 已在 2025 年 10 月與 Udio 和解,Warner Music Group 也先後與 Udio、Suno 達成協議。

這代表一個明顯訊號:音樂 AI 可能會從開放式抓取訓練,轉向授權式系統。Sony Music 仍在訴訟中,獨立音樂人與美國音樂家聯盟也還在追討未授權使用的補償。

  • Udio 面臨至少 12 起訴訟
  • UMG 已與 Udio 和解
  • Warner 也與 Udio、Suno 達成協議
  • Sony Music 仍在訴訟中

怎麼挑,才看得懂這場戰局

如果你重視規模,LAION-DISCO-12M 最值得看;如果你重視來源與授權脈絡,Free Music Archive 最有參考價值;如果你想判斷產業未來走向,Udio 和 Suno 的授權協議比單一資料集更重要。

對一般讀者來說,這份清單最重要的結論不是誰收錄最多,而是音樂 AI 的核心競爭已經從「資料量」轉到「資料能不能被查清楚、能不能合法使用」。