民間籲修法、官方拼勸募

2025年7月國家通訊社《中央社》對繁體中文語料集「fineweb2-zhtw」開源志工、台大博士生鍾浩霖提起刑事訴訟,起因是語料集包含未經授權的《中央社》新聞內容。儘管雙方和解作收,台灣相關法規、互動機制依然維持空白。
缺乏法規制度之下,AI開發者與著作權利人得個別洽談授權合作,或進入漫長的訴訟救濟,形成雙輸局面:著作權利人往往空有權利,卻難獲得實質回報或侵權補償;AI開發者難以取得內容訓練AI模型,也阻礙台灣想建立主權AI──具台灣文化核心價值及在地語料的生成式AI系統。
與《中央社》和解後半年,鍾浩霖同意《報導者》採訪,將故事從頭說起。
當時鍾浩霖想「可能是訓練模型用的資料不夠多」,導致模型沒辦法提供適切回應。他觀察,當時不少AI開發者在開源平台Hugging Face釋出對話式語料集,供其他開發者使用,但繁體中文資料占比甚低,「所以我想填上這一塊。」
他想整理語料也和「香港文化慢慢消亡」相關。看著近年香港政治情勢惡化,「你總是想做點什麼。但因為離開香港,比較少做廣東話的。」
於是,鍾浩霖從Hugging Face取得包含多種語言的資料集FineWeb,參考聯發創新基地團隊發表的過濾技術,將資料集繁體中文部分彙整(包含眾多台灣媒體內容),再重新上傳平台公開釋出,作為漫長博士生涯中「讓自己快樂的小專案」。
鍾浩霖認定自身行為屬非營利性質,對《中央社》採取法律行動「感到意外」;不過,站在《中央社》立場,發展主權AI固然重要,未經授權仍是問題。
李永得強調,只要AI開發者願意洽談,《中央社》將以對方可負擔的價碼授權,或以勞務交換方式合作,目前也有數起國內單位的合作案例。
《中央社》媒體實驗室主任宋育泰進一步解釋,鍾浩霖的行為並非單純語料彙整,而是公開版權內容:「如果是程式編碼壓縮過,一般人看不到裡面的內容,可是,他做了介面讓大家去查資料。你怎麼會把我們以前的東西放出來?當30年前、20年前的新聞在裡面被查到,那大家就不用來我們的資料庫查啦!」
儘管最終《中央社》與鍾浩霖和解落幕,不過,長期來看,台灣仍須發展自有生成式AI模型。建立內容產業、AI產業在內容使用上的互動框架,有其必要。
從文化平權角度理解,主權AI不可或缺。
《三立電視》資深副總經理林慧珍長期負責將AI導入集團、開發相關應用,她就舉例:「我們老年人口比例是高的,如果AI只會講國語,以後(長輩)講台語、中間穿插幾個中文(此指漢語)的時候,那誰來服務他?」
一旦AI不理解台語,自然也無法提供相應服務,「那對這些人來說不公平。台語這件事情在很多的場域上面,我覺得它還是被需要,」林慧珍說。
此外,一旦涉及特定領域應用或機敏資料的場景,台灣發展自有生成式AI模型仍是最安全的作法。
「法律是我們自己的,Google為什麼要替台灣做?」中央研究院院資訊科技創新研究中心研究員李育杰分析,在地化、專門用於特定領域的模型開發,例如台灣專門用於教育、司法、醫療場域的AI模型尚未發展成熟,因為科技巨頭往往沒有誘因投入相關研發。

此外,由於來自中國的簡體中文資料遠多於繁體中文,多數大型語言模型訓練時吸收大量中國價值觀,有相關價值判斷透過AI滲入使用者日常的風險。

在台灣,與AI模型訓練資料集授權相關的《著作權法》前次修法是2022年6月──彼時OpenAI尚未發布生成式AI模型ChatGPT──因此,現行《著作權法》未明白定義「使用內容訓練AI模型」是否侵權,必須留待法院個案判斷。面對爭議,台灣AI開發者與著作權利人,只能如《中央社》與鍾浩霖進入司法訴訟解決。
AI開發者若想將法律風險降至最低,解法之一是向內容製作單位逐一洽談合作。
國科會計畫「台灣可信任生成式AI引擎基礎模型(Trustworthy AI Dialogue Engine, TAIDE)」就是採取「事前洽談合作」的代表性案例。
TAIDE計畫始於2023年4月,計畫初期將具有台灣主體性的內容資料注入由Meta開發的多語系的大型語言模型Llama2,使模型更理解台灣文化脈絡;2025年底至今則以Google開發的Gemma-3模型為基礎進行進一步訓練。
為了確保模型可信任性,2023年TAIDE計畫剛啟動時,團隊委由國家實驗研究院科政中心負責向各內容著作單位洽談內容授權合作。
最終,用於訓練模型的素材包含各部會資料(如:外交部《光華雜誌》、文化部「國家文化記憶庫」),合作的新聞媒體包含《中央社》、《今周刊》等等。
授權TAIDE計畫歷史新聞資料的《今周刊》發行人梁永煌說,收取費用目的不在於增加營收:「那不是重要的收入。才(新台幣)1、200萬,占整體營收比重不大。」他解釋不能免費授權的原因:
「『著作權有價』是普世價值,台灣媒體爭取Google能夠合理付費,也是同樣邏輯。」
這些以「乾淨資料」訓練的模型TAIDE-LX-7B,最終在2024年4月對外開源釋出,供多個單位進一步開發應用服務。如:台南大學資訊工程學系教授李健興利用ChatGPT和TAIDE開發台語、英語學習工具「台英慧」聊天機器人,使用者可以台語語音輸入、模型以英語回應,幫助學生練習台、英語。
然而,個別洽談合作所能取得的資料集量體,往往不足以撐起AI模型訓練所需。
李育杰說,以當時的技術,「模型(參數量)如果超過30B,會有能力上的進階,忽然變比較厲害;太小的模型能力有限。」
因此,TAIDE計畫也開發參數量130億(13B)、700億(70B)的語言模型,但僅供內部學術研究使用。李育杰認為,既然「拿著政府的計畫」,還是得試著訓練出愈大的模型,愈對得起資源。
從促進多元內容發展的角度來看,個別洽談合作的模式也埋下小型創作者被邊緣化的隱憂。台灣科技大學專利研究所助理教授李姿儀就指出:
「如果丟給技術開發者和著作權人之間自己發展授權,最後就是有資本的大AI公司、大型內容集團可以談授權,個別的、小的創作者沒有議價能力。」
留美攻讀法律博士前,李姿儀曾在文化部任職基層公務員近10年,經手過複雜的文化產品著作權盤點業務,熟悉著作權利釐清與主張的實務困難。
當交易成本過高,「權利人就空有權利,沒有辦法真的被保障,」李姿儀說。
追本溯源,鍾浩霖彙整的資料來自非營利組織Common Crawl2007年啟動的網路資料備份專案,該基金會存檔包含超過19年、3,000億個網站的數據,包含台灣新聞與內容網站的公開資料,並免費開放各界使用,逐漸成為全球自然語言處理(NLP)領域最常用的資料來源,至今已有超過10,000篇學術論文引用。
在海外,Common Crawl資料庫也是OpenAI ChatGPT、Google Gemini、Meta Llama等科技公司訓練大型語言模型的初始資料來源;在台灣,這也是研究人員長期仰賴的資料庫,例如:聯發科技公司旗下的研究單位「聯發創新基地」2025年2月發表的研究成果也使用Common Crawl和FineWeb-zhtw資料集。
不過2023年生成式AI熱潮爆發後,Common Crawl即處在爭議漩渦。據報導,該基金會收到《紐約時報》(The New York Times)等媒體要求後,已停止擷取相關網站內容。Common Crawl強調,其爬蟲遵守網站的robots.txt協定,不會抓取禁止爬取或需要付費的內容。
長期耕耘開源授權的鈞理知識產權事務所法制顧問林誠夏解釋,開源和創用CC授權的前提是,由著作權利人同意。非著作權利人無法執行CC授權,而協助將照片進行PDN標註的行為,也不等同宣告著作權。例如:超過百年的日治時代照片,若要授權再利用,在CC架構下應該表示為「公眾領域PDM(Public Domain Mark)」。
他分析,目前許多開源資料集,無論是Common Crawl或Internet Archive,「其實他們都沒有主張著作權利,只是事實性陳述,『我幫各位備份、結構化這些網路資料,如果你認為你可以合法使用,你就用』,但是,他並沒有擔保『你可以怎麼用』。」此外,這類資料集多半會附上免責聲明,主張未取代原資料故為合理使用,「但是,我主張合理使用,不表示你拿去做商業使用也可以主張。」
另一種常見機制是雙重授權模式(Dual License),「意思就是說,我願意讓大家免費用,可是,如果你是商用,就希望轉換為商業授權,而非原先的免責授權。」
李姿儀解釋,儘管AI訓練在技術上進行疑似「重製」行為,但目的是數學分析,而非「對著作內容表達的感官享受」,與傳統著作權侵害本質有所差異。而現行《著作權法》第65條合理使用條件之下,法院需要個案認定AI訓練是否構成合理使用。
「只要有一個條件不一樣,(判斷)就會差很多。每一個情況,都要個案討論,沒有辦法直接說這樣『可以』還是『不行』。」
李姿儀說,由於個案的判決結果,很難發展成同類標準適用所有情況,「對權利人、產業、技術發展者都是很高的不確定性。」
現行《著作權法》的不確定性也導致各方關係人盡可能保守行事。
鈞理知識產權事務所法制顧問林誠夏就觀察,目前民間單位開發的繁體中文大型語言模型多採取灰色地帶處理。他指出,聯發創新基地打造的系列語言模型Breeze-7B只有「公開指令資料集」概括說明與技術報告,未逐一公布資料集名錄;去年發布的繁中多模態語言模型Breeze 2以論文表格揭露來源名稱與各類資料量。另外,外界無法以公開資訊得知鴻海旗下的模型FoxBrain使用哪些資料集,僅有「來源類別、資料量與處理管線」的描述。
而就《報導者》了解,《中央社》提告事件後,更多台灣AI開發者為降低法律風險,採取「釋出模型、但不說明資料集」的「保險方式」。當AI開發者未主動公布模型訓練使用的資料集內容,要證明某個生成式AI模型使用某項內容訓練,得跨過一定的技術門檻。
一體兩面,對AI開發者的「保險方式」,正是內容端的「無奈」。
雜誌公會理事長龔汝沁就表示,「媒體比較慘,IT能量很低,永遠比不上科技先進。它到底用了我們什麼樣的資料?(AI開發者)沒有公開,我們根本就不清楚、不明白。我們要去舉證,根本不可能啊!」
李姿儀也分析,由於著作權利人往往難以得知內容被利用,又得負擔舉證責任,如果訴訟成本超過潛在收益,儘管無奈也未必會提起訴訟。面對本土AI開發者尚且如此,向國際AI公司爭取付費授權更顯困難。

《報導者》所接觸的新聞媒體高層大多支持主權AI發展,但「內容有價」是難以棄守的原則──因為他們擔心,若無償捐贈語料,未來向Google、OpenAI等國際科技公司爭取語料使用的補償,將缺乏標價基礎。
此外,國際科技公司取得內容、訓練生成式AI模型後,又藉此技術推出新服務,回頭衝擊媒體營收,也讓部分台灣媒體主管更謹慎看待語料授權。例如:近年Google推出AI摘要(AI Overview)、AI模式(AI mode)功能,導致讀者點擊新聞媒體官網的比例大幅下滑,衝擊台灣媒體流量變現的商業模式。
「(科技巨頭)透過我們每一天、年年月月產出來的內容,去做(AI模型)訓練,創造巨大的收入,」龔汝沁指出,「如果只是學習,那當然沒話說,但它用我們去創造了更大的利益。」
龔汝沁以「燒飯也要有食材」為喻,新聞內容如同食材,Google等國際科技公司卻能無償取得,料理出「AI摘要、AI模式」等佳餚獲利,「這一塊,我覺得應該由使用者付費。」
但是,對於直接拒絕AI開發者使用資料,內容端又面臨擔心「觸及讀者」與「維護版權」的兩難。
宋育泰解釋,生成式AI尚未問世前,為了確保網站曝光、不要成為孤島,「不太可能封鎖Google搜尋爬蟲。」如今爬取資料多了AI語料訓練的使用目的,他仍不敢輕舉妄動,「怕封鎖錯」影響來自搜尋引擎的自然流量,也顧慮封鎖AI爬蟲是否將導致自家新聞內容不再被生成式AI對話引述,「這真的很困難。我們被科技平台掌控,但是又不能不跟他合作。」
面對國際AI公司,台灣新聞媒體要提起跨國司法訴訟或洽談授權,均困難重重。
林慧珍說,美國有些媒體聯合起來處理語料侵權爭議,「當然,我們現在沒有這個能耐。我們在台灣相對小。但我們決定開始檢查爬蟲,」結果發現光是ChatGPT就分了3隻爬蟲,其中2隻爬蟲是語料訓練使用,另1隻是用來告知使用者所引述的資料來源、附上出處連結。她認為,「要不要去跟人家要錢是一回事,至少我要先搞清楚誰在爬我們?」
梁永煌也表示,「我們沒有那麼大的份量。(國際媒體)他們去告,如果贏了,台灣可以比照辦理,但不知道會不會贏?所謂合作,他願意給你授權費,那是因為你是《華盛頓郵報》(The Washington Post)。但現在繁體中文就比較弱勢,我們全台灣的媒體老闆、社長都坐在一起簽個約也沒用啊。台灣市場這麼小,人家不會重視你。」
梁永煌強調,「如果有國際成功例子,我們願意跟進,但不會把這個當重要又緊急的事。」
李姿儀分析,以台灣情況來看,「不管是哪一方的關係人,在全球AI發展的脈絡底下其實都相對弱勢。」她擔心,當全球AI內容的生產已經快速到不能忽視,而多樣、弱勢的文化內容必須經授權才能讓AI訓練,那麼AI系統中的文化內容「可能會愈來愈集中化、單一化」,不利於文化平權,甚至可能在全球脈絡下被邊緣化。
對台灣的內容產業而言,這是兩難:向國際AI公司科技大平台爭付費授權,希望渺茫;拒絕平台爬蟲訓練,又擔心被邊緣化。

面對訓練生成式AI模型所衍生的著作權爭議,台灣未來的法規制度有機會如何修改、解套?大方向上,林誠夏、李姿儀均認同將「資料探勘」視為著作權例外(Text and Data Mining Exception)。
以既有《著作權法》第10-1條關於不受著作權保護的規定、第65條關於合理使用的規定來看,林誠夏認為,AI開發者或可主張使用範疇不受著作權保護或主張合理使用,「資料探勘例外,我個人是非常支持,把事情講得更清楚。」
李姿儀則說,可將「資料探勘」增列於《著作權法》第44條至第63條章節所列舉限制著作財產權之例外豁免情形,但資料探勘例外的條款,必須搭配強制AI開發者「增加AI訓練資料來源的透明性」以換取《著作權法》上「免責」的機制。
意即,AI開發者應該揭露訓練資料來源,「揭露程度要足以讓人家知道,你用了誰的資料?因為有了透明度,才能實現退出權(opt-out),也實現合理補償的基礎。這也可以促進公共信任。」
但資料探勘例外是否只應適用於非營利目的,或不分用途均可適用?
「我希望不要(限制在非營利)啦。但是,很可能最後還是這樣立法,」林誠夏解釋,「如果(法律上)封鎖所有營利使用,反而造成無利可圖,它就不會發展起來。」
至於執行機制,李姿儀主張,營利目的使用,應由政府輔助建立,「可以成立一個專責機構,讓AI開發者定期通報內容使用的情形,由它來通知著作權人、處理報酬分配,解決個別授權的交易成本過高的問題。」
對此,人工智慧研究員、技術部落格「YC Note:資料科學技術」經營者陳宜昌認為,科技公司有動機支付授權費給內容產製者:「因為跟訓練(AI模型所需)的GPU比,這便宜多了。只要中間有好的機制,不會因為付費讓整個公司沒有錢、倒閉,就可以。」
至於AI生成的內容帶來的侵權疑慮,李姿儀認為,AI開發者必須設定過濾機制,以防範使用者生成明顯侵權的內容。如果AI開發者已經善盡責任設計過濾機制,侵權責任歸屬於使用者。
在美國,法律並未直接定義使用未經授權的內容訓練AI模型是否侵害著作權,而須以「合理使用」(fair use)原則個案判斷。知名訴訟案包含《紐約時報》控告OpenAI、迪士尼與環球影業聯手控告Midjourney、Bartz控告Claude母公司Anthropic、Kadrey控告Meta。
歐盟則在2019年通過《數位單一市場著作權指令》(Directive on Copyright in the Digital Single Market),明文允許大學及研究機構等非營利組織,對其合法存取(lawfully accessible)的著作進行資料探勘;如果著作權人未以適當方式明示退出,一般使用者也可合法資料探勘。
這項例外具強制性,歐盟成員將法規國內法化時必須採納,且著作權人不得透過另訂合約排除這項權利。例如,2024年9月德國將歐盟《數位單一市場著作指令》國內法化後,非營利資料集LAION e.V. (Large-scale Artificial Intelligence Open Network),從網路上去爬取的資料彙整,免費提供公眾使用進行資料探勘、訓練AI模型。有位攝影師提告該LAION e.V,主張該單位侵權,最終,德國法院判斷LAION e.V.符合「為科學研究目的之文字和資料探勘」勝訴。
相對應地,歐盟也在《人工智慧法》(Artificial Intelligence Act)子法「強制要求人工智慧開發者揭露訓練資料」,並提供揭露訓練資料的模板,確保資訊透明達成一致,為後續的智慧財產權訴訟奠定可行性基礎。
在日本,2018年《著作權法》修法後,「非享受使用」的資訊分析例外,讓資訊分析的必要利用著作不被認定為著作侵權。
林誠夏解釋,這代表「不能用來享受別人的著作表達」。以聆聽音樂為例,透過感受節奏、旋律,感受愉悅、動感屬於「享受著作權」;如果只是做資料分析──如分析一首歌用了幾個節拍、音頻在幾度跟幾度之間──不是享受這首歌,就符合「非享受使用」的例外。「重點是,不管你怎麼分析,不能去替代到原來著作人提供物件供人家欣賞的地位;如果動到這一塊,當然不能主張只是在做資料分析。」
宋育泰表示,「我們都樂見有法律規範,就不會再發生爭議,」即便像日本一樣,「我覺得那倒也不錯,一刀兩斷。」

數位發展部部長林宜敬接受《報導者》專訪時表示,未來5年內不會推相關修法:
「AI拿這些著作權(版權內容)去訓練,到底是不是符合《著作權法》?我認為那至少還要吵5年,社會要形成共識很難。」
對於生成式AI輸出內容是否有侵害著作權的疑慮?或是否受著作權保障?林宜敬則認為,AI透過調整神經元參數進行訓練,本質上是「仿生腦」,運算規模也以每年十至百倍的速度擴張,不斷追趕人類極限:
「如果是真人,消化100篇文章後,寫出一篇文章來,沒有侵犯著作權。那一個仿生腦,看了10,000篇文章以後,寫出一篇文章──如果用這個類比,我們覺得沒有侵犯著作權。可是很多人認為,他是人類製造出來的intelligent being,才有現在所有的這些爭議。比如(Google)AI overview,就是在網路上看了很多文章,包括新聞,寫出來給你。如果Google僱用了真人,每天在看新聞摘要、寫出一篇新的文章,你不會說是抄襲。現在,事情自動化、變成AI,那到底對還是不對?我也不敢講說不對。這已經挑戰到人類存在的意義。」
林宜敬認為,「因為有爭議而什麼事情都不做,我想不是國人所期待的。我必須做一些事。但是,我也不需要把整個數發部帶入爭議的主戰場混戰一番。」
他強調,數位發展部成立台灣主權AI訓練語料庫就是現階段最佳解方,「我們的方法是,避開爭議的深水區,做我能做的事情。把沒問題的部分開放出來,這是我們的目的。」
台灣主權AI訓練語料庫首階段邀集各部會提供語料,如:文化部、教育部重編國語辭典、外交部《光華雜誌》。語料庫上線一個多月後,目前累計逾11億的資料。數發部預計進一步邀請地方政府貢獻語料,並與民間團體展開合作。
參與台灣主權AI訓練語料庫授權條款起草的林誠夏觀察,這項計畫啟動初期,各部會一時之間不了解用意,有不少顧慮,「各個機關其實有各個機關的本位。也不能說本位一定是錯, 只是一定有需溝通、磨合的地方。」
2025年底台灣主權AI語料庫上線記者會上,數位發展部次長侯宜秀說明,未來也會推出輔導獎勵機制,鼓勵更多政府單位投入參與,並持續提供技術支援、降低語料上架難度:
「大家不太願意把資料釋出,很重要問題是著作權。我們透過授權的條款,希望降低大家的疑慮。也希望配合工程會(行政院公共工程委員會)研議採購契約範本調整,讓AI訓練用途納入契約授權範圍裡,讓政府採購成果能夠更合法、更安全地運用在AI訓練。」
侯宜秀強調:「我們現在從中央互惠做起,接下來也希望能夠和民間相關人合作。」對於長遠的促進參與機制,她表示將持續了解各方利害關係人看法,思考中的新制度包含「分潤機制、徵收機制、《著作權法》強制授權機制」,希望有機會朝不同方向推動。
至於和國家通訊社、公共媒體合作上,「老實說,我們沒有經費去付授權費,」侯宜秀坦承,目前台灣主權AI訓練語料庫的資料基本上是無償取得,因此目前沒有和《中央社》或公共媒體實際談過合作。
林誠夏認為,解法或許是由文化部預算支出,「畢竟它(中央社)現在算是政府出半資的法人。既然大家要做AI,那《中央社》可以做部分的釋出, 讓文化部去編預算支援,讓它可以從文化部得到所需要的資源。」

對於數發部力推台灣主權AI訓練語料庫,內容方怎麼看?
李永得直言:「要免費心態就不對了。」他受訪時強調:「還是要有付費的概念,這畢竟是很多人的心血。」
不過,李永得也說,為了支持主權AI發展,《中央社》正在分類歷年新聞,打算未來內容區分為「免費開放的公共財」和須授權才能使用的版權內容,「我們董事會有要求訂立授權的標準,我們同仁也正在研擬。」他強調,分類必須細緻到「每一則」新聞,「不然到時候發生爭議了, 才來判斷這屬於要(授權)還是不要,這個就屬於事先不清楚。」分類完成以前,將繼續採取個案洽談的授權模式。
林慧珍則說,如果要加入數位發展部語料平台,「我覺得要看怎樣的回饋?」
「因為我們(三立電視)自己有幾十年來的台語八點檔(影片),所以我們拿來訓練台語語音模型,」她表示,至2025年底,市面上的台語語音模型所合成的聲音,有時會出現「一下是很老的女聲、一下很老的男聲」,不夠符合集團內部應用需求,恰好三立集團擁有專業演員演出的影音素材,因而嘗試自行開發,「但算力很貴,我們得想辦法找合作夥伴。」

林慧珍認為,「防堵(AI開發者)不見得一定好,而是怎樣找到共生共榮的方法?」她舉例,三立電視的整合行銷方案,有使用AI虛擬人口述英文、台語的需求,或許是雙方合作的切入點。
未來如何將「內容有價」與「發展台灣自有生成式AI模型」從零和對抗轉向共生共榮?留待AI產業、內容產業與公部門持續交流思索。
深度求真 眾聲同行
獨立的精神,是自由思想的條件。獨立的媒體,才能守護公共領域,讓自由的討論和真相浮現。
在艱困的媒體環境,《報導者》堅持以非營利組織的模式投入公共領域的調查與深度報導。我們透過讀者的贊助支持來營運,不仰賴商業廣告置入,在獨立自主的前提下,穿梭在各項重要公共議題中。
今年是《報導者》成立十週年,請支持我們持續追蹤國內外新聞事件的真相,度過下一個十年的挑戰。










