The Reporter Logo
深度 × 開放 × 非營利
The Reporter Logo
深度 × 開放 × 非營利

精選書摘

失控的人臉辨識與數據竊取──從《焚書》一窺數位洪災面貌

 2017年8月3日,柏林南十字車站的地面標示提醒路人臉辨識系統正在運作中。(攝影/Getty Images/Steffi Loos)
文字大小
分享
加入書籤
【精選書摘】

本文為《焚書:遭到攻擊與在烈焰中倖存的知識受難史》部分章節書摘,經時報出版授權刊登,文章標題、內文小標經《報導者》編輯改編。

知識的失去,是文明漸漸走向衰亡的警訊。圖書館和檔案館自古以來就不斷遭到攻擊,但在現代尤其飽受威脅。除了戰火蹂躪,更由於缺乏資金,圖書館必須為自己的生存而奮鬥。

《焚書》講述了讓我們走到這一步的歷史:從古代亞歷山卓到當代塞拉耶佛的圖書館中被蓄意焚燒的書本,從粉碎在伊拉克的亞述泥板到英國疾風世代被銷毀的移民文件,以及在數位洪流下被刻意刪除的電郵記錄、龐大到難以全面保存的社交媒體平台資料。

知識具有強大的力量,追尋與保存知識是延續人類發展的終極任務。《焚書》作者牛津大學博德利圖書館館長理查・歐文登(Richard Ovenden)述說圖書館員和檔案管理員以生命捍衛知識的故事;而在演算法及數據被科技公司掌控的今日,他也提出挑戰私人超級強權、將個資存放在公共機構的倡議,以保護這些巨大的知識,不使遭受攻擊。

消失的電郵紀錄,阻礙安隆案起訴腳步

知識創造的形式改變成數位化──這種轉變給行政人員帶來許多挑戰,因為他們面對著數位洪流,必須勉力承擔和處理數量極其龐大的數位資訊。2018年12月,緬因州政府坦承他們弄丟了許多公文;安格斯.金(Angus King)和約翰.巴爾達奇(John Baldacci)兩位州長執政期間,在2008年寄出的電郵和其他各種文件大部分已經消失,沒有辦法救回來。這些文件和電郵在被歸入緬因州政府檔案館(Maine State Archives)之前,就被州政府人員銷毀了。

消失的不僅是留待未來歷史學家研究的資料,電子郵件也可能附帶重要資訊的文件,比如跟重大法律案件有關的文件,例如在2012年,律師賴利.查平(Larry Chapin)調查倫敦銀行同業拆借利率(LIBOR)醜聞案就是一個例子。電郵紀錄如果串連在一起,即可提供足夠的細節來訴說一個故事,可能可以作為證據,讓某個人定罪或阻止某個被害人被關入牢裡。

在其他的生活領域裡,確保未來人類能夠繼續取得知識是一件至關重要的事,而這件事不一定跟商業利益有關。核能工業就是一個很好的例子。作為一個社會,我們必須確定在很久以後的未來──不是5年到10年而已,而是數百年甚至數千年的時間裡──可以獲知這些知識:我們把核能廢料存放在哪裡、廢料裡頭包含什麼成分、存放的日期、存放於什麼容器等等。

這些存在於今日的資料對核能除役委員會(Nuclear Decommissioning Authority)和其他核能世界裡的相關人士是個挑戰:他們該如何確定地產發展商、採礦公司、供水公司,還有地方當局和地方政府在──例如500年之後,還能有效地掌握這些資訊。

我們必須知道資訊存放在哪裡,還有存放資訊的格式,以便當我們需要的時候,可以順利存取。當事情變壞的時候,就像這個世紀早期發生的安隆公司(Enron Corporation)事件,如果當時商業世界的數位保存解決方案較為容易取得,那麼這個公司的起訴案應當會更容易一點。安隆公司的僱員刪除了數不清的電子郵件和其他數位資訊,而這件事阻礙了查核人員調查的速度,也讓他們無法得知到底發生了什麼事,這才讓起訴工作變得困難,變得更花費金錢。

追根究柢,保存知識不是為了過去,而是為了未來。美索不達米亞的古代圖書館儲藏著大量跟預測未來有關的文本:占星術、天文學和占卜算命之書。統治者想要取得資訊來幫助他們決定出兵的最好時機。在今日,我們的未來會持續依賴於我們能否取得過去的知識,而且隨著數位科技改變了我們可以預測未來的方式,這種情況只會愈來愈明顯。再者,我們的未來也取決於數位生活所創造出來的知識是如何被少數幾個變得愈來愈強大的組織使用,以便從中謀取政治和商業利益。

科技產業現在把大量資金投入「物聯網」(the internet of things),許多家用物品例如冰箱,現在都可以連上網路,藉由感應器傳輸數據來運作。目前物聯網正在往可穿戴的領域發展,例如手表和珠寶。這些物品被設計來監督我們的健康,可以產出大量的生物特徵數據。數據的量增加到某一點的時候,醫務人員將能對我們未來的健康提出精確的預測。這對預防疾病很有幫助;不過,這也會造成重大的倫理問題。

誰來保管這樣的數據?我們或許會很樂意跟醫生分享這類資訊,但是我們也會樂意跟醫療保險公司分享這種數據嗎?也許圖書館和檔案館可以扮演更適合的角色,為個人數位資訊提供一個安全的途徑,讓人們自己決定誰可以取得他們的個人資訊。但是為了促進公共健康,圖書館可以用不記名綜合數據的方式來使用這樣的數據。如果這樣的知識被摧毀,對個人的健康將會有重大的影響,因為我們現在已經變得更加依賴各種數位化的健康系統。

貪財的數位傭兵,仍無所不在

2019年6月,微軟宣布他們自行創造一個巨大的人臉影像資料庫,總共收集了超過1,000萬個影像,而他們正利用這些圖像在全球訓練人工智慧人臉辨識系統。這些影像之收集,乃是「抓取」自公共網路上的圖片,並未徵得影像主人的同意。研究者亞當.哈維(Adam Harvey)發現在網路上,也有一些相似的資料庫。由於哈維的研究,其他人臉辨識的資料集也受到指認,包括杜克大學和史丹佛大學創造的例子。他們甚至從跨性別團體放在YouTube的影片中,「抓取」人臉影像來製造了一個資料集,用來訓練人工智慧辨識跨性別人士。

收集網路服務使用者的數據這件事引發了很多憂慮。直到最近,這些憂慮始終圍繞著侵犯隱私權與這些數據的財務風險。現在這些關切轉向較為寬廣的領域。現在有許多政治活動就在社群媒體上進行,但是假如科技公司收集到的數據沒有歸檔,開放大眾檢閱,那麼我們如何確定我們提供的資料不會被非法操縱?還有我們如何確定線上的政治活動是否有公開公平地執行,而且也徵得參與者的同意?

從2017年到2018年間, 這現象即變得很清楚;一間名叫劍橋分析公司(Cambridge Analytica)的私人公司使用臉書用戶的數據來創造標的政治廣告,而且幾乎可以確定其數據使用方式是不合法的。同一段時間,另有一間名叫艾可飛(Equifax)的著名信貸機構也在無意之中洩漏了超過1億4,700萬個用戶的財務資訊。這幾起事件讓人們非常擔心,把個資留給私人公司是否妥當,尤其在目前只有小部分或者甚至沒有法律保護的情況之下。另外還有一些謠言提到某些政府也會操縱那些平台,謀取他們的政治利益。

劍橋分析公司的網站現在早已撤下,不過很幸運的是,好幾個網路檔案館在這間公司下線之前,就已收藏了他們的網站。2018年3月21日,劍橋分析公司對自己的描述是:「劍橋分析公司有辦法用數據來改變閱聽者的行為。」接著他們邀請網友造訪他們的「商業或政治部門,了解可以得到什麼協助」。劍橋分析公司在紐約、華盛頓、倫敦、巴西和吉隆坡廣設辦公室,像個貪財的數位傭兵,任何人只要願意付錢,不管對方有什麼政治或商業目的,他們都可以讓整個社會為這些人服務。根據他們的網站,他們已經從每個使用網際網路的美國投票人那裡收集了5,000個數據點(data point)。

他們的網路檔案似乎只留下他們活動的檔案紀錄,但是該家公司曾經存取了高達8,700萬位臉書使用者的數據,而且未經臉書使用者同意。他們所從事的活動,其全面情況至今未明,至於過去公司到底做了些什麼事,其完整細節至今也還在調查之中。卡羅爾.卡德瓦拉德(Carole Cadwalladr)給《衛報》(The Guardian)寫了調查報導,她截至目前的發現是「沒有人曾看過特地為川普競選活動而設定的臉書數據」;她在推特上面寫道

「沒有人曾經看過廣告檔案。沒有人知道劍橋分析公司做了些什麼事。沒有人知道到底是什麼東西產生了效用。如果有什麼可說的話,那就是為何我們需要證據。」

保存重要社交媒體平台,從「捐出臉書」開始

Fill 1
保存重要的社交媒體和程序化廣告技術的平台已經漸漸成為當代最重要的議題之一。紐西蘭國家圖書館就提出一個計畫,要求紐西蘭人捐出臉書。(攝影/NurPhoto via Getty Images/Beata Zawrzel)
保存重要的社交媒體和程序化廣告技術的平台已經漸漸成為當代最重要的議題之一。紐西蘭國家圖書館就提出一個計畫,要求紐西蘭人捐出臉書。(攝影/NurPhoto via Getty Images/Beata Zawrzel)

大型科技公司創造了許多資料集,例如臉書上面的廣告、推特上面的貼文,或者程序化廣告技術公司收集的「隱形」使用者數據;我相信把這些資料集歸檔並建立檔案是目前負責知識保存的機構所面對的重要挑戰之一。

在這個領域裡,數據的數量極為龐大,相對來說,圖書館和檔案館能做到的進展有限。然而我們的社會需要有這樣的檔案存在,才能幫助未來的世代了解我們今日的文化現象,以及那些重要的個體、企業和其他因素在社會改變當中扮演了什麼角色。

為社交媒體網站成立檔案是一件令人生畏的任務。從推特的例子,我們可看到要保存整個社交媒體平台是個巨大的挑戰──比世上最大的圖書館曾經面臨的挑戰更大。這些網站是動態的,每一秒都在改變,而且呈現給每一個使用者的方式都是獨特且個人的。我們需要歸檔的,除了出現在平台本身上面的對話,還有存在於平台背後的資料傳輸。訊息本身是一回事,那些「讚」和「推」以及平台所安排的其他社交工具可以告訴我們很多事情,包括社會行為、文化、政治、健康以及其他更多的事物。就我的看法,保存重要的社交媒體和程序化廣告技術的平台已經漸漸成為當代這段時期最重要的議題之一。

雖然如此,某些歸檔社交媒體的方法也慢慢開始浮現。2019年夏天,紐西蘭國家圖書館(National Library of New Zealand)提出一個計畫,要求紐西蘭人捐出臉書,讓亞歷山大特恩布爾圖書館(Alexander Turnbull Library)典藏。潔西卡.莫蘭(Jessica Moran)是該圖書館數位服務小組的組長,她在部落格裡解釋道:

「我們希望收集一個具有代表性的臉書檔案樣本。我們要建立一個典藏檔案,讓未來的研究者可以使用,讓他們了解我們保存下來的東西,了解我們是如何使用例如像臉書這樣的社交媒體平台,還有幫助他們更加了解21世紀初期數位文化和生活的豐富脈絡。為了回報你的捐贈,我們提供捐贈者一個可信賴的數位存儲庫,專門保存這些數位檔案。」

紐西蘭國家圖書館提出了兩個主要的議題。

第一,保存記憶的機構必須開始歸檔那些存藏在主要社交媒體平台上的資訊:未來的人需要知道過去發生了什麼事,如果目前暫時無法把整個平台歸檔(目前全球每個月有超過250億活躍的臉書用戶),那麼至少應該以一次收藏一小部分樣本的方式開始來做。對一個相對小的國家例如紐西蘭而言,要處理這麼大的問題,先建立使用者檔案樣本是個很好的應對方式。

第二,他們知道當代某些臉書使用者很樂意把他們自己的歷史保存在一個值得信託的公共機構裡,而且這個機構還會承擔大部分保存工作,為他們支付費用。重要的是,紐西蘭國家圖書館也很清楚地表示他們會尊重任何把臉書資料捐給圖書館的人。

當科技公司掌控演算法,何不將個資交給公共機構保管?

社會的腳步向來都走得太慢,無法追上商業現實的種種情況:大數據和電腦運算的世界早已誕生,而且無所不在。我們的法律和各種機構目前無法跟上腳步,與一個愈來愈富裕,而且裡頭有很多傑出人才的工業並駕齊驅。誠如數據科學家佩德羅.多明戈斯(Pedro Domingos)曾經說的:「誰擁有最好的演算法和數據,誰就是贏家。」

各種平台的建構,以及圍繞著這些平台的「數據工業」已經創造出肖莎娜.祖博夫(Shoshana Zuboff)所謂的「私人的知識帝國」(private knowledge kingdom)──雖然更好的類比應該是「諸多帝國」(kingdoms)。這所有的數據和科技被創造出來,其目的是為了修正、預測、營利和控制。祖博夫和其他研究監控資本主義之發展的作家提出一個警告:世界的記憶現在已經大量外包給科技公司──不成比例的數量,而且沒有一個社會意識到這個事實或徹底了解其後果。

大眾和大型科技公司目前主要的中心問題是信任。我們所有人都在使用它們的服務,部分原因是我們已經變得依賴它們,但是大眾卻愈來愈不信任它們。我們的社會已經創造了一個巨大的知識銀行,但是其擁有權、管理和使用卻掌握在私人公司手裡,即便知識是由全球各地的個體免費創造的。可以這麼說吧,目前大眾正帶著一種反烏托邦的恐懼和懷疑的目光看待這些公司的擁有者。

2016年,皮尤研究中心(Pew Research)發表一份研究報告,指出美國成年人當中有78%的人認為圖書館是可靠的引導者,提供他們值得信賴和可靠的知識。在18~35歲的年齡層(所謂的「千禧世代」)中,這個數字甚至更高。目前沒有長期的研究可以讓我們畫出這個趨勢圖在時間裡的發展,但是根據皮尤研究報告,成年人對圖書館的信任程度漸漸提高,而這與他們對金融公司和社交媒體集團──甚至政府──的信任形成強烈的對比。

考慮到大眾對圖書館和檔案館的高度信任(而且信任程度還在增加當中),或許可以把保存大眾個資的任務託付給圖書館和檔案館?也許社會正開始走入一個新時代,在這個時代裡,人們會挑戰「私人超級強權」的統治,把社會的利益擺在首位。我們是否可以設想這樣一個社會:把個資存放在公共機構,讓公共機構成為大眾信賴的管家?

在這麼做之前,有幾個條件必須先滿足。

首先,必須立法來建立各種設施,並訂立規章。各種政策的開發以及系統的建立之前,必須諮詢大眾的意見並讓大眾參與其過程。訂立的法令必須跨越政治邊界,互相適用。

第二,資金必須充足,方便圖書館承擔任務。這筆資金可以從課稅取得:對那些科技公司徵收「記憶稅」(memory tax)。

現有的機構,例如數位保存聯盟(Digital Preservation Coalition)將會在支持數位保存任務之中扮演主要的角色,而國家機構例如大英圖書館、大英國家檔案館以及其他位於蘇格蘭、威爾斯和北愛爾蘭的姊妹圖書館可以攜手合作,一起管理這些數位檔案。

這樣的作業模式已經有許多模式可以參考──例如在2013年,共同負擔法定送存圖書館的任務已經擴大到數位出版品的保存。雖然尚未臻至完美,但是這6間法定送存圖書館至少已經建立了相關的法律和系統。

這個法律和系統本身當然還不夠。我們還必須建立一個新的數據架構(data architecture),讓網際網路使用者可以控制其個資。《通用資料保護規則》(General Data Protection Regulations [GDPR])在歐洲已經行之有年,個人資料的保護漸漸受到保障;2018年,這項規範在英國生效,成為《資料保護法》(Data Protection Act 2018)

社會知識從私人領域轉移到商業領域──這種發展已經帶來社會必須處理的重大議題。個人的權利當然是處於危險之中。在生活的其他領域裡,有一個概念叫做「謹慎責任」(duty of care),公司和機構必須遵守一些標準,例如公共建築的設計和運作方式。這個概念可以運用,而且也應該運用在數位世界。

如果我們不把被濫用的數據歸檔,我們永遠無法正確了解資料被濫用的全面範圍,以及此種濫用所造成的結果。在我們把臉書上面的所有政治廣告歸檔前,我們永遠無法了解選民到底是怎麼受到影響。沒有這一筆資訊,研究者將無法對這些組織以及它們平台上的廣告進行分析、研究和調查;我們也將永遠無法知道發生了什麼事。

100年之後,歷史學家、政治學者、氣候科學家和其他研究者將會試圖尋找答案,並試圖了解2120年的形貌是如何形成的。今日的圖書館和檔案館還有時間,可以掌控21世紀初期的這些知識的數位機構,保存這些知識,不使遭受攻擊;保護知識,代表社會本身也同時受到保護。

《焚書:遭到攻擊與在烈焰中倖存的知識受難史》, 理查.歐文登(Richard Ovenden)著,余淑慧譯,時報出版
《焚書:遭到攻擊與在烈焰中倖存的知識受難史》, 理查.歐文登(Richard Ovenden)著,余淑慧譯,時報出版

用行動支持報導者

獨立的精神,是自由思想的條件。獨立的媒體,才能守護公共領域,讓自由的討論和真相浮現。

在艱困的媒體環境,《報導者》秉持深度、開放、非營利的精神,致力於公共領域的調查與深度報導。我們透過讀者的贊助支持來營運,不仰賴商業廣告置入,在獨立自主的前提下,穿梭在各項重要公共議題中。

您的支持將有助於《報導者》持續追蹤國內外新聞事件的真相,促進多元進步的社會對話。請與我們一起前進,共同推動這場媒體小革命。

© 2022 All rights Reserved