友快網

導航選單

AI告訴你,83家頂級媒體各有何偏見?

作者:李玉婷

媒體的新聞報道存在偏見是一個老生常談的問題。但究竟如何能量化它們的偏見情況?

近日,麻省理工學院的一個團隊便使用機器學習技術,來識別美國及其他地區大約 100 家最大且最有影響力的新聞媒體的偏見情況,其中包括 83 家最具影響力的紙媒。

這項研究工作展示了通往自動化系統的道路,該系統可能會自動對出版物的政治特性進行分類,並讓讀者更深入地瞭解媒體在他們可能熱衷的話題上的道德立場。

該研究集中在如何用特定措辭處理主題上,例如無證移民/非法移民,胎兒/未出生的嬰兒,示威者/無政府主義者。

研究團隊使用自然語言處理(NLP)技術將此類“有傾向的”語言的例子(假設看起來更“中立”的術語也有其政治立場)提取和分類為一個廣泛的對映,對映揭示了來自約 100 個新聞媒體的 300 多萬篇文章左傾和右傾的立場,這導致了相關出版物的偏見。

這篇來自麻省理工學院物理系的 Samantha D‘Alonzo 和 Max Tegmark的論文觀察到,在眾多“假新聞”醜聞之後,一系列主動的“事實核查”都是虛偽且服務於特殊利益的(“資料實戰派”後臺回覆“媒體”可獲取)。

他們希望提供一種更加偏向資料驅動方法來研究偏見和“有影響力的”語言在理應中立的新聞背景下的使用。

從左傾到右傾用詞的表格(來源:https://arxiv。org/pdf/2109。00024。pdf)

自然語言處理過程

該研究的源資料來自開源資料庫 Newspaper3K,包括從 100 家新聞媒體獲得的 3,078,624 篇文章,其中 83 家是紙媒。這些紙媒是根據其影響範圍選擇的。同時,網路媒體來源還包括來自軍事新聞分析網站 Defense One 和 Science 的文章。

圖 | 該研究中用到的源資料

下載的文字經過“最低程度的”預處理。直接引用被刪除,這是因為該研究對記者選擇的語言感興趣(儘管如何選擇引用本身也是一個有趣的研究領域)。

為了讓資料庫標準化,英式拼寫被改為美式拼寫,所有標點符號被刪除,除序數外的所有數字也刪除。同時,首句大寫轉換為小寫,但所有其他大寫保留。

研究識別出前 100,000 個最常見的短語,然後對其進行排序、整理併合併到短語列表中。所有多餘的語言(例如“分享這篇文章”和“文章已被重新發布”)都被識別並刪除。基本相同的短語(如“big tech”和“Big Tech”、“cybersecurity”和“cyber security”)也被標準化。

挑選謬論

最初的測試關於“黑人的命也是命”主題,研究識別出了資料中的偏見習語和同義詞。

關於黑人的命也是命文章的通用原則元件。我們看到參與公民活動的人從字面上和比喻上從左到右被描述為示威者、無政府主義者,而在最右端,則被稱為“暴徒”。使用短語的報紙顯示在右側面板中。

當我們的用詞隨著政治立場變動時,“抗議者”就會從“無政府主義者”轉變為“暴徒”。但該論文指出,自然語言處理提取和分析立場受到“挑選謬論”行為的阻撓——在這種情況下,媒體將引用一個被社會不同政治階層視為有意義的短語,並且(顯而易見的)依靠其讀者來消極地看待該短語。該論文引用了“撤銷對警察的資助”作為例子。

自然而然的,這意味著一個“左傾”短語出現在一右翼背景下,這對依賴編碼短語作為政治立場標誌的自然語言處理系統來說是一個不尋常的挑戰。

這些短語是具有兩面性的,而某些其他短語卻有著普遍的負面含義(如“殺嬰”),以至於它們總是在新聞中代表負面。

該研究還揭示了熱門話題的類似對映,如墮胎、技術審查、美國移民和槍支管制。

狂熱愛好

媒體中存在某些有爭議的政治傾向,但不會以一種可預見地方式分裂,例如軍費話題。該論文發現,“左傾”的 CNN 在這個主題上最終立場接近了右傾的National Review 和 Fox News。

然而,一般情況下,政治立場可以由其他短語決定,例如選用“軍事工業綜合體”而不是更右傾的“國防工業”。結果表明,前者被 Canary 和 American Conservative 等重要機構媒體使用,而後者更常被 Fox 和 CNN 使用。

該研究建立了從對批判性語言到支援性語言的其他幾個進展,包括從“被槍殺”到更被動的“殺戮”的範圍;“重罪犯”到“被監禁的人”;從“石油生產商”到“大型石油公司”。

圖 | 從上到下,建立偏見的價值同義詞

研究承認,無論是在語言層面(例如使用具有兩面性的短語),還是出於各種其他動機,媒體都會“擺脫”他們的基本政治立場。

例如,成立於 1828 年的受人尊敬的右翼英國出版物 The Spectator 經常突出展示具有左翼思想的作品,這些作品與其內容通常的政治傾向背道而馳。這樣做是為了擁有公正報道的感覺,還是為了定期激怒其核心讀者群以在評論區產生流量,目前還尚不確定——對於尋找清晰且一致的標記的機器學習系統來說,這不是一個簡單的案例。

這些特殊的“狂熱愛好”和個別新聞機構對“並不協調的”觀點的模稜兩可的使用,在某種程度上混淆了研究最終提供的左傾和右傾的對映,儘管它提供了不同政治傾向的跡象。

被隱藏的可關注

儘管該論文的日期為 9 月 2 日並於 2021 年 8 月末發表,但其獲得的關注度還是相對較小。部分原因可能是因為針對主流媒體的批判性研究不太可能被它們自己熱情接受;但也可能是由於作者不願製作清晰明確的圖表,把有影響力的媒體出版物在各種問題上的立場分層,以表明出版物左傾或右傾的程度。實際上,作者似乎在努力抑制該結果潛在的煽動性影響。

同樣,該專案釋出的大量資料顯示了單詞出現的頻率計數,但似乎是匿名的,因此很難清楚地瞭解其所研究的出版物中的媒體偏見。如果該專案不被付諸實踐,就會只剩下論文中介紹的選定示例。

如果他們不僅要考慮用於主題的措辭,還考慮該主題是否被涵蓋,那麼其後期研究可能會更有用。無聲勝有聲,本身明顯的政治特徵不僅僅取決於預算限制或其他可能影響新聞選擇的現實因素。

儘管如此,麻省理工學院的研究似乎是迄今為止同類研究中規模最大的,並且可以形成未來分類系統的框架,甚至有益於諸如瀏覽器外掛之類的技術。這些技術可能會提醒普通讀者,注意他們正在閱讀的的出版物的政治色彩。

泡沫、偏

見和反衝

此外,還必須考慮這樣的系統是否會進一步加劇演算法推薦系統最具爭議的方面之一——將觀眾引導到沒有相反意見或具有挑戰性觀點的環境的趨勢,這可能會進一步減弱讀者在核心問題上的立場。

這樣的內容泡沫是否是一種“安全環境”,或是對部分宣傳的保護,是一種價值判斷——一個從機器學習系統的機械、統計角度很難接近的哲學問題。

儘管麻省理工學院的研究煞費苦心地讓資料來定義結果,但不可避免的是,對短語政治價值的分類也是一種價值判斷。一旦語言在新的短語中產生意義的變動,且這種變動超出了該研究的手冊、規則和資料庫,那麼機器也就很難對其進行處理。

如果這種語言的意義變動出現在常見的線上系統中,那麼繪製主要新聞媒體道德和政治偏向的努力就會陷入困局:為了表達觀點,新聞媒體工作者對習語的使用是在不斷變化並快速發展的,而這種發展的速度則遠超人工智慧分辨偏見的能力。

Reference:

https://www。unite。ai/mit-measuring-media-bias-in-major-news-outlets-with-machine-learning/

上一篇:哈里犧牲值得:梅根佩戴宮花重出江湖,比在英國感覺好多了
下一篇:關於外星人的十大猜想