【傳播與社會學刊】場域視角下的新聞技術創新——基於中國大陸地區專利數據的結構主題模型分析

文摘   2024-10-02 18:01   中国香港  

《傳播與社會學刊》官方網站:http://www.cschinese.com


News Technology Innovation as a Field:

A Structural Topic Modeling Analysis of Patent Data in the Chinese Mainland



作者簡介:

呂舒寧:美國北達科他州立大學藝術人文社會科學學院傳播系助理教授

摘要:

新聞創新領域研究的興起得益於傳統新聞業在數字媒體環境下的回應與轉型。本研究從外部視角出發、以場域理論為分析框架、谷歌專利為經驗數據,系統考察了2010–2019 年期間中國大陸地區新聞技術創新的規模、行動主體、創新內容和外部影響因素。研究結果顯示,新聞技術創新規模在不斷擴大,東部地區創新規模相對最大。新聞技術創新的行動主體較為多元,信息技術行業佔據該場域主要位置,政府機構為該場域新進入者。主題模型提煉出六大新聞技術創新子場域,包括新聞後台系統、戶外與車載新聞、計算新聞、新聞播放與傳送、新聞推薦系統和新聞報導器材。結構主題模型回歸分析發現,各子場域在過去十年間此消彼長。研究還發現,各行業在各個子領域具有相對優勢,東部地區的新聞技術創新較多涉及新興技術,如計算新聞和新聞推薦系統,反映出不同制度集群以及地區所持有的獨特的創新資本以及創新慣習。最後,本文對如何更深入、系統地研究新聞創新進行了討論。


Abstract:

The responses and transformations of traditional journalism within the digital media environment give rise to the field of news innovation research. From an externalist perspective, this study draws on field theory and Google patent data to systematically examine the status, actors, content, and external factors of news technology innovation in the Chinese Mainland (2010–2019). The results show that the field of news technology innovation has been expanding, and Eastern China enjoys the largest share. News technology innovation involves multiple and diverse actors, with the information technology industry playing a dominant role and government institutions participating as new entrants. Results from topic modeling reveal six sub-fields of news technology innovation: (1) content management systems, (2) outdoor media, (3) computational journalism,(4) news broadcasting, (5) news recommendation systems, and (6) reporting equipment. Regression analyses based on structural topic modeling show that the distribution of the six sub-fields has evolved constantly during the past ten years. Moreover, the study finds that these industrial clusters have unique advantages in certain sub-fields, and there are more news innovations on emerging technologies (e.g., computational journalism and news recommendation systems) in Eastern China than the other regions, which reflects the distinct capital and habitus for innovation held by these industry clusters and regions. Lastly, the article discusses the theoretical implications and future directions for news innovation research.



01

引言

為了彌補目前新聞創新研究領域的不足,本文試圖從外部(externalist)視角(Anderson, 2013)來考察中國大陸地區的新聞技術創新現狀及其影響因素。具體地,本研究聚焦專利數據、使用計算機文本分析方法對中國大陸地區2010–2019 年新聞技術創新的規模、申請者特徵和創新具體內容進行描述,並考察新聞技術創新在不同時間、地域和申請人群體中的分佈。本研究對新聞創新研究領域具有以下理論意義:一方面,本研究超越以往新聞室研究的內部取向,從外部和系統的視角探討不同主體參與新聞創新的情況;另一方面,本研究關注新聞創新的技術製品——專利發明,延伸了新聞創新這一概念。方法上,本研究使用結構主題模型來分析政府開放數據,拓寬了在數字媒體背景下新聞傳播學研究的想像力。此外,本研究所梳理出的中國大陸新聞技術創新現狀和機制,對致力於新聞創新的初創企業、科技公司,以及傳統新聞媒體具有一定的現實指導意義。



02

研究問題

研究問題1:中國大陸地區新聞技術創新場域的規模如何?

研究問題2:中國大陸地區新聞技術創新場域的行動主體涉及哪些制度集群?

研究問題3:各個制度集群在新聞技術創新場域佔有怎樣的位置?

研究問題4:中國大陸地區新聞技術創新場域包含哪些子場域?

研究問題5:各個制度集群分別在新聞技術創新子場域佔有怎樣的位置?

研究問題6:中國大陸地區新聞技術創新場域在時間和空間上是怎樣分佈的?

研究問題7:新聞技術創新各個子場域在時間和空間上是怎樣分佈的?



03

研究設計與方法

數據來源與蒐集

 本研究的數據源自谷歌專利搜索(patents.google.com)。本研究採用布爾搜索方式,以「新聞」為關鍵詞、「CN」為專利辦公室(CN 為「中國國家知識產權局」)、「2010 年1 月1 日至2019 年12 月31日」為時間範圍,對相關專利的標題和摘要進行搜索。我們使用專利優先日期而非其他日期是因為專利優先日期是第一次申請專利的時間,通常在創新研究中被視為判斷專利的新穎性和創造性的時間標準。通過關鍵詞搜索,初步獲得2,510 條專利信息。經過人工審核,移除了以下幾類不符合本研究範圍的專利:(1)非中國大陸地區申請人向中國國家知識產權局提交的專利,如英國、美國、日本、港澳台地區的機構和個人;(2)在標題和摘要中包含「新聞」這一關鍵詞,但並非與新聞生產、消費直接相關的專利發明,比如以新聞報導「小孩從位於高樓的家中跌落」為開頭的玻璃窗護欄發明;(3)基本信息缺失,如沒有專利優先日期的專利。最終樣本包含2,427 條專利。基於csv 文件裡的超鏈接信息,我們使用Python 抓取了專利的摘要內容、發明人所在地等信息,以供下一步分析使用。


數據編碼

本研究採用計算機編碼與人工編碼相結合的方式對專利的屬性編碼。首先,我們使用計算機對專利的性質和申請人屬性進行編碼。在多個申請者的專利列,通常會有逗號來隔開不同申請人,我們便依據申請人列中是否包含逗號,來確定專利項目是否為合作項目。根據申請人名稱的長度,我們對申請人的屬性是個人還是機構進行初步分類。在此基礎上,本研究根據中華人民共和國民政部最新頒布的《2017國民經濟行業分類》(http://www.mca.gov.cn/article/sj/tjbz/b/)對機構進行分類,具體包括(1)計算機、通信和其他電子設備製造業(下文簡稱「電子設備」),(2)電力熱力生產和供應業(「電力供應」),(3)軟件與信息技術服務業(「信息技術」),(4)新聞出版,(5)政府,(6)教育研究,(7)其他製造業,(8)商務服務,(9)金融服務,(10)其他。一位來自中國大陸的研究生對專利申請機構的類型進行編碼。我們也對專利申請人所在省份進行編碼,並根據《中華人民共和國國民經濟和社會發展第十一個五年規劃綱要》(http://www.gov.cn/ztzl/2006-03/16/content_228841.htm)中的「四大經濟分區」將各省市劃分為東部、中部、西部和東北四個區域。

 

數據預處理

本研究採用「文本作為資料」方法對所有專利的摘要進行自動化文本分析。在數據分析之前,我們使用jiebaR 包對專利文本進行預處理。為了提高分詞準確率,我們在哈爾濱工業大學的中文常用詞和標點詞庫的基礎上,加入專利文件中的高頻詞如「新聞」、「發明」、「基於」、「一種」等建立常用詞詞庫,在分詞階段不予保留。然後,我們在對專利文本進行多輪反覆運算的基礎上,總結了專利中的高頻專業術語如「區塊鏈」、「子模塊」、「詞庫」、「搜索詞」等,進一步完善自定義詞典。經過上述步驟,我們可以較為準確地使用常用詞詞典和自定義詞典對文本進行主題模型分析。


結構主題模型

本研究使用結構主題模型STM(Structural Topic Modeling, Roberts, Stewart, & Tingley, 2019),一種無監督的主題模型分析方法對專利主題進行提取。


 

確定主題數量K

STM 的一大關鍵在於確定主題的數量K。為了找到最優化的K,本研究使用STM 包中的searchK功能(Roberts et al., 2019)來確定主題的數量。

本研究使用穩定性較高的譜線初始化法對2–10 個主題分別進行建模,並參考排他性和語義一致性這兩個參數來比較主題的質量(Roberts et al., 2019)。如表一所示,綜合來看,六個主題可以同時滿足主題之間的排他性和主題內部的語義一致性這兩個條件。本研究會針對六個主題進行進一步的協變量分析。



協變量分析

根據研究問題,本研究引入時空維度變量(包括專利優先年份和申請人所在地理位置)以及申請人的制度集群(個人以及機構所在行業)為協變量對新聞技術創新專利中的主題分佈進行解釋。



04

研究結果

新聞技術創新場域的基本情況

在2,427 條新聞技術創新專利中,1,880 項專利為獨立機構申請(77.5%),144 項為兩個或以上機構聯名申請(5.9%),376 項專利為獨立個人申請(15.5%),19 項為兩個或以上個人申請(0.8%),還有8 項專利為機構和個人聯名申請(0.3%)。申請專利數量位居前列的機構包括:北京奇虎科技有限公司(54 項)、奇智軟件(北京)有限公司(33項)、北大方正集團有限公司(30 項)、北大方正電子有限公司(30 項)、百度網訊科技(北京)有限公司(27 項)、百度在線網絡技術(北京)有限公司(27 項)、天脈聚源(北京)傳媒科技有限公司(24 項)、平安科技(深圳)有限公司(21 項)、騰訊科技(深圳)有限公司(20 項)。

 從時間分佈來看(圖二),專利申請數量在十年間呈增長趨勢,從一開始2010 和2011 年度專利不到100 項,過渡到2012–2014 年的每年 100 項以上,直到近五年每年300 項以上。



從空間分佈來看,東部地區申請的專利數最多,達到1,594 項,接下來由高到低依次是中部(370 項)、西部(325 項)和東北(325 項)。在各個省市中,北京市的專利數最多(612 項);超過100 項專利的省市還有廣東(333 項)、江蘇(186 項)、四川(137 項)、山東(124 項)和浙江(140 項)。50–100 項專利的省市包括上海(91 項)、湖北(84 項)、河南(74 項)、安徽(74 項)、湖南(72 項)、陝西(65 項)、黑龍江(59 項)。其餘省市則低於50 項。


新聞技術創新場域的制度集群

如圖三所示,在1,395 個申請者中,機構有1,055 家,佔絕大多數(75.6%),個人有340 人(24.4%)。在1,055 家申請機構中,信息技術佔到435 所,接下來依次是教育研究(304 所)、電子設備(155 所)、新聞出版(60 所)、商務服務(28 所)、其他製造業(26 所)、金融服務(18所)、政府機構(11 所)、電力供應(10 所)和其他機構(10 所)。



接著來看新聞技術創新場域中各個制度集群在時間分佈上的差異。如圖四所示,整體上,個人創新主體佔比逐漸減少。信息技術業佔主導位置,但其本身所佔比例呈現一定的波動狀態。新聞出版和電子設備業所佔據的位置呈減弱趨勢。政府機構在2013 年才加入新聞技術創新的行列。教育研究機構正在場域中獲得主導位置。



新聞技術創新子場域及其分佈

根據STM 的高頻關鍵詞和專屬關鍵詞,本研究提煉出六個主題(表二):(1)新聞後台系統,主要涉及新聞用戶信息的採集、用戶註冊、以雲端系統為主的用戶在線服務等;(2)戶外與車載新聞,主要包括車載電視、戶外廣告、LED 顯示屏、智能路燈等;(3)計算新聞,如對熱點事件的數據挖掘、分類、預測及研判等;(4)新聞播放與傳送,包含視頻音頻的傳送、直播和連接信號等;(5)新聞推薦系統,如根據用戶所在區域或興趣推薦新聞網頁、優化新聞搜索結果等;(6)新聞報導器材,包括新聞燈、攝像機固定裝置、無人機等。新聞技術創新各個子場域中,計算新聞所佔比例最高,接下來依次是新聞推薦系統、新聞報導器材、新聞後台系統、戶外與車載新聞,以及新聞播放與傳送(圖五)。


本研究使用STM 回歸分析對協變量和六個主題之間的關係進行探析。如圖六所示,新聞後台系統、戶外與車載新聞、新聞播放與傳送隨時間推移而顯著減少。計算新聞、新聞報導器材隨著時間顯著增多,新聞推薦系統在過去十年間沒有顯著變化。



本研究也對不同制度集群在各新聞技術創新子場域的相對優勢進行了分析。如表三所示,相對於機構申請者,個人申請的專利較多與傳統新聞技術創新相關,如戶外與車載新聞、新聞播放與傳送、新聞報導器材。信息技術業更多申請與數字新聞技術創新有關的專利,如新聞後台系統和新聞推薦系統。新聞出版業申請的專利較多與新聞後台系統相關。政府機構申請較多計算新聞相關的專利。教育研究機構申請的計算新聞、新聞報導器材相關專利顯著多於其他行業。電子設備業申請的專利較多涉及戶外與車載新聞以及新聞播放與傳送。商業服務業較多申請新聞後台系統方面的專利,金融服務業則較多申請計算新聞方面的專利。



最後,本研究對各地區的新聞技術創新子場域分佈進行分析。具體地,我們將各地區作為多個二分變量,分別對該地區相對於其他地區在各個新聞技術創新子場域的分佈進行分析比較。如表四所示,東部地區的新聞專利較多與計算新聞和新聞推薦系統相關。中部地區的新聞專利較多地與新聞後台系統、戶外與車載新聞和新聞報導器材相關。西部和東北地區新聞報導器材方面的創新佔一定優勢。



05

結論與討論

本研究對新聞技術創新子場域的考察豐富了「新聞創新」這一概念的內涵,並拓展其外延。通過對專利摘要的主題模型分析,我們區分出六個新聞技術創新子場域,包括新聞後台系統、戶外與車載新聞、計算新聞、新聞播放與傳送、新聞推薦系統,以及新聞報導器材。這一研究發現對新聞創新領域的研究有重要意義。過去的研究對新聞創新,尤其是產品創新的理解或是侷限於數字新聞,或是側重於某單一產品或技術,又或是集中於終端產品。本研究得到的六個主題涵蓋新聞生產和消費過程的諸多方面,如新聞信息的提取與監控(計算新聞)、新聞生產(新聞報導器材)、新聞分發與消費(新聞播放與傳送、戶外與車載新聞、新聞推薦系統)等。從產品所涉及的具體技術來看,這六個主題不僅包括基於Web 2.0 的數字新聞軟件及系統(計算新聞、新聞推薦系統、新聞後台系統),也涉及數字模擬信號傳輸技術(新聞播放與傳送),以及硬件技術(戶外與車載新聞、新聞報導器材)。




·The End·


本文系簡寫版,參考文獻從略,原文刊載於《傳播與社會學刊》第59期。


點擊左下角「閱讀原文」,查看全文內容。


《傳播與社會學刊》

可長按二維碼了解學刊最新動態!

投稿資訊請於官網查詢


Comm and Soc传播研究新视野
《传播与社会学刊》交流平台
 最新文章