【傳播與社會學刊】社交媒體使用中使用者內容生產的同質化——基於新浪微博樣本的使用者相似度分析

文摘   2024-07-09 18:00   中国香港  

《傳播與社會學刊》官方網站:http://www.cschinese.com


Homophily of User-Generated Content in Social Media Usage: User Similarity Analysis Based on Sina Weibo



作者簡介:

徐翔:同濟大學藝術與傳媒學院教授

周詩凡:同濟大學藝術與傳媒學院碩士

靳菁:清華大學新聞與傳播學院博士生

摘要:

社交媒體使用者在內容的生產和表達中,儘管包含著豐富的內容流動和亞文化、去中心性、多樣化主體,但是也隨著社交媒體使用程度的加深而表現出使用者在內容上的不斷加強的均勻同質化。不同於個體之間或者社群等小尺度範圍上的同質化,這種同質化指的是與該媒介全域內容、全體使用者生產內容的趨同。不是與特定個體的同質化,而是受到大規模乃至全體使用者場的內容引力後的「平均相似度」提升。以新浪微博的7,825 個使用者及其內容生產為樣本,本研究從帖子內容同質化、個體同質化、範本同質化這三個層面,考量用戶與微博整體的平均趨同度的提升;通過句向量的餘弦相似度和「類平均法」對同質化程度的測量,分別從用戶在微博的捲入度、活躍度、影響度作為使用程度的主要變數並將其劃分為不同的「使用者層級」,進而考察以下兩者之間的關聯效應。結果顯示,隨著微博使用程度的加深,用戶與整體以及範本的同質化和平均的相似度,都顯著加強。


Abstract:

Social media contain rich information. Although they have been described as decentralized and diversified subcultures, it has been demonstrated that users continue to strengthen homophily in the process of using social media. Such homophily is not generated by a community of individuals. Instead, it focuses on user-generated content on a large scale by all users. Instead of considering homophily aimed at specific individuals, this study focuses on the promotion of an “average similarity” driven by content gravity in the entire field. The study sample comprised 7,825 users of Sina Weibo and their generated content. The phenomenon was examined on three types of homophily: similarity in content, similarity between individuals, and similarity in imitating top users. By calculating the cosine similarity of the sentence vector and the unweighted pair-group method with arithmetic (UPGMA), we measured the degree of homogeneity.  Three variables—involvement,  activity,  and impact—were obtained to categorize different users. Our results showed a correlation between the above two aspects and demonstrated that the three types of homophily were strengthened significantly by involvement in social media.



01

引論:問題的提出

在社交媒體形塑使用者的媒介環境中,有必要再對多樣個體的線上交互與多元內容的文化「狂歡」(carnival)進行再審視:社交媒體的使用,是否真的助推著用戶「個性化」(personalization)的差異表達與使用者內容生產?在社交網路媒體日趨加深的使用中,對多元需求的滿足是否造就著各有特色、去中心化、差異化而非同質化的使用者內容表達?正是基於這樣的困惑,本研究想要探討社交網路中的內容傳播機制究竟是什麼樣的圖景。我們已經習以為常的資訊傳播方式,是否並沒有說明我們形成個性,反而是以某種難以察覺的方式將我們變得與他人越來越相似。

由此我們提出以下假設:

H1:使用者所生產、表達的帖子內容會隨著對社交媒體使用程度的加深,而和社交媒體中整體帖子內容的平均內容相似度越來越高。

H2:使用者所生產、表達的帖子內容會隨著對社交媒體使用程度的加深,而變得與全體使用者的內容平均相似度越來越高。

H3:使用者的使用等級越高,該等級與最高使用等級的使用者之間平均的內容相似度也越高。



02

研究方案與實施路線

研究選取作為中國具有代表性的社交媒體新浪微博。


同質化的計算方法

本研究所針對的使用者內容生產「同質化」最主要的內涵和度量方法是:社交媒體用戶隨著對社交媒體的使用程度提高,其內容的生產和表達,會與其所處的媒介環境中的全域內容、全域使用者趨於平均相似度的提高。

本文對使用者的內容相似度計算,涉及到的最為基本的單位為帖子。選擇在文本挖掘、語句相似度計算、自然語言處理中比歐式距離更為常用、也具有高度穩健性的餘弦相似度,來衡量兩條帖子的距離。設任意兩條帖子(帖子m 和帖子n)之間的餘弦相似度表示為 S(m, n),也即上文所示的類平均法計算中所需的dij。對兩條帖子mn分別轉換得到兩個向量AB之後,AB的餘弦相似度也即兩個向量 AB 之間夾角θ的餘弦,該值範圍在[–1,1],值越大表明這兩個向量或兩條帖子之間越相似:

S(m, n) 的基礎上,對於用戶與其他用戶或者與其他帖子的平均相似度,分別從以下環節加以表示:

(1)任意兩個用戶Ux1Ux2 之間的內容相似度。設用戶分別為Ux1Ux2,它們分別具有的帖子樣本數量為n1 和n2,則這兩個使用者的內容相似度可表示為:

其中Ux1 和Ux2 都可以有且只有一條帖子,在此情況下:單條帖子(m)與單條帖子(n)之間的兩兩相似度S(m, n),成為式3 中n1 和n2 分別都為1 時的特例。對於兩個用戶之間的相似度,通過其所發帖子的相互之間的平均相似度來反映和測量:相似程度越高,表明這些內容之間兩兩的趨近、類同乃至重複程度越高;異質化的內容越多,內容之間差異越大,則這些內容的平均相似程度就會越低。

(2)任意一個使用者和任意一組帖子之間的內容相似度。設用戶為 Ux,其中包含n1 條帖子;一組帖子構成Up,其中包含n2 條帖子。則該用戶與該組帖子相似度為:

也即這裡把使用者看作是一組內容(帖子)的特定集合,由此式4和式3 在計算過程實質上是一致的。

(3)任意一組用戶G1 和另一組使用者G2 的內容相似度。可以表示:

其中G1 或G2 都可以有且僅有一個使用者,這種情況下也即:式1中所計算的個體與個體之間的兩兩相似度R(Ux1, Ux2),成為式5 中n1 和 n2 分別都為1時的特例。

(4)任意一組用戶和任意一組帖子之間的內容相似度。該情況是式 4 的推廣情況,也即對於式4 重複多次後,對每次計算得到的結果再求其均值,從而得到多個用戶和一組帖子之間的平均相似度。設一組用戶為G1,其中包含n1 個用戶;設一組帖子為Up。則結合式4,G1 和Up之間的平均相似度為:

式6 在本研究中的直接應用:計算H1 中關於和全體帖子內容同質化部分涉及到的,各個「使用度等級」的使用者,與全域帖子整體之間的平均相似度。



基於word2vec 詞嵌入對於帖子語義相似性的度量

本研究對於帖子內容的向量化,採取word2vec進行轉換。word2vec 是2013 年提出的淺層神經網路語言模型(Mikolov et al., 2013a; Mikolov et al., 2013b),計算成本低、速度快、精度高,在學界和業界使用廣泛。


對於用戶的微博使用程度的操作性界定

本研究中涉及到的兩個關鍵方面的變數,一是新浪微博的使用程度;二是對於內容同質性的衡量與量化呈現。

本研究中所指的使用程度,主要是指用戶對於社交媒體(新浪微博)的捲入、投入和產生的實際效果等。結合微博中可實際獲取得到、具有可用性的使用者個體資訊,我們選用了以下代表性指標,來考察和轉換用戶的微博使用程度:一是用戶對微博的接受、跟進的歷史情況和捲入程度。本處用用戶在微博的註冊時長來表示,註冊時長越長,代表使用微博的時間越久。同時這也表示該用戶與微博平台發生接觸、交互、作用的可能性以及受到該媒體空間的塑造作用的時間和程度也可能越深。二是用戶在微博僅是註冊、及時的接受與跟進還不夠,還需要在這個媒介空間中有充分的使用頻率、活躍性以及在此媒體中的實際使用行為。本處用以下微博平台自身的官方指標進行衡量:

(1)用戶的微博經驗值

(2)用戶的關注者數量

(3)對於微博用戶具有實際的使用行為的基礎上,我們還需要考量使用者的使用效果。本處採取用戶的最為直觀可見的指標之一「粉絲數」進行衡量。

上述三個層面,是分別遞進的層面:最先的媒介接觸和媒介捲入(註冊時長)→媒介使用過程的活性(用戶微博經驗值、關注者數等)→媒介使用獲得的實際效果和使用影響(粉絲數)。

選這三個方面的維度及其可操作性的四個指標,一定程度上可刻劃出用戶在微博中的使用和捲入的差異。此外,由於量化指標的獲取需要具有可操作性,是實際能獲取而且成本也在可控範圍的,因此選擇了便於獲取的粉絲數、微博等級等官方資料,而未採取其他更複雜,或需要經過問卷和二次計算等方式才能得到的指標。同時,採取的這些子指標也具有較好的經驗直觀性與非黑箱化的易理解性。


微博資料獲取與預處理

I.資料獲取與準備

首先,課題組運用開源網頁文本抓取工具「八爪魚」,以及自行用 python 和selenium 編寫的動態網頁抓取程式,抓取新浪微博的使用者資料及其發佈的帖子。樣本使用者來自於對新浪微博首頁每天熱門微博的累積抓取,持續一個月每天抓取2 次帖子,一個月共得到67,362 條樣帖(去重後為65,650 條「種子」帖),從這些樣帖中成功抓取到使用者資訊和文本的有10,037 個發佈者。



採集這些發佈者的URL 資訊,並在此基礎上,進一步採集10,037個用戶的用戶名、性別、所在地、粉絲數、關注數、發佈微博數、註冊時間、等級、會員資訊等多種資訊。根據此前採集的使用者URL 位址,對用戶發佈的微博帖子內容進行抓取,初始抓取得到微博數量 34,892,987 條。

由於初始抓取中,考慮到抓取時的網路環境穩定性等因素,每個用戶被抓取到的帖子總體穩定在3,000 條至4,000 條,因此在二次處理中,我們統一選擇了3,000 條作為每個用戶被抓取的帖子數量,這是因為樣本量過小,難以完全把握使用者的總體特徵;樣本量過大,受採集條件限制難以做到每個用戶均採集條數超過5,000 條,因此從「察其帖,觀其人」的角度,我們選擇每位用戶3,000 條帖子作為分析樣本。這一步驟是通過random 模組在python 中完成的。最後得到的有效用戶為7,825 個。中文分詞工具採用常用的jieba,詞語和句子向量、矩陣的計算採取常用的numpy 和sklearn,用python 規則運算式對文本進行簡體漢化、標點符號清洗、分詞等處理。


II.使用者資料分佈情況

另外,由於用戶使用程度的指標,具有量綱不一致的問題,例如微博官方自帶等級是定序單位,而粉絲數等則是從數百到成百上千萬的差異巨大定距、定比數值。因此,本研究一律將其轉為定序層次的序數來考量,每個指標分為30 個等級。例如,儘管每個用戶的粉絲數差異巨大,但是一律將其平均分為30 個等級,每個等級按照分位元數切分因而具有同等的個體數量;其他指標的層次劃分也依此類推。

本研究將用戶在不同指標上分成若干層級,考察不同層級和總體文本相似度的關聯,因此有必要展示抓取到的資料在不同層級上的分佈情況。按照30 層級的劃分,第一層級視作該指標上的最小數值,第30 層級為該指標的最高範本用戶。以此類推。如表二,所抽取的7,825 個用戶,在微博經驗值、註冊時長、粉絲規模等方面,各指標的覆蓋面都很充分而廣泛,例如粉絲規模從幾十到上千萬不等,註冊天數從數十天到數千天不等,使得「分層」後的分析具有良好的可行性與代表性。



整體思路與實施路線

整體研究思路如圖三:



03

實證分析結果

本節根據上文所論述的資料準備和技術路線,基於word2vec 的語句(帖子)餘弦相似度測量,考察用戶隨著使用度、活躍度、影響度等的微博使用差異,是否與其內容同質化、個體同質化、範本同質化之間具有相關性,以及具有怎樣的相關性。


內容同質化:每個層級使用者內容和總體中隨機20 萬帖子文本的平均相似度

使用者與全域內容的趨於同質化的計算,從34,892,987 條帖子中隨機抽取20 萬帖子文本,這種隨機抽取的帖子文本能描述意見氣候分佈,而層級與整體意見氣候的相近也充分能夠說明使用者內容的同質化。

通過把微博使用度的三大方面、四小層面,根據其值大小進行等頻化的「分層」,得到了每層用戶的總體趨同化程度。如圖四,每個子圖描述的一種使用度指標。圖的橫軸是用戶被等頻「分箱」化處理後所處的使用度層級,縱軸是由式6 也即F(G1, Up) 計算得到的用戶層級與全域20 萬帖子的內容相似度。Up 由從全體帖子樣本中隨機抽取的20 萬條帖子的句向量表示,也即200,000*300 的矩陣。



縱軸的所有數值取值區間0.06~0.16。從橫軸即用戶使用度層級來看,雖然個別指標(關注其他帳號的數量)沒有呈現出充分顯著的線性相關,但大多數指標都表明:用戶使用微博的程度越深(即用戶所在層級越高),其與總體內容的平均趨同化也越顯著。為了進一步確認這種關聯性的係數,我們進行統計學檢驗。註冊時長、微博用戶經驗值和粉絲數量指標均呈現高度鮮明的正相關(r > .90; p < .05)。這一統計學檢測結果與圖四的發現一致。

用戶在微博中的粉絲量、關注他人數、經驗值等指標,越容易和整體的內容保持平均化的同質化。我們未判斷在何種「絕對」指標上,使用者達到趨於全域內容的高「同質化」臨界水準,但是可以判斷出用戶的「相對」變化趨勢。可以予以統計檢驗的是:無論用戶的同質化程度是高還是低,都在隨著對媒介使用程度的提升,而表現出同質化的相對應的提升,這兩者具有顯著甚至高度的線性正相關。在社交網路中捲入程度較淺的用戶尚存觀點的奇葩性和獨特性,捲入程度較長的用戶則更容易被整體意見氣候影響,甚至由社交網路的整體意見氣候重新塑造和刻劃,成為更加典型的勻質化和標準化用戶。


個體同質化:每個層級使用者內容和總體使用者內容的相似程度

考察微博中每一層級樣本使用者和全體樣本使用者的內容相似度,是對於用戶同質化和趨同性的有力支持維度之一。該部分的計算方法為式5,即設某一層的用戶為G1,全體用戶為G2,則該層用戶與全體用戶的個體同質化程度由H(G1, G2) 計算得到。該式計算的是G1 中每位元使用者的帖子內容與G2 中每位元使用者的帖子內容,兩兩之間的相似度的均值,其中兩位元使用者之間的帖子內容相似度由式5 中的子部分R(Uxi , Uxk) 也即前文所述的式3 計算。實際過程中,G2 如果採用全部的7,825 個使用者則矩陣計算總量過大,因此為了簡化而從中隨機抽取800 個用戶代替G2。根據以上計算方法,得到個體同質化方面的結果。



圖五中,隨著橫軸(即用戶四種使用程度的層級)的增加,個體同質化的程度或升或降,趨勢不一。但是總體看來,個體同質化呈現上升態勢的指標更多,包括註冊時長、微博經驗值和粉絲數量。在相關性分析中,這種態勢表現得更加明顯。註冊時長、自帶經驗值和粉絲數量與個體同質化的關係更加顯著(r > .40; p < .05)。

我們發現,關注其他帳號的數量這一指標似乎總是「叛逆」的。這一指標要麼呈現出統計學上微弱的解釋效力,要麼比如在本次檢驗中,它呈現出與其他指標不同的態勢(r = –.62; p < .05)。那麼該指標與其他指標有何種不同呢?我們認為,與粉絲數量偏向用戶的「傳播者」屬性不同,關注他人數量更強調使用者的「接收者」屬性。作為受眾的使用者,即便在社交網路中深層捲入,也沒有形成明顯的同質化現象。甚至,關注他人數量最多的用戶,他們的個體同質化程度相對來說是最弱的。然而,當用戶作為「傳播者」的時候,隨著影響力的增加,用戶卻呈現出較為明顯的同質化現象。這種用戶角色的轉換與其中蘊含著的張力,都值得我們對微博和社交媒體產生更多思考。

 

範本同質化:每個層級使用者內容和最高層級使用者的相似程度

範本同質化的計算方法與個體同質化的計算方法式5 一致。設某一層的用戶為G1,最高層級的頂部用戶為G2,則該層用戶與頂部層級的同質化程度可由H(G1, G2) 計算得到。

這種計算方法與個體同質化不同的是,G2 不是整體的全部使用者,而是只選擇每一指標下的最高等級的使用者,例如最高粉絲數的用戶層,或最高經驗值的用戶層,藉以探索普通使用者和最高等級使用者之間的關係,以及用戶在使用程度增長中的演變規律。範本同質化可以看作層級內部的傳遞機制,這種「傳遞」可以通過每一層級與最高層級的比較,並逐漸增加趨同化來完成。每個層級用戶的範本同質化程度如圖六。



圖六的結果鮮明支持了這種趨向範本的「同質化」現象。所有指標,包括上文所述的有些「叛逆」的關注他人的帳號數量指標,全部呈現出隨著橫軸指標的增加而較為明顯的線性上升的態勢。說明範本同質化與用戶使用程度的確存在明顯和高度的關聯。越是高等級的使用者,趨向於最高範本的相似度就越高,這個相似度程度明顯超過了高等級使用者和全域使用者的相似度。


使用者屬性對於三種同質化類型的解釋程度

發帖數量表示用戶在微博空間中的話語聲量,這一變數天然地和捲入度、活躍度、影響力產生關聯。發帖數量高的用戶,捲入度、活躍度和影響力都比較高。因此發帖數量可能隱含在使用者屬性和同質化水準的關係之中。當我們剔除發帖數量這一變數的影響,再去分析使用者的屬性和同質化現象的影響,可以捕捉因變數對於自變量的淨作用。

表三說明,即便控制發帖量的影響之後(N = 7,825),用戶的活躍度、捲入度、影響力等指標依然能夠對於同質化水準產生影響。控制使用者發帖量的影響之後,內容同質化和註冊時長、微博用戶經驗值、粉絲數量均存在正向關聯,且具有統計學意義。粉絲數量對於範本同質化的影響較為顯著。從整體來看,在控制變數的情況下,使用者捲入度、活躍度、影響力越高,同質化水準就越高這一結論是能夠成立的。




04

結論

本研究試圖考察:微博中的使用者生產內容是否趨於和總體平均的「同質化」,以及在此中表現出「主體性的消逝」(the disappearance of subjectivity)及其在社交網路中的標準化再生產。在進行了內容同質化、個體同質化和範本同質化的分析和檢驗後發現,這種全域、平均的同質化現象在上述分析中的確存在,而且與用戶的使用層級有著密切的關聯。特別是,用戶和最高層級的範本用戶的同質化會隨著層級的增加形成明顯的「看齊」(emulate)和「模仿」(imitate),甚或產生內容上的「使用者複製」(user duplication)和「用戶模因」(user meme)擴散。在對於用戶使用微博的指標進行量化的過程中我們發現,註冊時長、微博經驗值、粉絲量這些指標基本上包含了微博用戶作為一個傳受者,接受與發佈資訊、在平台內進行多種互動的基本使用習慣。這些指標與同質化的關聯較為明顯。但是當使用者作為受眾關注資訊和他人帳號的時候,同質化現象似乎並沒隨層級增加而變得嚴重。



·The End·


本文系簡寫版,參考文獻從略,原文刊載於《傳播與社會學刊》第60期。


點擊左下角「閱讀原文」,查看全文內容。


《傳播與社會學刊》

可長按二維碼了解學刊最新動態!

投稿資訊請於官網查詢

Comm and Soc传播研究新视野
《传播与社会学刊》交流平台
 最新文章