《傳播與社會學刊》官方網站:http://www.cschinese.com
Research on Microblog User Clustering from a Cognitive Perspective
作者簡介:
周勝:武漢學院藝術與傳媒學院傳播系講師
摘要:
為解決微博用戶屬性數據和評論文本數據較少甚至缺失情況下的用戶聚類問題,本文提出了一種基於用戶認知差異的微博用戶聚類方法:根據用戶在關注和轉發資訊源上的判斷和選擇,構建用戶和資訊源的雙模網絡(two-mode network),通過雙模網絡中二部圖(bipartite graph)的切割,實現了用戶的聚類。採用譜聚類(spectral clustering)方法,建立混合的關注和轉發兩級聚類處理方式,能夠有效區分不同認知屬性的用戶群體,精準觀察資訊在社群中的傳播機制。以中國互聯網上的一個熱點事件「湯蘭蘭事件」為例,介紹微博用戶聚類方法的操作流程和評估標準。實際聚類結果表明:該方法在劃分群體規模和準確性上,綜合性能較好,對於社交平台用戶的群體劃分、行為預測和輿情分析,具有較強的實際應用價值。
Abstract:
Focusing on microblog user attributes and missing content data, a microblog users clustering method based on users’ cognitive differences is proposed. By referencing users’ selections and judgments regarding the information sources they follow and forward, we can identify the typical characteristics of group members; we can also use this information to analyze users’ behaviors and attitudes while they are participating in various kinds of groups. On the basis of users’ perceived dissimilarity regarding microblog topics, a two-mode network comprised of user and media is built. The clustering of users is then realized by cutting the bipartite graph in the network. By applying the spectral clustering method to the hybrid mechanism of two clustering stages (i.e., followed topics and forwarded topics), we can effectively distinguish between user groups with different cognitive attributes; this also enables us to accurately observe the transmission mechanism of information within the community. Taking the Tang Lanlan event as an example, this paper introduces specific operation and evaluation criteria of the microblog user clustering method. Upon thorough consideration of the scale and accuracy of the group division, the results show that the comprehensive property is improved with use of the proposed clustering method. The actual results demonstrate the precision and effectiveness of the proposed method for the purposes of group division, behavior prediction, and public opinion analysis of social platform users.
研究背景與研究問題
針對微博用戶資料缺失、文本資訊不足等用戶聚類面臨的實際問題,本文給出了一種基於認知層面的微博用戶聚類方法。微博用戶主觀認知和使用動機的差異,會表現在用戶關注和轉發資訊源的行為上的不同。聚類方法提取微博用戶接收、傳播資訊的認知特性和行為特性,建立關注和轉發兩級聚類機制,構造用戶— 關注、用戶— 轉發的雙模網絡,得到雙模網絡的鄰接矩陣,對鄰接矩陣進行聯合譜聚類,區分出不同認知屬性的用戶群體,從而實現了微博用戶的聚類。
本研究旨在解決在社交媒體用戶信息缺失情況下的用戶群體劃分的問題。提供的聚類方法,是基於用戶的價值判斷、利益訴求和情感等「隱性態度」方面,不依賴用戶的個人認證信息和發帖的文本信息。這種用戶群體聚類方法,可以提供一個分析角度,來觀察特定的認知群體使用信息源的「隱性認知態度」與「顯性傳播行為」之間的關係。
這種聚類方法,可以壓縮和簡化龐大的微博社交網絡,降低網絡規模。在對用戶聚類的同時,聚類方法對用戶群體關注和轉發的資訊源,也進行了分割。在巨幅的社會網絡連接圖中,該方法為網絡群體的定位和分析,提供了能夠主動聚焦的「放大鏡」,實現在不同分辨率(resolution)下的信息傳播環境的觀測,可以發現進而理解微博龐雜用戶群體中的社群結構以及資訊傳播過程中用戶與資訊源之間的影響關係,研究社交網絡中信息交互模式和集體行為特徵。
微博用戶的聯合譜聚類方法
聯合譜聚類方法原理
微博用戶關注他人的微博號,轉發他人的微博資訊,建立資訊接收和分發的聯繫,形成了兩個雙模網絡:用戶—關注網絡和用戶—轉發網絡。每一個模代表一類實體,分別是:微博用戶和關注資訊源、微博用戶和轉發資訊源。
如圖一所示,該網絡是一個6 個微博用戶關注8 個資訊源的雙模網絡。用戶與轉發資訊的雙模網絡,如圖二所示。與關注資訊源不同,微博用戶有時會轉發自己的資訊,不是嚴格意義的二部圖。簡化起見,我們將轉發自身資訊的用戶,轉換為另一個鏡像用戶,依然保留二部圖結構。
在雙模網絡中,一個模集合的聚類形成,是由於這個模集合中的個體共同與另一個模集合中的集合相連接。在微博用戶—關注資訊源、用戶—轉發資訊源的雙模網絡中,興趣相同的用戶更傾向於接收相似的資訊,認知相同的用戶更傾向於轉發相似主題和內容的資訊。
根據網絡的整體拓撲結構,對雙模網絡中二部圖的頂點進行分割,劃分出不相交的集合。圖一和圖二中的虛線,表示了二部圖的分割。這種劃分,可以同時得到用戶和關注資訊源的集合、用戶和轉發資訊源的集合:通過微博用戶與關注、轉發資訊源的聯結關係,可以將微博用戶{u1,u2,u3,u4,u5,u6} 分為{u1,u2,u3} 和{u4,u5,u6}兩類,將關注資訊源{f1,f2,f3,f4,f5,f6,f7,f8} 分為{f1,f2,f3,f4}和{f5,f6,f7,f8} 兩類, 將轉發資訊源{z1,z2,z3,z4,z5} 分為{z1, z2,z3} 和{z4,z5} 兩類,其中{u1,u2,u3} 類用戶,關注的資訊源類是{f1,f2,f3,f4},轉發的資訊源類是{z1,z2,z3};{u4,u5,u6} 類用戶關注資訊源類是{f5,f6,f7,f8},轉發資訊源類是{z4,z5}。
二部圖採用經典的最小割集的方法,可以得到高效求解,但所得的解往往是不平衡的,有的集合可能只包含很少的頂點,甚至只有一個頂點。如果將微博用戶與轉發資訊源都進行最小化切割,因為微博用戶u1 只轉發一個資訊源z1,微博用戶的聚類結果為:{u1} 和{u2, u3,u4,u5,u6},轉發資訊源聚類結果為:{z1} 和{u2,u3,u4,u5},如圖三所示。
聯合譜聚類,採用了規範化割集準則,在保證切割邊最小化的同時,避免了如圖三所示的只包含一個成員的小聚類群體的現象。採用聯合譜聚類方法,可以有效解決切割不平衡的問題,並能同時得到用戶及其關注資訊源、用戶及其轉發資訊源的聚類。
K-means 聚類方法,是聚類中最常用的算法。其基本原理如下:設定聚類的個數為K,隨機確定K 個初始點為質心,計算各頂點到這K 初始點之間的距離。通過距離計算,為每個頂點找到最近的質心,將其分配到該質心對應的類別中,同時該類質心的位置會根據新分配進來的頂點位置進行調整。這個過程反覆迭代,直到誤差收斂或達到最大運算次數。K-means 聚類方法效率快,但聚類的對象只針對同類頂點,只能實現單一的用戶群聚類或者資訊群聚類。
微博用戶譜聚類的算法
微博用戶譜聚類的算法流程如下:
(1)爬取微博用戶資訊,獲取用戶基本屬性、傳播行為和資訊傳播路徑。
(2)建立用戶關注集和用戶轉發集。收集用戶關注資訊源和轉發資訊源數據,合併有重複關注和轉發的對象,得到用戶關注集和轉發集。對於受眾的關注集和轉發集數據,考慮了三種不同的處理思路:並集處理、交集處理和二級處理。並集處理是將關注資訊源和轉發資訊源合併,剔除掉重複的資訊源,再進行聚類分析;交集處理是在用戶關注的資訊源中選擇其中的轉發資訊源,即選擇關注集和轉發集的交集。二級處理,則是先進行關注資訊源聚類,在此聚類基礎上,按照轉發資訊源進行二次聚類。
需要注意的是,二級處理要考慮到總聚類數和各級聚類數之間的關係。如式(9)所示,總聚類數目k 與二級處理中的聚類數目k1、k2 為乘積關係。
如圖四所示,採用資訊源的二級聚類方法,分別考慮了用戶對資訊源在關注和轉發上不同的使用目的和認知傾向,對於數據的運用更加充分,可以有效識別用戶群體,更為準確定位影響用戶群體的資訊源。
實際應用中,還需要考慮數據規模和處理效率的影響。當用戶關注資訊源和轉發資訊源數量較少時,可以考慮採取並集處理的方式;當用戶關注資訊源和轉發資訊源數量太大、設備處理性能受限的情況下,可以考慮採取交集處理的方式;在資訊源數量足夠,並且處理性能滿足需求時,優先考慮二級處理的聚類方式。
在上述三種聚類處理方式的基礎上,還可以將並集作為新的關注集,交集作為新的轉發集,得到新的混合二級聚類機制。在後續的實例分析中,比較了這幾種處理方式的性能。
(3)建立用戶—關注鄰接矩陣、用戶—轉發鄰接矩陣、用戶關注連接度矩陣、關注集連接度矩陣、用戶轉發連接度矩陣、轉發集連接度矩陣。
對建立的用戶關注集和用戶轉發集,分別應用聯合譜聚類算法,得到聯合聚類指標集矩陣Zg、Zz。聯合聚類指標集矩陣Zg、Zz、的第一列,無法提供有效的聚類資訊。從第二列開始,通過K-means 聚類算法,完成用戶與資訊源的聯合聚類。
與直接使用K-means 聚類方法比較,譜聚類算法的優勢在於能夠同時得到用戶群和及其關聯的資訊群,構建資訊源和用戶的異構的信息傳播網絡,可以觀察到什麼樣的用戶關注哪類資訊源,為後續分析用戶認知傾向和資訊源對用戶認知的影響,設定明確的群體傳播環境。
微博用戶聚類效果的性能度量
對於聚類方法,需要有性能指標來評估聚類結果的準確性。聚類任務屬於「無監督學習」,訓練樣本的標記資訊是未知的。這種情況,如何評估聚類效果的好壞?
聚類性能度量可以使用「外部指標」和「內部指標」兩種方式。將聚類結果與某個參考模型或參考樣本進行比較,稱之為「外部指標」度量;直接利用聚類結果,不依賴任何外部標註資訊或模型,稱之為「內部指標」度量。
「內部指標」的評價原理是認為好的聚類情況下同一類的樣本彼此近似,不同類的樣本會盡可能地不同。因此,比較聚類結果中同類用戶的「類內相似度」和不同類用戶的「類間相似度」,可以衡量聚類的效果。聚類效果越好,則「類內相似度」越高,「類間相似度」越低。
內部指標可以採用DB 指數(Davies-Boudin Index)來進行度量。
其中:聚類結果劃分為C={C1, C2 … , Ck};k 表示聚類數目;avg(Ci)定義為聚類第i 類內部平均距離;avg(Cj) 定義為聚類第j 類內部平均距離;dcen(μi, μj) 表示第i 類中心點μi 和第j 類中心點μj 的距離。
DB 指數值越小,表示「類內相似度」高,「類間相似度」低,聚類效果越好。
以圖二的微博用戶與轉發資訊源的雙模網絡,介紹DB 指數計算方法。根據雙模網絡,得到如表一所示的鄰接矩陣。通過鄰接矩陣,得到u1 的向量為[1,0,0,0,0],u2 的向量為[1,1,1,0,0],計算二者向量的歐氏距離,得到樣本u1 和u2 差異度量值。由此,可以計算出樣本間的平均距離、聚類中心點和類間距。
假設圖二有兩種聚類方式:聚類方式1,分為{u1,u2,u3} 和{u4, u5,u6} 兩類;聚類方式2,分為{u1,u2,u4} 和{u3,u5,u6} 兩類。由式(10)得到聚類方式1 的DB 指數值為1.456,聚類方式2 的DB 指數值為4.129。這說明第一種聚類方式是優於第二種聚類方式。
在實際應用中評估聚類效果,可以綜合應用兩種評估方式:聚類算法設計和參數調節階段,可以選擇小樣本微博用戶,對其進行人工標註類別,得到「外部指標」,評估聚類效果,便於算法的改進和參數的調整。當算法投入大規模用戶聚類的應用環節,無法進行人工判定時,就需要應用「內部指標」,作為聚類度量標準。同時,「內部指標」還可以作為聚類過程中的優化目標,指導聚類符合要求。
微博用戶聚類方法的具體應用實例
本節以2018 年新浪微博用戶關於「湯蘭蘭事件」的討論,作為具體對象,來驗證聯合譜聚類方法的可行性和有效性,並結合微博用戶的實際情況,對方法作進一步的改進。
湯蘭蘭事件概況和數據收集說明
2008 年10 月,14 歲的少女湯蘭蘭(化名)向當地警方舉報,稱自己從6 歲開始被父親、爺爺、親屬和鄉鄰等十餘人強姦、輪姦,時間長達 7 年。2010 年10 月,黑河市中級法院判決了湯案,判處包括湯蘭蘭父母在內的11 人無期徒刑或5–15 年有期徒刑不等。2017 年末,湯蘭蘭母親出獄,要求重審此案。
「湯蘭蘭事件」在網絡傳播和熱議,可劃分為三個階段。第一階段:2018 年1 月31 日,《澎湃新聞》和《新京報》的兩篇報導,列舉了案件中的諸多疑點,將湯蘭蘭的戶籍資訊部分公開,提出要「尋找湯蘭蘭」,引起了廣泛的爭議。第二階段:2018 年4 月26 日,中央電視台法治節目播出的「湯蘭蘭案再關注」,針對涉案證據和疑點進行了報導,重新喚起了公眾的關注。第三階段:2018 年7 月27 日,黑龍江省高級人民法院宣佈了湯蘭蘭案再審的審查結果,駁回「湯蘭蘭案」原審被告人的申訴。在持續近半年的「湯蘭蘭事件」中,幾百萬微博用戶,圍繞探求疑案真相、受害人隱私保護、媒體職業操守等議題,觀點針鋒相對,展開了激烈的討論。
「湯蘭蘭事件」的代表性觀點,按框架效果可參見表二所示。各種議題的代表性文章,參見表三。
本研究共收集了新浪微博用戶在2018 年1 月19 日到2018 年7 月 27 日期間發佈的評論資訊,包括有代表性的145 篇報導,相關發帖575,298 條。刪去無意義的文本和表情符,保留10 個字數以上的有效評論,得到文本評論共計261,167 條,其中第一階段評論138,852 條,第二階段18,103 條,第三階段104,212 條。
聯合譜聚類的應用
通過文本分析,選擇42 名有代表性的用戶。我們先以這42 名評論用戶作為聚類對象,應用聯合譜聚類方法,完成用戶和關注資訊源、用戶和轉發資訊源的聚類,並驗證微博用戶聯合譜聚類方法的可行性,評估三種聚類方式的效果。進而,將聚類方法推廣應用到多階段參與的6,737 個用戶中,驗證演算法的有效性和魯棒性(robustness)。
除去開通微博自動關注的微博小秘書、微博客服等微博號,並刪除重複資訊源,取粉絲關注數為10 萬以上的大V 資訊源4,351 個,去重後得到的資訊源3,143 個。同樣處理,轉發資訊源取自用戶頁面的前二十頁,得到轉發獨立資訊源2,888 個。建立相應的鄰接矩陣:微博用戶—關注資訊源鄰接矩陣為42 行3,143 列的矩陣,42 為用戶數,3,143為用戶關注的資訊源數;微博用戶—轉發鄰接矩陣為42 行2,888 列的矩陣,42 為用戶數,2,888 為用戶轉發的資訊源數。
資訊源的處理方式可以分為:並集處理方式、交集處理方式和二級處理方式。並集處理方式:將關注資訊源和轉發資訊源合併考慮,作為用戶接觸的資訊源。由於關注資訊源和轉發資訊源二者存在重疊部分,因此得到資訊源並集有4,972 個。交集處理方式:分析關注資訊源中有多少是用戶轉發的資訊源,將這部分資訊源挑選出來,得到資訊源交集有1,059 個。二級處理方式:先使用關注資訊源3,143 個資訊源進行一級聚類,然後在聚類的基礎上,使用轉發資訊源2,888 個,進行二次分類。
如圖五所示,k 為5 的時候,聚類誤差下降幅度低於10%,因此合理的聚類數目應為4。
實際應用中,在肘點法確定最佳聚類數目基礎上,還要考慮是否採取二級聚類的情況。若採取二級聚類,如式(9)所示,需要將聚類數目k 因式分解為二級處理中各級聚類數目k1、k2,可將聚類值k 就近調整到便於整數分解的數值(例如4、6、8、9 …… 等)。
聚類結果分析
確定了最佳聚類數目4,採用二級處理原則,則將每級聚類數目分解為2。按照譜聚類方法,對42 名微博用戶進行聚類分析,k 值取為 2,奇異值分解後的向量Ug,Vg,Uz,Vz 均取前兩列。
由式(7)計算,得到關注聚類指標集矩陣Zg
矩陣Zg 的第一列值相同,表示將所有的用戶和關注資訊源劃分為同一大類,沒有為用戶聚類提供分割的有效指標值。因此,從矩陣的第二列數值進行聚類,由K-means 聚類方法,可以將用戶分為兩類。兩類用戶的關注資訊源,也同時得到了聚類。
根據微博用戶已有的認證資訊和評論資訊,得到如表四所示的42名微博用戶的用戶畫像。
分析這42 名用戶的微博認證資訊,發現聚類劃分的群體能夠準確體現出用戶間的類別差異,聚類效果是可信的。第一類用戶,關注法律類資訊,身份是涉及到法律各部門的政法幹部、律師和網警。第二類用戶,關注時政新聞,關注和轉發資訊數量較多,類型也較為多元,身份為簽約自媒體和頭條文章作者。第三類用戶,是關注娛樂和時事類資訊的年輕人,轉發的大都是娛樂新聞,佔總轉發訊息源的 87%。第四類用戶,喜歡關注和轉發財經類和時政類新聞,是教育程度較高、30 歲以上的職場專業人士。
由於樣本較少,42 名微博用戶身份的確定,可以採取人工標註的方式。將用戶聚類的結果,與人工判定的分類標註,進行比對,計算出準確率和查全率,檢驗算法的有效性。
使用「外部指標」來檢驗聚類的準確性,表五給出了僅使用關注關係、僅使用轉發關係、關注和轉發關係並集處理、關注和轉發關係交集處理、關注和轉發關係二級處理、關注和轉發關係混合二級處理六種方式的聚類效果。為了便於比較,僅使用關注關係和僅使用轉發關係的聚類數目也取為4。
比較六種處理方式的性能指標,可以發現,使用混合二級的聚類方式,性能上表現最好。僅使用關注關係和轉發關係,聚類性能較差。觀察聚類結果,單獨進行關注和轉發關係聚類時,大部分的用戶會劃歸到兩類。第一類為財經類和時政類資訊源,第二類為明星、娛樂和時尚生活類資訊源。劃歸到另外兩類的使用者數目較少,只有1–2個用戶。
在6,737 個用戶的較大規模樣本中,進行聚類分析,驗證方法的有效性。對聚類指標集矩陣Zg,採用「內部指標」評估聚類效果,具體DB指數值參見表六。
如表六所示,僅使用關注關係和轉發關係的DBI 值最低,理論上性能最好,但觀察聚類結果,發現這種聚類性能的提升,實際是以劃分不平衡為代價的。微博用戶被主要劃歸到時政和娛樂兩類群體,另外兩類群體數目非常少,只有10–60 個。結合DB 指數值和聚類群體規模來看,混合二級仍然具有性能優勢,是可以進行實際推廣的聚類方法。
真實的微博用戶中,存在機器人使用者、純資訊轉發使用者等異常情況。微博用戶聚類,可以有效識別機器人用戶、重複發帖使用者等情況。對於真實聚類結構為m 的情況,k = m + 2 就可以得到較好的聚類效果。但對原有的二級聚類法群體結構改變不大。再繼續增加k值,只會在原有的聚類群體中不斷分化出零散邊緣個體,但不會影響聚類的總體結構。
研究結論與未來發展
本文提出了一種基於用戶認知差異的微博用戶聚類方法。該方法不依賴微博用戶屬性和文本內容,而是根據微博用戶認知反映到媒介選擇和信息處理上的不同,完成用戶群體的劃分。實例證明,該微博用戶的聚類方法是可行和有效的,且具備較好的穩定性。
作為社交媒體用戶群體的劃分工具,該方法建立的關注、轉發二級資訊傳播聚類機制,能夠有效發現不同認知傾向的社團組織。這種微博用戶聚類方法,將龐雜的社交網絡中的受眾與資訊源,統一提取到資訊傳播維度中進行分析,可以更為全面和準確地理解資訊在網絡中的傳播機制。
·The End·
本文系簡寫版,參考文獻從略,原文刊載於《傳播與社會學刊》第59期。
點擊左下角「閱讀原文」,查看全文內容。
《傳播與社會學刊》
可長按二維碼了解學刊最新動態!
投稿資訊請於官網查詢