社交媒体大数据分析的系统综述

文摘   2024-10-22 14:04   美国  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 151 

Rahman, M. S., & Reza, H. (2022). A systematic review towards big data analytics in social media. Big Data Mining and Analytics, 5(3), 228-244.

摘要

互联网 2.0 的最新进展为使用 society 2.0 和 web 2.0 技术将世界各地的人们联系起来创造了机会。这个新时代允许消费者直接与其他个人、企业和政府联系。人们乐于以不同的方式大声分享对任何话题的观点、看法和想法。这为通过实施机器学习方法和社交数据分析来方便地使用“大社交数据”创造了机会。这项研究概述了社交媒体、数据科学和机器学习领域的近期工作,以获得社交媒体大数据分析的广阔视角。我们解释了为什么社交媒体数据是改进的数据驱动决策过程的重要元素。我们提出并构建了“大数据向日葵模型”来定义大数据,并通过结合 5个V和10个Big 来更新大数据。我们发现了在社交媒体平台领域工作的十大社交数据分析。本书讨论了实施每种大数据分析的相关统计/机器学习方法的综合列表。“文本分析”是迄今为止社交数据分析中使用最多的分析方法。我们在社交媒体分析上创建了一个分类法,以满足需求并提供清晰的理解。在这项研究工作中,还讨论了工具、技术和支持数据类型。因此,研究人员将更容易决定哪些社交数据分析最适合他们的需求。

研究方法

这项研究是利用系统绘图研究(SMS)进行的,这是科学调查领域的一种学术和著名的方法。系统制图研究的另一个名称是系统综述(SR)。在这个系统中,通过遵循一系列独立任务的顺序活动导致最终目标。SMS 的一系列任务主要用于收集和审查某一 主题领域的科学文章,以回答一些预先确定的问题 。这背后的策略是寻找和评估所有适用的文章,以解决具体问题。我们使用 Kitchenham和 Charters以及 Petersen等人提出的指南实现 SMS 方法。虽然为了服务于研究目的,我们稍微修改了 SMS 的任务,如参考文献。本研究依次遵循以下六项任务:(1)研究目标;(2)研究问题;(3)搜索策略;(4)选择标准;(5)研究的选择;(6)结果分析。

研究目标

(1)确定大数据分析和(2)他们的社交媒体数据分析关联算法。此外,我们希望调查每种大数据分析的支持数据类型(例如,结构化和非结构化)。以便我们可以向该领域的其他研究人员提供清晰的数据视图。这项研究的另一个目标是展示社交媒体如何成为基于现实生活统计的大数据的良好来源。作为这项研究的结果,我们将熟悉大社交数据、社会 2.0 和社交数据分析。

研究问题(RQ)

基于这项研究的目的,我们设立了以下 RQ。这有助于制定和接受这项科学研究。RQ1:基于社交媒体的平台在分析数据时使用了哪些流行的分析方法?RQ2:哪些技术/机器学习算法用于在社交媒体中实现这些分析?RQ3:这些分析的支持数据类型是什么?RQ4:社交媒体数据分析中最流行的大数据分析是哪一种?

搜索策略

我们创建了一个基于关键词搜索科学资源的策略,以便从各种相关资源中找到上述研究问题的解决方案。我们计划非常简短和具体的关键字进行搜索。我们的搜索关键词是 “大数据”或“社交数据”以及 “分析”或“数据分析”以及 “社交媒体”或“社交网络”或“社交网站”。我们选择只在文章标题上,有时在文章摘要上使用这些关键词。选择 ACM 数字图书馆、IEEE Xplore 数字图书馆和ScienceDirect 数字图书馆进行搜索。

选择标准

我们设计了一套标准来包括最重要的科学论文,同时排除那些不相关或不太相关的论文。纳入标准(IC)如下。IC 1:这项具体研究涉及大数据、数据分析和社交媒体。IC 2:这项具体的研究是一篇已发表的科学论文。IC 3:全文可用。IC 4:这篇文章来自计算机科学领域。IC 5:这是一篇综述/研究文章。同样,排除标准(EC)如下。EC 1:这个具体的研究是一个会议/研讨会的总结。EC 2:这个特定的学习是一门课程或一本书的一章。EC 3:没有这项研究的全文。EC 4:这项具体研究代表了大数据分析,但与社交媒体无关。EC 5:这是视频内容。EC 6:用英语以外的语言写的论文。

研究选择

对于这项研究,我们从三个流行的研究数据库中选择文章。这些是 ACM,IEEE 和 ScienceDirect 数字图书馆。我们使用这些数据库提供的高级搜索和过滤选项。从 ACM 数字图书馆中仅评估了 ACM 数据部分的知识发现汇刊,以消除文章中的重叠。

结果

社交媒体分析

本部分描述了这项研究的系统性回顾的结果。这项研究的主要目标是识别和收集社交网络平台中使用的显著大数据分析。到目前为止,我们得到了 10 个最常用的社交媒体分析。详细列表如表 6 所示。源论文的序列号在最左栏中提到。第二列列出了这项研究中最后20 篇文章的标题,以及它们的参考号。这些出版物的作者以及出版年份列在第三栏,以便澄清。最后,右栏显示了大数据分析(BDA)的名称,这是在那二十篇文章中发现的。在社交媒体领域,不同的分析用于不同的目的。例如,用于文本分析的文本分析、用于视频数据分析的视频以及图像数据都是通过使用图像数据分析来分析的。迄今为止,“文本分析”是大规模社会数据分析中最广泛使用和选择的分析方法。

社交媒体中的分析分类法

对于数据分析,我们发现十大数据分析在社交媒体领域讨论最多。这些社交数据分析分为三组。它们是(1)基于数据类型,(2)基于目的,以及(3)基于任务的性质。分类如图 5 所示。

有四种基于数据类型的社交媒体分析。这些是原始数据类型,如文本、图像、音频和视频。(1)文本分析处理字符串/文本数据。例如,对消费品的评论、对某个主题的评论、对某个问题的看法以及来自社交媒体的其他文本数据。(2)图像分析 支持任何对象的图像、图片、场景或照片。社交媒体用户大量分享商业产品的照片、旅行的美好瞬间、活动的照片或社交聚会。(3)音频分析使用机器学习从音频、语音或音乐中提取有意义的信息。几种研究继续进行,将语音转换为文本,分析社交媒体用户的音频以提取见解,等等。(4)视频分析显示了社交数据分析技术的最新进展。让视频数据为我们说话是数字通信和数据评估的新时代。

根据数据分析的目的,还有另外四种类型的社交数据分析。(1)预测分析使用机器学习算法来开发预测模型。该模型基于历史数据分析给出数据预测。(2)描述性分析通过分析现在或过去的数据来识别缺陷。这种分析有助于监控事件,并以报告的形式生成结果。(3)说明性分析研究了几种情况,并提供了最佳解决方案。它强调条件,并根据历史条件和结果的关系批判性地选择最佳结果。(4)诊断分析持续工作以开发更好的结果。数据挖掘和数据关联有助于社会数据分析过程中的每一轮诊断改进。

要在社交网络平台中完成其他具体任务,还有两个大数据分析。(1)视觉分析扩展了视频分析的概念。这适用于视频、图像、动画、gif 和其他形式的可视数据。社交集合可视化工具(SoSeVi)是可视化分析的一个很好的例子。(2) Web analytics 是一些免费提供给公众使用的分析工具。来自 WWW 的自动生成或与用户间接相关的数据,如元数据、日志文件分析器、网上交易、书签数据等。是网络分析中使用的数据的一个例子。网络分析也适用于其他社交数据。

社交媒体分析中的机器学习技术

在社交媒体的背景下,不同的算法与不同类型的数据分析相关联使用。表 7 显示了本研究中揭示的 10个大数据分析(BDA)类别中每个类别所采用的所有技术。BDA 的序号和 BDA 的名称列在表 7 的最左栏。中间一栏列出了与相关社会数据分析相关的统计或机器学习方法/技术。机器学习算法定义的范围被认为是宽松的,而不是为了在这项研究中找到的文章而扩展的。为了拓宽工作范围,机器学习算法不仅包括最常用的算法,还包括可以在后台使用算法来评估任何种类的社交媒体数据的技术、方法或程序。例如,在情感分析、情感分类和社会网络分析之间有一些相似之处,但是它们在方法、目的和背后的程序方式上都不同。情感分析可以通过监督和非监督学习方法来完成,而情感分类必须遵循监督学习方法,另一方面,社会网络分析遵循图论来分析社会数据。这三种方法的目标和数据分析技术各不相同。类似地,Google Analytics是一种跟踪和报告网站流量的网络分析技术。许多商业组织经常将谷歌分析用于在线业务和营销目的。AWStats、Amung.us 和 WebSTAT是机器学习算法在背后工作的其他类似工具。大多数研究人员使用这些工具和技术作为品牌名称,而不是后面的算法或算法组合。为了增加清晰度,我们列出了广义上的技术和机器学习算法的名称。还包括流行的机器学习算法,如递归神经网络(RNN)、卷积神经网络(CNN)、支持向量机(SVM)、朴素贝叶斯分类器(NB)、随机森林(RF)、决策树(DT)等等。

社交媒体分析支持结构化、半结构化和非结构化数据类型。表 7 的最右栏显示了哪些 BDA 支持社会数据分析的任何数据类型。文本分析支持结构化和非结构化格式的数据。从社交文本数据导出的数字是结构化数据格式,而文本数据是非结构化的。图像分析、音频分析和视频分析主要处理复杂、非结构化和杂乱的数据。在这项研究中,我们发现预测性分析和描述性分析都支持结构化和非结构化数据类型,而诊断性和说明性分析大多只处理非结构化数据。可视化分析始终处理非结构化数据类型。Web 分析可以处理结构化、半结构化和非结构化数据。这些策略对于通过分析大量潜在的社会数据来增强决策至关重要。因此,这些方法代表了研究人员可以使用的大数据分析技术的有用子集。

挑战和局限

由于社交媒体数据和大数据分析的广泛使用,许多学科和部门都取得了进步。在这个领域工作有许多障碍和限制。

  • 随着社交媒体数据的日益丰富,文件现在分布在多个物理站点上。公众访问变得越来越困难,访问这些数据需要技术技能。
  • 大型社交数据集的维护极具挑战性且成本高昂。
  • 不断分享状态更新、照片、视频等。并不总是对分析有用。从这个复杂的数据集中提取必要的数据需要进行数据清理和过滤,这既费钱又费时。
  • 在选举等敏感事件期间,网络攻击会对社交数据产生严重影响 导致错误结论。
  • 得到不可靠不完整数据的几率很大。比如噪音、拼写错误、英文外来数据等。
  • 整合和组合来自许多平台的社交数据是一项艰巨的任务。


主要作者简介

Md. Saifur Rahman
Assistant professor at University of Texas Health Science Center at Houston


分享者介绍

陈敏扬
chen-minyang.github.io
南京大学新闻传播学院硕士研究生
南京大学计算传播学实验中心成员
研究方向:文本分析

计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章