《一年阅读48本书》
我们将与企业家、行业专家、渴望成长的95后结伴同行,让我们每周日20:00-21:00不见不散。
每期读书会后,小链将根据分享人的观点编写成文章,如下。
前 言
“我之前从来没有在淘宝上搜过这样东西,今天午休时和同事闲聊就提了一嘴,晚上就在抖音推的广告里看见了,你说这些应用是不是真的在监听啊?!”自互联网行业蓬勃发展以来,相信大家对这样的谈话已经习以为常了。“算法”,这个本来在计算机领域形容一种解决问题的具体框架的专业术语,出现率也渐渐地在日常生活中高了起来,并逐步成为定义更狭隘的“推荐算法”的替代,以及对某一类高薪工程师的映射。
作为相关从业者,我忍不住想为本书的中文译名做一个捉虫。作者大卫·萨普特成书的原名叫《Outnumbered》,直译为“数量上超过”,一个略微更显文学性的译名可以是“寡不敌众”。“寡”的是个人力量,体现在每个个体的声量以及对自己个人数据保护的力不从心;而“众”的,是个体每时每刻都在接受的庞大数据量以及潜藏在大数据中的“多数”,对个体从行为到观点的全方位影响。
因此,与其说我们的生活被算法操控,不如说我们的生活在被每天接触的精准而又庞大的数据操控。而萨普特,就在书中循序渐进地展现互联网时代大数据对我们,乃至对这个世界的影响。
一
大数据对人的影响
萨普特在书中用自己所能接触到的非常小规模的社交媒体数据以及相当简单的技术手段就构造出了人的行为和人格在数据层面的解构,并得到了受试者相当正面的反馈。如果这种简易的复现都能轻松给人“你很了解我”的印象,那试想坐拥数十亿用户的互联网巨头,从每一次点赞、关注、评论的内容中提炼出的数据,将其转化为各式各样的标签并最终贴回到用户头上。用户每一次各种类型的输入都被累计,而经过算法模型的分析,最终的输出就是大数据对该用户的定义。以这种规模的数据量作为支撑的准确度,又怎能不让人产生我的手机好像真的在“监控”我;亦或者我的社交媒体比我的家人、朋友更了解我诸如此类的感叹。
与之相对应的一个极端反例就是,美国的一些州在刑事被告请求假释的阶段,会把被告的数据输入风险评估模型,分析犯人是否会再次犯罪。由此,对人的评估再不依靠人本身,而是依靠数据提炼的,被认为足够具有代表性的一个多维向量而已。毕竟书中用例比较极端,我不去讨论这种方法是否公平,而是不禁思考,当普通人试图用行动跳出社交媒体对我们的已有定义时,是不是也正如例子中的囚徒一般无助呢?
此外,他们还非常擅长制造争议话题以及在同样头部体量的类似网红中掀起骂战。这些因为“黑红”而带来的巨大流量,迫使油管的推送机制将他们送上热门,并牵扯更多原本不在其中但是从众看热闹的用户。有人看了十秒的视频前广告,就为了跟风而来给视频点个踩。而拥有了收益的网红和网站,自然是继续以更出格的举动和更高的搜索排名加速这种恶性循环。
信息茧房:公众对信息的需求更侧重于使自己愉悦的领域,相较于回声室效应强调主动的个人选择限制
回声室效应:意见相近的声音在封闭的环境内重复,令处于其中的公众相信这些就是事实全貌,相较于信息茧房更强调环境对人的被动影响
过滤气泡:互联网时代平台随时了解用户偏好,从而过滤掉异质信息,强化以上两种现象的特性
沉默的螺旋:观点因为受赞同,引起积极参与而越发扩散;同时成为少数的观点持有者越发沉默导致声量恶性循环
以上概念均提出于21世纪初甚至上世纪末的互联网发展时期,但随着公众接触到的信息量呈指数增长,同时又缺乏可靠的信息辨别手段,使上述现象得以在大数据时代愈演愈烈,最后被累加转化为不可逆的事件。诸如2016年美国总统大选特朗普在民调中占劣势却最终胜选,又如同年英国脱欧之后大批原本投支持票的民众反悔要求重新投票。
如果代入概念进行思考,那这些结果又显得毫不意外了。拿2016年美国大选举例,社交媒体的过滤气泡让已经被标签的选民只看到了和自己有相同政见的用户和政党候选人动态;在支持民主党的文章的拓展阅读链接中几乎不可能出现意见相左的文章,加剧回声室效应;就算真的有人意识到希拉里并没有绝对优势时,也会因为和官方民调数据不同怕在事后被“打脸”而保持沉默。
他将模型的表现大致分为三类,第一种不尽人意的,作出的判断不比胡乱猜测好,虽然这类模型不可能投入实际使用;第二种差强人意的,结果不会优于“机械土耳其人”们的回答;而第三种表现稍好的,回到萨普特的舒适区足球竞彩,他认为模型作不出统计学上胜过庄家赔率的测算(这里也可以延伸至任何具有一定历史从而产生了大量数据并且凝聚了尖端人才智慧的行业,比如保险赔付比率)。
但2018年的萨普特,并没有预见到从那以后人工智能的发展之迅猛,而模型也不需要在统计学上钻现有体系的空子,只需要能更快更好地完成一些基础任务,就已经能给行业格局带来巨变了。那就让我们把视角转移到2024年的国内,看看大数据和相关算法影响的延续。
二
在2024的中国看问题
1.基础建设
大语言模型和生成式AI的建设,代表了更快的自然语言输入处理速度和更人性化的输出体验,自然而然成为互联网公司炙手可热的研究方向。在研究深入化、商业化的过程中,我们时常能听到一些令人哭笑不得的新闻。例如经过推特语料训练的聊天机器人在短时间内变得极具攻击性又粗鄙不堪;因为男女的向量映射对应到了警察和家庭主妇或者错把黑人识别成大猩猩而深陷歧视舆论泥潭的互联网公司。
在看乐子之余我会反思,为什么国内的模型研究似乎从来都没有暴露出类似的问题,是真的因为我们的语料和计算机视觉数据质量更好么?还是说我们只是在先头企业暴露问题之后又用他们提供的优化方法预先弥补了呢?如果我们通过踩着前人脚印的方式前进,势必会找到捷径省些力气,但这又是不是代表,我们永远会在先驱者身后呢?
2.社交平台行为分析
一个非常有意思的现实是,如果只考虑初始的使用场景,国内没有强实名属性,同时可以和陌生用户随时发起沟通,并且用户市场占有率高的社交平台。比如,作为需要中间人名片传递,或者面对面成为好友的强实名社交媒体微信,你看不到非好友的朋友圈分享;反之你可以在微博小红书上随意浏览关注者的主页,但这些用户与你在现实生活并没有任何交集。
用户们在匿名社交平台身份和现实的割裂,会让网友和生活中身边人更难发现和定义他们接触不到的另一侧。但是这些用户可能没有想过,自己在匿名平台展现出的偏好,和借助平台信息试图解决生活中实际问题的搜索结合,将个人信息更直观地提供给了算法。匿名是相对于平台其他用户而言,放飞自我的你在背后的互联网公司眼中,显得更赤裸了。
3.社会议题和背后的流量
我们确实不需要面对大选或者脱欧这类国家层面影响历史进程的决策因为大数据影响而造成的后果,但在精确掌握了用户的画像之后,凭借国内的网民基数,平台(或掌握了数据的个人/组织)可以轻易对个体用户所能造成以及接收到的信息在任何社会热点议题上加以引导。形成的巨大声量在结合了之前提到的传播学效应之后,会有山呼海啸般的实体力量。这股力量有时候会产生积极的意义,但我们也见识过当这股力量成为压力作用于个人的时候造成的悲剧。尤其是当洪水退去,一地鸡毛,看客作鸟兽散。讽刺的是留下了承接住流量的新网红,以及被消费主义裹挟的带货门路。
三
结束语
如此看来,大数据带来的一些顽疾并没有解决,但是进一步方便数据收集和处理的技术工具,可是在不断进化。
同时我也愈发觉得,回顾算法的发展给我带来了几个需要辩证思考的命题。
其一是计算机科学家的自我实现,正如萨普特在书中介绍的一位工程师朋友,原本靠构建混淆谷歌搜索排名算法的垃圾网站中获取流量跳转广告费用谋生,之后转向引导大数据的合理运用从而为生活提供便利的相关工作,而这种转变,几乎可以单纯的用“良心发现”,想干点正经事来形容。同样的如果有一类工程师,沉浸在通过操纵数据从而操纵人性,甚至影响重要事件结果并以此为乐,享受俯视一切并以此作为自我实现的目标。那大数据的博弈,是否有一部分是这类人在自我实现的道德标准层面的博弈。
其二是对人工智能的未来的思考,显然有一部分从业人员,在科技领域巨擘的带领下认为超级AI的伦理问题是现在就需要考虑的,并至少在舆论层面付诸了行动。比如去年呼吁暂停人工智能系统研究的公开信,就收集到了马斯克和图灵奖得主的签名。我个人的观点,目前对于AI在伦理层面的任何讨论都可以看作是一种对未来趋势的营销,但是AI工具对劳动力结构和就业已经产生的影响,却是值得大家警醒的严肃话题。
大数据成体系的收集和运用,以及相关领域科技的飞速发展早已成定局。
既然山洪已发,势大力沉,无法避免,我们应该学会的是如何在大数据的洪流中稳住身形,不轻易受影响。同时把数据收集、分析的习惯吸纳进个人的成长和企业的管理中,在数字化进程中取其精华,进而主导浮沉。
欢迎把文章分享给更多创业伙伴
想要参加读书会
欢迎添加@小链 共读好书
▼