从协作软件到生成式人工智能,计算技术在不断重塑和定义我们的工作、交流与协作方式。
而技术的强大、复杂,也让人类担忧将难以预料和掌控技术的发展。这不仅可能影响用户体验,还可能催生出有害的应用,加剧社会矛盾和问题。
那么,我们如何才能更好地理解计算平台上的机器行为和以机器为媒介的用户行为?如何利用新兴计算技术,开发出符合我们人类需求和价值观的应用?
本期罗汉论道,即将加入埃默里大学商学院的助理教授曹瀚成博士,将基于三项其与合作者的最新研究,通过创新的实证研究设计与技术方法,以不同工作场景为例,对上述问题进入了剖析和探讨。
欢迎大家参与研讨,转发相关研究社群。
演讲嘉宾
Hancheng Cao 曹瀚成
微软研究院
曹瀚成,微软研究院应用研究部博士后研究员(Postdoctoral Researcher at Microsoft Office of Applied Research),即将加入埃默里大学戈伊苏埃塔商学院担任助理教授一职。
他的研究兴趣主要涵盖计算社会科学、信息系统和人机交互,聚焦于技术对未来工作方式的深远影响。曹博士的研究成果发表在CHI、CSCW等顶尖计算机科学会议、及American Sociological Review等国际一流期刊,且多次荣获最佳论文奖及荣誉提名奖(honorable mention awards)。此外,他的研究多次被《纽约时报》、《连线》、《福布斯》等国际主流媒体引用与报道。
曹博士于2024年6月从斯坦福大学毕业,获计算机科学博士学位,同时辅修管理科学与工程专业。
会议简介
主题:设计与评估未来工作所需的计算技术
这场讨论将聚焦三个关键问题:
远程会议中,参会者 “一心多用”,同时处理多项任务(multitasking)对工作表现有何影响?
公司内部不同团队具备哪些关键特质能够决定其生命力和未来的成功?
现有的大语言模型(如GPT-4)是否已经具备足够的理解和推理能力来胜任学术期刊审稿工作,并减少对人工审稿人的依赖,从而转向AI?
“一心多用”多任务处理对工作的影响
受疫情影响,远程办公模式逐渐盛行。缺少面对面的交流,参会者的在线协作能力、在线多任务处理(multitasking)能力就显得尤为重要。
由于数据可得性限制,目前的相关研究大多依赖于小规模的定性分析,对于多任务处理对工作效率的具体影响了解甚少。为了解决这一问题,曹博士及其合作者结合了715位员工的工作日志,深入分析了2020年2月至5月期间美国微软员工的大规模遥测数据(telemetry data)。
研究发现,多任务处理在远程会议中非常普遍,约30%的参与者会同时收发电子邮件。会议的特征,如规模、时长、类型和时间安排,都会显著影响人们是否以及在多大程度上进行多任务处理。
例如,与临时会议相比,参与者在定期会议中更倾向于“一心多用”。由于在远程线上会议中进行多任务处理既可能带来正面影响(提高生产力),也可能带来负面影响(导致注意力分散),曹博士及其合作者的这项最新研究将进一步探讨如何通过优化远程会议来提升员工的工作效率。
好的工作团队,差的工作团队,有哪些特质差异?
团队的业绩通常被视为衡量团队表现的关键指标。然而,曹博士及其合作者认为,这个指标只是评估的一个维度。对公司的健康和长远发展来说,更重要的是关注团队的生命力(team viability),即团队是否具备持续成长和取得成功的能力。
那么,团队生命力的强弱分别有哪些典型特征呢?
曹博士及其团队分析了669段在线团队的10分钟文本对话数据,采用自然语言处理技术对团队的聊天记录进行了深入研究。他们提取了四类关键特征:工作模式(work pattern)、语义(semantics)、主题(topic)和措辞(word choice)。此外,结合组织行为学的相关文献,他们通过人工标注聊天记录,额外识别了20个算法难以发现的行为特征。
通过多种机器学习方法,如逻辑回归(logistic regression)、支持向量机(support vector classification)、随机森林(random forest classifier)、多层感知器(multi-layer perceptron classifier)和梯度提升(gradient boosting classifier)等,研究发现团队成员在聊天互动中使用的排他性语言(例如“但是”、“除外”)以及第二人称代词(“你”、“你的”、“你们的”),是高生命力团队的重要特征。
这表明,在生命力较高的团队中,成员之间积极引用和讨论对方所提出来的观点,而不是侧重从个人视角(第一人称代词)或外部视角(第三人称代词)进行交流。此外,研究还发现,判断一个团队的生命力水平并不需要长达10分钟的聊天记录,实际仅需在团队协作开始后的70秒内的互动交流,就足以评估该团队生命力的高低。
大语言模型替代论文审稿人,提供有效的稿件反馈?
生成式AI(如ChatGPT)展现出的理解和推理能力已引发人们的担忧:生成式AI在多大程度上能够模拟甚至替代专家,胜任需要专业知识的任务?
曹博士及其合作者以学术论文审稿为研究对象,选取了来自《自然》及其子刊的3096篇论文和ICLR机器学习会议的1709篇论文,使用GPT-4对这些论文进行审稿,并将其反馈与专家审稿进行了对比。
研究发现,GPT-4与专家审稿意见的相似度超过30%(《自然》:30.85%;ICLR:39.23%),与两位不同专家审稿人之间的相似度相当(《自然》:28.58%;ICLR:35.25%)。尤其是在质量较低的论文中(即被ICLR拒稿的论文),GPT-4与专家审稿的相似度高达43.80%。这表明在评审低质量论文时,GPT-4的反馈更接近于人工审稿。
为进一步验证GPT-4的反馈有效性,研究团队将其意见直接提供给作者,由作者评判其有用性。结果显示,超过一半(57.4%)的作者认为GPT-4的反馈对提升文章质量非常有帮助。尽管如此,作者指出,虽然GPT-4在审稿方面展现出了巨大潜力,但其修改建议在操作性、具体性和深度方面仍不及专家。
论文1
标题:Large Scale Analysis of Multitasking Behavior During Remote Meetings
论文下载链接:
https://arxiv.org/pdf/2101.11865
论文2
标题:My Team Will Go On: Differentiating High and Low Viability Teams through Team Interaction
论文下载链接:
https://dl.acm.org/doi/pdf/10.1145/3432929
论文3
标题:Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis
论文下载链接:
https://arxiv.org/pdf/2310.01783
时间:
2024年11月5日,星期二,上午10:00-11:00(北京时间)
Zoom会议入口:
房间号:414 646 6469
密码:666888
或扫描下方二维码直接进入会议
如扫描不顺,可直接复制网址至浏览器进入会议室:
https://luohanacademy.zoom.us/my/luohan?pwd=QS9EUWQ3YkxlcjZ5UzNSSkEyT0g1Zz09
会议指南:
讲座为在线会议,持续 60 分钟。
建议实名入会,入会后请静音。
如有问题,请使用 Zoom 的提问功能。
罗汉论道 是罗汉堂定期的学术交流活动。我们为全世界前沿的经济、金融以及其他社会科学学者提供平台,大家共同分享、交流、切磋并推动数字经济和数字社会等相关领域的启发性研究。
如果您对前沿思想和商业实践中的关键问题充满好奇,欢迎参与我们的研讨会,聆听专家学者的深刻洞见,结识志同道合的人士,共同探索商业发展的新思路。加入罗汉论道,开启一段充满探索和启发的学术之旅!
往期回顾
订阅我们
请点击下方阅读原文订阅罗汉论道,
你将提前收到我们的参会邀约,
不错过每一场精彩。
关注我们,不错过数字时代社会科学新知