追问daily | AI比人类更会写诗；数字媒体如何影响青少年一生？听音乐时，大脑如何预测旋律？

学术 2024-11-15 20:41 上海

█ 脑科学动态

丘脑在适应性决策中影响前额叶对控制的重构

大脑如何保持冷静？

微创耳蜗神经路径助力听力损失治疗

大脑在听音乐时如何预测旋律的不确定性

压后皮层特定神经回路揭示大脑导航与记忆储存机制

脑脊液中鉴定出阿尔茨海默病的潜在新药靶点

阿尔茨海默病突变在大脑中产生“棉绒”结构

深度学习助力sMRI揭示个体智力差异

█ AI行业动态

Gemini-Exp-1114超越ChatGPT与Claude

Anthropic 推出 Prompt 改进器

Context Autopilot 上线，颠覆效率边界

让AI思维更深入：Claude背后的高级推理模式

OpenAI即将发布新型AI智能体“Operator”

█ AI研发动态

人工智能助力脑癌诊疗：标准化与未来方向的指南发布

从规则到智能：AI系统如何迈向人类推理水平

人工智能助力医学教育反馈优化

数字媒体如何影响青少年一生？

AI 生成的诗歌比人类写的诗歌评价更高

LLM在语言理解中表现有限，无法达到人类水平

LLMs模拟“群体智慧”，预测能力接近人类团队

脑科学动态

丘脑在适应性决策中影响前额叶对控制的重构

2024 年，塔夫茨大学医学院的Michael Halassa 团队对丘脑在适应性决策中的角色展开研究，关注精神分裂症等精神疾病的神经机制。该团队通过观察树鼩的行为，分析丘脑如何在任务中的决策中影响前额叶的重构。

研究团队设计了一项决策任务，包含规则逆转，记录树鼩在执行任务时的神经反应。研究发现，中背丘脑独立地处理提示和规则的不确定性，这一功能使丘脑能够在任务规则逆转后，将错误适当地归因于环境变化，并重构前额叶皮层以适应新规则。研究还揭示了一条跨丘脑路径，将来自扣带皮层关于错误的监测信号传递给前额叶，以实现控制的重构。这一发现表明丘脑在分离皮层信号中扮演了关键角色，并为皮层间通信提供了一条简化路径。这一研究拓展了我们对大脑在复杂环境中如何做出适应性决策的理解，有助于未来人工智能模型的开发。研究发表在 Nature 上。

#神经技术 #丘脑 #决策机制 #树鼩 #错误监测

阅读论文：

Lam, Norman H., et al. “Prefrontal Transthalamic Uncertainty Processing Drives Flexible Switching.” Nature, Nov. 2024, pp. 1–10. www.nature.com, https://doi.org/10.1038/s41586-024-08180-8

大脑如何保持冷静: 大脑稳定性和NMDA受体

特拉维夫大学医学与健康科学学院的Inna Slutsky教授团队，联合海法大学Kobi Rosenblum教授，发现NMDA受体（NMDAR）在维持大脑神经网络稳定性中的关键作用，或可为阿尔茨海默病、抑郁症等神经疾病带来新疗法。

该研究通过体外、体内电生理实验和计算模型揭示了NMDAR在设定大脑神经网络活动基线中的作用。首先，在体外实验中，通过双扰动法研究发现，NMDAR阻断会使神经网络活性无法恢复到原有基线，而是维持在新的、较低的活性水平。进一步的体内实验表明，在小鼠的海马体直接阻断NMDAR，可降低该区域的网络活动水平，但不会产生补偿性恢复。

通过eEF2K-BDNF信号通路，NMDAR可调节兴奋/抑制比率（E/I ratio），并在网络层面上稳定放电率。此外，研究团队的数学模型验证了稳定性在神经网络层面上实现，而非单个神经元独立完成。这些发现不仅拓宽了NMDAR在神经系统中的已知功能，也可能解释了其在抗抑郁药物中的作用机制，特别是通过降低抑郁症中过度活跃的脑区来实现治疗效果。该研究已发表在 Neuron 上。

#大脑健康 #NMDA受体 #神经稳定性 #抗抑郁疗法 #神经网络

阅读论文：

Ruggiero, Antonella, et al. “NMDA Receptors Regulate the Firing Rate Set Point of Hippocampal Circuits without Altering Single-Cell Dynamics.” Neuron, vol. 0, no. 0, Nov. 2024. www.cell.com, https://doi.org/10.1016/j.neuron.2024.10.014

微创耳蜗神经路径助力听力损失治疗

谢菲尔德大学的Rinri Therapeutics公司专注于再生细胞疗法，通过该技术开发新的听力损失治疗方法。该研究团队由谢菲尔德大学教授Marcelo Rivolta领导，联合诺丁汉大学、伦敦国王学院、加拿大和瑞典的专家，开发出一种新颖的微创途径，能直接接触到耳蜗神经。

传统上，由于耳蜗神经位于颅骨深处，通过手术接触这些神经十分复杂且侵入性强。本研究对10具人类颞骨标本进行了神经解剖学研究，并使用同步辐射相位对比成像获取解剖结构的3D图像。研究团队通过圆窗（round window）进入耳蜗中壁，并在1.48毫米深处（范围1.21-1.91毫米）钻孔，以此建立了可直接接触耳蜗神经的路径。这一路径在9具额外的颞骨标本中进行了验证，并通过不透射线标记和微型CT扫描确认了安全性和可行性。这一创新的手术路径为再生细胞疗法如Rincell-1提供了有效的治疗通道，将应用于谢菲尔德大学Rinri Therapeutics公司计划于2025年启动的人体试验。该研究为耳蜗神经的直接治疗开辟了新的微创方法，或能显著改善年龄相关性听力损失及听神经病谱系障碍（ANSD）患者的生活质量。研究发表在 Scientific Reports 上。

#神经技术 #听力损失 #再生细胞疗法 #微创手术 #耳蜗神经

阅读论文：

Li, Hao, et al. “A Novel Therapeutic Pathway to the Human Cochlear Nerve.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 26795. www.nature.com, https://doi.org/10.1038/s41598-024-74661-5

大脑在听音乐时如何预测旋律的不确定性

人类大脑具备强大的模式识别和预测能力，这种能力不仅体现在日常生活的决策中，也体现在音乐的体验中。在聆听音乐时，人们能够直观地预测旋律的下一步走向。马克斯·普朗克人类认知与脑科学研究所的研究人员Juan-Daniel Galeano-Otálvaro、Jordi Martorell及其团队，针对这一问题展开深入研究，以理解旋律预测的神经基础及其在不同人群中的差异。

研究团队招募了20名参与者（其中10人为专业钢琴家），让他们多次聆听巴赫的10段钢琴旋律，同时记录他们的脑电图（EEG）数据。研究通过多变量时间响应函数（mTRF）模型，分析大脑在不同频率范围内对旋律不确定性（熵，entropy）和意外性（surprisal）信息的编码情况。研究结果表明，熵在提升EEG重建精度方面的贡献显著高于意外性，并且这种提升在30 Hz以下的所有频带中均存在。

此外，时间信息的编码不仅限于低频范围（1-8 Hz），还延展至更高的频率。研究还发现，音乐家与非音乐家在旋律预测上的大脑反应有差异，音乐家的脑电图重建精度在β频段（12-30 Hz）得到显著提升，而非音乐家则在α频段（8-12 Hz）有增强。这表明音乐经验对大脑处理音乐的预测性反应具有深远影响。该研究成果已发表于 European Journal of Neuroscience 上。

#神经科学 #音乐认知 #旋律预测 #脑电图 #音乐家

阅读论文：

Galeano-Otálvaro, Juan-Daniel, et al. “Neural Encoding of Melodic Expectations in Music across EEG Frequency Bands.” European Journal of Neuroscience, vol. n/a, no. n/a. Wiley Online Library, https://doi.org/10.1111/ejn.16581. Accessed 15 Nov. 2024

压后皮层特定神经回路揭示大脑导航与记忆储存机制

加州大学欧文分校的研究团队首次揭示了位于压后皮层（RSC）内的两种特定神经回路如何与空间导航和记忆存储密切相关。研究通过逆行腺相关病毒（rAAV2-retro）和顺行AAV-SynaptoTAG2病毒追踪技术，研究了压后皮层（RSC）中与M2（次级运动皮层）及AD（前丘脑）相连接的两种投射回路。

M2投射神经元接收更多来自背下丘脑、AD及躯体感觉皮层等区域的输入，其作用在于将空间思维转化为行动；AD投射神经元则更倾向于记忆特定位置，接收来自前扣带皮层及内侧隔膜的输入。在化学遗传学方法抑制M2和AD投射回路后，研究发现抑制M2回路会影响物体位置记忆及空间定位功能，而抑制AD回路则主要削弱物体位置记忆。该发现为未来探讨压后皮层在认知障碍中的作用奠定了解剖学基础。研究发表在 Molecular Psychiatry 上。

#大脑健康 #空间导航 #记忆存储 #神经回路 #阿尔茨海默病

阅读论文：

Lin, Xiaoxiao, et al. “Projection-Specific Circuits of Retrosplenial Cortex with Differential Contributions to Spatial Cognition.” Molecular Psychiatry, Nov. 2024, pp. 1–17. www.nature.com, https://doi.org/10.1038/s41380-024-02819-8

脑脊液中鉴定出阿尔茨海默病的潜在新药靶点

阿尔茨海默病是一种常见的神经退行性疾病，研究其分子机制对治疗和预防至关重要。然而，由于活体患者大脑分子检查的困难，基因和蛋白质如何促进病变一直难以明确。华盛顿大学医学院的团队通过研究活体患者的脑脊液样本，将与阿尔茨海默病相关的蛋白质与基因进行关联，分析潜在的治疗靶点。该研究由神经基因组学和信息学中心的Carlos Cruchaga领导，并得到了Knight-ADRC和显性遗传性阿尔茨海默病网络的支持。

研究团队通过对3,506名阿尔茨海默病患者和健康捐赠者的脑脊液样本中的6,361种蛋白质进行了蛋白质QTL（定量性状位点）分析，并构建了脑脊液蛋白质组图谱。团队通过QTL和蛋白质组关联研究（PWAS）、共定位分析及孟德尔随机化分析，发现了1,883种蛋白质的3,885个基因关联（QTLs），包括2,885个新发现的蛋白质关联区域。他们重点研究了染色体3q28和19q13.32附近区域，这些区域与神经细胞特异性及神经发育高度相关。进一步分析筛选出38种与阿尔茨海默病发展相关的推定致病蛋白，其中15种可以作为药物靶点。团队还开发了一种基于蛋白质组的阿尔茨海默病预测模型，其预测效果优于传统的遗传学模型。这一研究显著拓展了对阿尔茨海默病分子机制的理解，有望推动更有效的干预手段。研究发表在 Nature Genetics 上。

#大脑健康 #阿尔茨海默病 #蛋白质组学 #基因调控 #神经发育

阅读论文：

Western, Daniel, et al. “Proteogenomic Analysis of Human Cerebrospinal Fluid Identifies Neurologically Relevant Regulation and Implicates Causal Proteins for Alzheimer’s Disease.” Nature Genetics, Nov. 2024, pp. 1–13. www.nature.com, https://doi.org/10.1038/s41588-024-01972-8

阿尔茨海默病突变在大脑中产生“棉绒”结构

由日本理化学研究所（RIKEN）生物系统动力学研究中心的Yoshitaka Ishii博士领导的国际合作团队，通过结构生物学技术深入探讨阿尔茨海默病中家族性突变引发的病理机制。该研究重点关注阿尔茨海默病中由北极突变（Arctic mutation）导致的独特淀粉样蛋白β结构，为揭示该病的复杂病理机制提供了新思路。

研究团队使用冷冻电子显微镜（cryoEM）和固态核磁共振（SSNMR）对北极突变导致的淀粉样β40（Aβ40）纤维结构进行了详细分析。他们发现，这种纤维呈现出独特的W形平行β折叠结构。与普通阿尔茨海默病斑块相比，家族性阿尔茨海默病（FAD）患者大脑中的“棉絮斑块”显示出较低的Thioflavin-T荧光（染色荧光指标）和较松散的纤维构造。此外，通过动力学（kinetic）和分子动力学（MD）研究，发现Aβ40在北极突变下比Aβ42更易发生错误折叠，并且可以通过交叉种子机制（cross-seeding，指一种错误折叠的蛋白质诱发另一种正常蛋白质发生类似折叠）促进野生型Aβ40/Aβ42的错折叠。这些结果表明，北极突变通过促进Aβ40的聚集和传播，可能加速了阿尔茨海默病的发病。研究发表在 Nature Communications 上。

#大脑健康 #阿尔茨海默病 #淀粉样β蛋白 #家族性突变 #冷冻电子显微镜

阅读论文：

Tehrani, Mohammad Jafar, et al. “E22G Aβ40 Fibril Structure and Kinetics Illuminate How Aβ40 Rather than Aβ42 Triggers Familial Alzheimer’s.” Nature Communications, vol. 15, no. 1, Aug. 2024, p. 7045. www.nature.com, https://doi.org/10.1038/s41467-024-51294-w

深度学习助力sMRI揭示个体智力差异

人类智力的形成受到先天和后天因素的双重影响，而这些因素在大脑中的作用可以通过MRI成像观测。然而，虽然sMRI可以在群体水平上显示出某些与智力相关的神经解剖学特征，但它能否解释个体智力差异仍未被证实。为解决这一问题，美国哈佛大学附属的波士顿儿童医院研究团队在Mohammad Arafat Hussain、Danielle LaMay、Ellen Grant和Yangming Ou的带领下，开展了一项使用深度学习技术分析sMRI图像预测智力的研究。

该团队从850名年龄在6至64岁之间的健康及孤独症人群中收集了T1加权结构性MRI（sMRI）图像，并在不同条件下执行了432次实验。实验包括使用不同的图像通道、六种深度学习模型、不同的参数和预测设定，以评估这些方法在预测智力水平上的表现。研究的主要发现是，通过sMRI预测个体智力有统计学意义，Pearson相关系数超过0.21（p < 0.001），这表明sMRI含有一定的智力预测信息。

令人意外的是，模型的复杂度增加并未显著提高预测精度。解释模型的过程中，研究团队采用了GradCAM技术，得出预测所依赖的关键脑区与顶叶-额叶整合理论（P-FIT）一致，证实了包括枕叶、顶叶、额叶在内的多个脑区交互在智力形成中的重要性。这一发现不仅支持了P-FIT理论，还为进一步探索智力的神经解剖学基础提供了新方向。此项研究发表在 Scientific Reports 上。

#神经科学 #智力预测 #深度学习 #结构MRI #顶叶-额叶整合理论

阅读论文：

Hussain, Mohammad Arafat, et al. “Deep Learning of Structural MRI Predicts Fluid, Crystallized, and General Intelligence.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 27935. www.nature.com, https://doi.org/10.1038/s41598-024-78157-0

AI 行业动态

Gemini-Exp-1114超越ChatGPT与Claude

谷歌近日正式上线其最新人工智能模型Gemini-Exp-1114，并免费向公众开放使用。Gemini-Exp-1114在多领域表现出色，尤其在创意写作、数学问题解决和视觉分析方面展现了强大的能力。根据官方数据，这一模型通过了6000多次社区投票的严格测试，并在综合人工智能排行榜上名列第一，获得了1344分的总评分，超越了ChatGPT-4o-latest（1340分）和o1-preview（1333分）。特别是在创意写作和数学领域，Gemini-Exp-1114表现尤为亮眼，其编码能力也从此前的第五名跃升至第三名。

#GeminiExp1114 #人工智能 #创意写作 #谷歌AI #数学分析

阅读更多：

https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=zh-cn

Anthropic 推出 Prompt 改进器

Anthropic 近日在其控制台（Anthropic Console）推出了一系列新功能，包括提示改进器（Prompt Improver）和示例管理工具，这些功能旨在帮助开发者提升人工智能（AI）应用的可靠性和效率。

提示质量是影响模型响应效果的重要因素，但最佳实践因模型提供商不同而有所差异。Anthropic 的提示改进器通过“思路链推理”、“示例标准化”和“示例丰富”等方法改进现有提示，同时提供自动语法修正和结构优化功能。开发者可以使用这些工具优化手写提示或将其他模型的提示适配到 Claude。

测试结果显示，提示改进器在多标签分类任务中将准确率提高了 30%，并将摘要任务的字数符合率提升至 100%。此外，示例管理工具支持以结构化格式添加和编辑示例，提高模型的准确性、一致性和任务处理能力。对于没有示例的提示，Claude 还能自动生成合成输入和草稿输出，简化开发流程。

在评估功能中，Anthropic 引入了“理想输出”列，用户可按 5 分制评分，进一步优化提示表现。开发者还能通过反馈循环迭代改进提示，甚至根据需求生成不同格式的输出，如从 XML 转换为 JSON。

#提示工程 #人工智能开发 #Claude #Anthropic #AI优化

阅读更多：

https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/prompt-improver

Context Autopilot 上线，颠覆效率边界

近日，Context 公司发布Context Autopilot，这是一款由上下文引擎（Context Engine）驱动的 AI 办公助手，旨在彻底改变现代办公方式。作为全球首个此类产品，Autopilot 凭借其强大的上下文理解和多任务处理能力，为用户提供高效的工作流管理和智能协作支持。

Autopilot 的设计核心是其独特的上下文引擎。不同于传统的人工智能，Autopilot 能够在复杂环境中进行深度推理并动态调整任务处理方式。这一功能使其在长文本理解和任务决策中表现优异，例如在 HELMET 128k 基准测试中取得了90.5%的高分。

此外，Autopilot 能够与用户现有工具（如 Google Drive、Slack 和 SharePoint）无缝集成，实现文档管理、邮件处理、项目规划等多种任务的自动化。通过自我复制的微型智能智能体系统（mini-pilots），它能够在大项目中高效分工协作，提高工作效率。

值得注意的是，Autopilot 的多任务处理能力尤为突出。通过生成多个智能智能体协同完成复杂任务，它不仅提升了工作流的效率，还通过实时反馈机制与用户深度互动，展现了出色的灵活性。

#上下文引擎 #AI办公助手 #工作流自动化 #智能协作 #多代理系统

阅读更多：

https://www.context.inc/

让AI思维更深入：Claude背后的高级推理模式

人工智能（AI）的发展进入了一个新阶段，不再仅仅追求快速准确的答案，而是希望赋予AI更强的推理能力和多维度的思考能力。Anthropic公司推出了Thinking-Claude的功能更新，为旗下AI模型Claude带来了类似OpenAI最新推理模型的高级逻辑处理能力。

这一改进的方法论核心是让Claude在回答问题之前，通过系统化的思维步骤实现更深入的洞察。这种步骤包括初步理解、问题空间探索、假设生成、自然发现过程、验证和检验等多个阶段，强调研究人员如何通过逐步深入的分析帮助Claude生成更加全面的回答。例如，“自然发现过程”鼓励Claude像侦探一样逐步推理，而“错误识别与修正”则确保AI能够主动纠正自己的推理错误。

此外，Anthropic还开发了一款Chrome浏览器扩展，帮助用户观察和管理Claude的思维过程。这项功能直观展示了AI的推理路径，使用户能更好地理解Claude如何得出结论，也让AI的使用透明度进一步提升。

这些改进为AI模型在解决复杂问题时带来了前所未有的优势，例如科研推理、医学诊断以及教育领域的深入教学等。通过这种全新的推理框架，Claude展示了如何实现从“回答者”向“思考者”的转变，为未来AI的发展指明了方向。

#AI推理 #高级思维 #Anthropic #Claude模型 #技术进展

阅读更多：

https://thinkingclaude.com/

OpenAI即将发布新型AI智能体“Operator”

OpenAI正加紧研发一款代号为“Operator”的新型人工智能智能体，旨在为用户提供更强大的任务自动化能力。据知情人士透露，该工具可以在浏览器中执行复杂的多步骤任务，例如编写代码、预订酒店和机票等，并且需要极少的人工监督。这款工具预计将于明年1月以预览版形式发布，并通过API向开发者开放使用。

在最近的员工会议中，OpenAI的内部人士指出，“Operator”是多个正在研发的AI智能体项目中的一个，其核心目标是实现通用的任务执行能力。OpenAI首席执行官Sam Altman此前在Reddit的“Ask Me Anything”会议中提到，智能体将成为人工智能发展的下一个巨大突破。他强调，未来不仅仅是模型的改进，更是让AI能够通过智能体更直接地帮助用户完成具体任务。

值得注意的是，人工智能领域的竞争正变得愈发激烈。竞争对手Anthropic已推出一款名为“computer use”的类似智能体，而Google也在积极准备推出自己的AI智能体产品。

#OpenAI #人工智能智能体 #任务自动化 #SamAltman #Operator

阅读更多：

https://www.bloomberg.com/news/articles/2024-11-13/openai-nears-launch-of-ai-agents-to-automate-tasks-for-users

AI 研发动态

人工智能助力脑癌诊疗：标准化与未来方向的指南发布

神经肿瘤学领域面临诊断和治疗的复杂挑战，尤其是在病情进展与治疗相关反应的区分上。由印第安纳大学医学院的Spyridon Bakas教授领导的团队，与哈佛医学院的Raymond Y. Huang教授及伦敦国王学院的Thomas Booth等国际专家合作，制定了一套基于人工智能的新指南。这些指南旨在改善神经肿瘤学领域的临床实践，并已在多个国际会议上介绍。

研究团队回顾了当前人工智能技术在神经肿瘤学中的应用进展，尤其是在诊断关键基因标记、预测治疗效果以及疾病监测方面。他们强调了影像组学等先进方法的潜力，但指出在推广中存在通用性和可重复性的问题。团队通过分析公开数据集和开源软件工具，提出了AI模型标准化的路径，确保其临床应用的可信性。研究发现，标准化的人工智能模型可以显著提高脑癌诊断的客观性与准确性，例如更快识别肿瘤类型、亚型和病变等级。这一研究为神经肿瘤学未来的AI应用奠定了基础，具有重要的临床意义。研究发表在 The Lancet Oncology 上。

#神经技术 #人工智能 #脑癌诊断 #影像组学 #肿瘤治疗标准化

阅读更多：

Bakas, Spyridon, et al. “Artificial Intelligence for Response Assessment in Neuro Oncology (AI-RANO), Part 2: Recommendations for Standardisation, Validation, and Good Clinical Practice.” The Lancet Oncology, vol. 25, no. 11, Nov. 2024, pp. e589–601. www.thelancet.com, https://doi.org/10.1016/S1470-2045(24)00315-2

Villanueva-Meyer, Javier E., et al. “Artificial Intelligence for Response Assessment in Neuro Oncology (AI-RANO), Part 1: Review of Current Advancements.” The Lancet Oncology, vol. 25, no. 11, Nov. 2024, pp. e581–88. www.thelancet.com, https://doi.org/10.1016/S1470-2045(24)00316-4

从规则到智能：AI系统如何迈向人类推理水平

人工智能研究领域长期以来试图复制人类的抽象与推理能力，这是人类智能的一大核心特点。然而，现有的AI系统在处理未见过的复杂任务时常显得无能为力。本研究由Mikel Bober-Irizar 和 Soumya Banerjee 领导，团队所在机构包括多家国际顶尖研究机构，目的是探讨是否能通过神经网络解决广义泛化问题，特别是以ARC数据集为测试平台。

研究团队通过改进神经符号算法DreamCoder和大语言模型（LLM），设计了一种新的领域专用语言PeARL（Perceptual Abstraction and Reasoning Language，用于抽象与推理的功能语言），并开发了一种新型识别模型。研究还尝试将视觉任务转化为文本任务，使大语言模型能够应用于ARC的部分问题。此外，通过集成多种解决方案，研究团队发现，这些方法能有效互补，性能优于任何单一系统。然而，即使是最优的集成方法，其解决任务的比例也仅为40%，远低于人类表现。本研究强调未来解决ARC问题可能需要更多元的策略，同时首次推出了一款名为arckit的开源Python工具库，为后续研究提供便利。研究发表在 Scientific Reports 上。

#认知科学 #抽象与推理 #人工智能 #广义泛化

阅读更多：

Bober-Irizar, Mikel, and Soumya Banerjee. “Neural Networks for Abstraction and Reasoning.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 27823. www.nature.com, https://doi.org/10.1038/s41598-024-73582-7

人工智能助力医学教育反馈优化

为改进医学考试反馈的具体性，柏林夏里特医学院与维滕-赫尔德克大学的研究团队，联合医学教育领域专家，探讨了大语言模型在生成医学考试反馈中的应用潜力。研究团队包括Mihaela Tomova、Iván Roselló Atanet、Victoria Sehy等，旨在为当前的医学进步测试（PTM）提供更具指导意义的反馈形式。

研究利用ChatGPT 4.0和Bing Chat两款大语言模型，为医学多项选择题（Multiple-choice Questions，MCQs）构建基于内容的反馈。研究通过文本相似性分析和调查问卷，对比两模型的输出质量及实际应用价值。ChatGPT 4.0生成的反馈内容被认为更详细，但其付费性质限制了广泛应用，而Bing Chat作为免费工具虽更易获得，但反馈具体性稍逊。调查结果显示，多数医学教育者认可AI反馈的相关性和实用性，并认为其有助于学生更清晰地了解薄弱领域。尽管反馈质量有待提升，研究认为该方法为现有数值型反馈提供了重要补充。研究结果表明，AI反馈在医学教育中具有广泛的潜在应用价值。研究发表在 Scientific Reports 上。

#神经技术 #医学教育 #人工智能 #内容反馈 #教育评估

阅读更多：

Tomova, Mihaela, et al. “Leveraging Large Language Models to Construct Feedback from Medical Multiple-Choice Questions.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 27910. www.nature.com, https://doi.org/10.1038/s41598-024-79245-x

数字媒体如何影响青少年一生？全球首个跨生命周期研究将揭示答案

南佛罗里达大学牵头的一项跨学科研究首次探讨数字媒体对青少年从童年到成年的长期影响。研究由 Justin Martin 主持，研究团队成员涵盖新闻学、心理学、公共卫生等多个领域，并与波因特媒体研究所合作。

这项名为“媒体生活调查”（Life in Media Survey）的研究计划持续25年，跟踪1500名初始年龄为11至13岁的青少年。调查范围涵盖从智能手机、社交媒体使用到网络欺凌、流媒体观看习惯、人工智能的接触等多方面内容。研究通过半年一次的问卷调查，记录参与者在心理健康、睡眠质量等关键指标上的变化趋势。

初步阶段的数据收集将在2025年春天发布结果，研究目标是发现数字媒体使用模式与健康结果之间的因果关系，例如：是否长时间使用社交媒体会导致青少年睡眠不足和焦虑感的上升。同时，研究还探索如狂看流媒体等行为是否会带来更多面对面的社交机会，从而降低孤立感。这些数据将为家长、教育者和政策制定者提供重要参考。

#认知科学 #数字媒体 #心理健康 #青少年发展

阅读更多：

https://www.stpetersburg.usf.edu/news/2024/usf-researchers-begin-first-lifespan-study-on-the-effects-of-digital-media-use.aspx

AI 生成的诗歌比人类写的诗歌评价更高

近期，Scientific Reports发表了一项由Brian Porter与Edouard Machery领导的研究，探讨非专家能否分辨AI生成诗歌与人类诗歌的差异，并分析诗歌评价背后的偏好机制。研究表明，AI生成的诗歌在非专家读者眼中不仅难以与人类创作区分，甚至被更高频率地误判为“人类作品”。

研究团队设计了两组实验：第一组实验中，研究者收集了10位著名英语诗人（如William Shakespeare和Emily Dickinson）的诗歌，与由ChatGPT 3.5模拟这些诗人风格生成的诗歌相结合，形成混合样本供1634名参与者辨别。结果显示，参与者仅达到46.6%的正确率，低于随机猜测水平。他们更倾向将AI生成的诗误认为人类创作（p<0.0001）。第二组实验则深入探讨了参与者对诗歌的定性评价，结果发现AI生成诗在节奏感和美感上得分更高，但当被告知诗歌由AI生成时，这些评分会显著下降。

研究指出，非专家更容易偏好AI生成的诗歌，因为其语言简洁明了，情感表达直接，便于理解；而复杂的人类创作则可能被误解为AI作品的“混乱输出”。这也解释了AI生成内容为何在非专家中呈现出“更人性化”的错觉。

#人工智能 #诗歌创作 #文化艺术 #非专家偏好 #生成式AI

阅读更多：

Porter, Brian, and Edouard Machery. “AI-Generated Poetry Is Indistinguishable from Human-Written Poetry and Is Rated More Favorably.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 26133. www.nature.com, https://doi.org/10.1038/s41598-024-76900-1

大型语言模型在语言理解中表现有限，无法达到人类水平

大型语言模型（LLMs）在医学、法律、教育等领域的应用广泛，但其是否真正具备人类语言理解能力引发争议。来自剑桥大学的Vittoria Dentella及其团队，包括Fritz Günther、Elliot Murphy、Gary Marcus和Evelina Leivada，对此进行了系统研究，以揭示模型在语言任务中的潜在局限性。

研究团队设计了一套新颖的基准任务，测试7种最新LLMs在语言理解方面的表现。这些任务使用高频语言结构，简化了语言复杂度。每个问题重复测试多次，采用两种回答模式（单词限制模式和开放长度模式），并以400名人类受试者为基线进行对比。基于26,680个数据点的分析表明，LLMs的准确率仅达到随机水平，其回答在一致性方面表现波动。研究还发现，模型在语义理解上存在显著偏差，表现出不同于人类的错误模式。这表明现有模型缺乏对语法和语义信息的有效解析能力，可能是由于它们无法内化类似人类的语言合成机制。研究发表于 Scientific Reports。

#认知科学 #语言模型 #人工智能 #语言理解 #语义分析

阅读更多：

Dentella, Vittoria, et al. “Testing AI on Language Comprehension Tasks Reveals Insensitivity to Underlying Meaning.” Scientific Reports, vol. 14, no. 1, Nov. 2024, p. 28083. www.nature.com, https://doi.org/10.1038/s41598-024-79531-8

LLMs模拟“群体智慧”，预测能力接近人类团队

近年来，大型语言模型（LLMs）因其卓越的语言处理能力在认知科学领域引发了广泛关注。这些模型的预测能力是否依赖于深度理解，仍是学界关注的重要问题。来自伦敦政治经济学院的 Philipp Schoenegger 等国际团队，联合其他机构的 Indre Tuminauskaite 和 Philip E. Tetlock 等，设计实验探索这一问题。他们特别关注如何利用“群体智慧”（wisdom of the crowd）效应提升模型预测能力。

研究人员使用12个不同LLMs组成集成预测团队，回答了31个二元问题，模拟了“群体智慧”效应。他们的数据来源包括一项持续3个月的预测锦标赛，与925名人类预测者的结果进行了直接对比。结果表明，LLMs团队不仅在统计上显著优于随机猜测，还在准确性上与人类预测团队相当。

进一步的研究表明，两个最前沿的模型（GPT-4和Claude 2）在参考人类预测中值后，准确性提升了17%-28%。此外，通过平均人类和LLMs的预测，进一步提升了整体准确性。该研究首次系统性验证了多样化LLMs预测团队的优势，证明通过简单的聚合机制即可达到甚至接近人类群体的预测水平。研究发表在 Science Advances 上。

#认知科学 #群体智慧 #大型语言模型 #预测分析 #人机协作

阅读更多：

Schoenegger, Philipp, et al. “Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy.” Science Advances, vol. 10, no. 45, Nov. 2024, p. eadp1528. science.org (Atypon), https://doi.org/10.1126/sciadv.adp1528

整理｜ChatGPT

编辑｜丹雀、1900、存源

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或添加小助手微信questionlab，加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了加州理工天桥神经科学研究院。

Chen Institute建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

http://mp.weixin.qq.com/s?__biz=MzI3MjQ4MDMyOQ==&mid=2247519616&idx=3&sn=cf56141a313d06c17a4d9b86ca986acd

追问nextquestion

科研就是不断探索问题的边界