谈谈上交所指定交易, Meta Movie Gen和GPU微架构

文摘 2024-10-07 01:19 重庆

大家好, 我是渣B~ 不搞群不卖课,不给任何人发生财务和其它关系的渣B~ 今天来谈三个事情, 上交所的交易系统性能, Meta版的Sora, 以及最近忙着读书对GPGPU微架构的一些感触.

1. 上交所“指定交易”相关

今天上交所公告“指定交易”指令申报时间改为9:15~11:30以及13:00至15:00. 但是很多人误读了上交所这一则公告, 误认为集合竞价规则变更, 然后还有一些人在开始讨论一些沪深交易时间不一致的套利机会...

实际上“指定交易”是上交所的一个交易制度, 即开市期间接受“指定交易”申报指令, 用于指定一家会员作为买卖证券的受托人, 通过该会员参与交易所市场证券买卖. 美其名曰:“提高交易的安全性和效率”. 也就是说客户必须选择一家证券公司的营业部作为其唯一的交易和托管机构, 股票也托管在这个指定的营业部.

“指定交易”类似于内存管理中的Malloc操作, 用于绑定客户和营业部, 撮合系统在撮合前预检查需要这些相关的信息. 而这些绑定信息需要同步到撮合系统的多个撮合集群, 跨集群的分布式数据同步的代价是非常大的.另一方面在早间开盘时, 还涉及了大量的ETF申购赎回等操作也需要跨集群处理. 再加上我国股市整个成交量的分布结构.

这一系列原因造成了前期上交所性能相关的故障, 而这些性能瓶颈段时间是无法立即解决了, 毕竟修改交易系统软件不是一个简单的事情.因此就采取了早高峰时间延长允许“指定交易”指令进行申报并在集合竞价期间能够快速完成数据同步的工作.

另外, 听到一个数据, 国庆开户的7成是90后和00后, 想起4年前扯淡的一篇文章《奔涌的韭菜们~》

2. Meta Movie Gen

Video生成模型大小30B, Audio 13B, 能够生成16s 16FPS的视频

模型结构很有趣, 例如Temporal Autoencoder (TAE) 后面需要详细的去学习一下. 脑子里突然多一个东西, Temporal AutoEncoder + Spatial AutoEncoder + Sparse AutoEncoder 来构建一些东西应该很有趣?

然后整个模型用6144张H100

并行策略:

3. GPU微架构

假期里很长一段时间都在重新阅读《Computer Architecture: A Quantitative Approach》, 带着不同的问题读, 有很多反思, 英伟达自从添加TensorCore后架构越来越DSA化, WGMMA临时性的架构再加上TMA这些东西在Hopper发布两年后才在TK, FA3中落地使用...

所以渣B在《再谈谈三万亿的破绽》中探讨了GPGPU架构遇到的种种问题, 老黄为了卖卡疯狂的堆料感觉就是在做一个“违背祖训(SIMT)”的决定. 其实回过头来看, 似乎针对数据中心/AI场景又出现了一个固定流水线的模式, 例如Cutlass

其实和当年早期的GPU很类似了:

对于当代的GPGPU也很明确的分成了TensorCore和SIMT Cuda Core两块, 如何让TensorCore inter-warp共享寄存器文件? 并且能够继续像SIMT那样优雅的编程? 偶然翻到一篇两个月前UCB的论文《Virgo: Cluster-level Matrix Unit Integration in GPUs for Scalability and Energy Efficiency》^[1]

通过共享内存将多个SIMT Core和Tensor Core相连, TensorCore采用大规模的脉动阵列.

功耗来看也有点意思:

是不是整个GPGPU微架构会因为GEMM的大量使用, 以及各种xxx并行策略, 又回到一个类似于OpenGL/D3d那样的固定流水管线的年代?

看着当年SGI的板子和如今的NVL72, 越来越像

参考资料

[1]

Virgo: Cluster-level Matrix Unit Integration in GPUs for Scalability and Energy Efficiency: https://arxiv.org/html/2408.12073v1

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP

推荐一本《Streaming Systems》的书

谈谈大模型算法和基础设施的演进...

再来谈谈ScaleUP网络

算力通缩下的“老黄经济学”

把GPU当成一个金融产品如何上杠杆?

继续谈谈三万亿的破绽

聊一聊OAI Swarm和多智能体

敬畏市场, 但是还是要充满希望~

再谈谈A股风险教育以及英伟达挖了思科AI网络的头牌Fellow的八卦

谈谈上交所指定交易, Meta Movie Gen和GPU微架构

Option-001: 谈谈A股的风险管理

谈谈A股量化中性及期权策略和上交所故障

谈谈CoT和推理的Scaling Law

致敬小镇做题家的OpenAI o1

随性摸鱼: 谈谈TTPoE和ScaleUP以及HMC

Tensor-010 Tensor Copy

Tensor-009 Cute Tensor

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

Tensor-008 CuTe Layout代数

HotChip2024-Day2: AI加速器互联和云AI处理器, Tesla是亮点

HotChip2024-Day1:AI加速器芯片

Tensor-007 Cute Layout简介

Tensor-006 AI软硬件交互界面: 可组合的Kernel

谈谈AI的软硬件交付界面

Tensor-005 CUTLASS简介

期待一下今年的HotChips

基于EthZ的以太网ScaleUP互联方案

谈谈下一代AI训练网络架构

[Sigcomm2024论文解析]谈谈网络研究和工程方法

Tensor-004 TensorCore编程及优化

[Sigcomm论文解析] Llama 3训练RoCE网络

Tensor-003 TensorCore架构

再来谈谈AI落地的事情

Llama 3技术报告解读(1)- AI基础设施和并行策略

Tensor-002 矩阵乘法优化

Tensor-001 矩阵乘法分块乘法概述

谈谈AISys架构师的基本素养

再来谈谈AI Fabric,你是计党还是网党?

谈谈AI Fabric, bus with network ?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉