首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

著作解读｜GWAS第二章：表型数据的准备和管理

文摘 2024-08-30 08:53 广东

大家好，我是邓飞。之前推荐过这本《Genome-Wide Association Studies》的书籍，2022年出版的，内容比较前沿。电子版书籍获得方法，公众号后台回复：book1，获得pdf链接。

昨天介绍的第一章：GWAS分析的主要步骤和关键要点，今天介绍第二章。

这本书的目录：

今天介绍第二章：表型数据的准备和管理

主要内容：

表型数据异常值处理。
表型数据，使用原始数据，blup值，平均值，还是blue值对结果的影响。
异常值不清理，会造成假阳性，特别是频率比较低的位点，对异常值更敏感。
稀有位点有效，以及假阳性的影响，这是需要权衡的。
使用空间分析校正表型，提升狭义遗传力，增加GWAS中显著性位点的power。
选择合适的统计模型，同时考虑假阳性和假阴性的影响。

GWAS分析流程：

表型数据的误差来源：

1. 图片噪音，由于图片数字化时产生的噪音。

2. 技术问题导致的误差。

3. 人为误差，采集数据时没有布置好，而导致的误差。

计算矫正值之前，需要将这些误差值删除。

表型数据的清洗方式对GWAS结果影响很大：

上面是数据是否清洗的检测结果，可以看到，第10条染色体在数据清洗后，没有了显著性位点，这些位点可能是假阳性。

如何正确对待异常值？

尽可能的检查和消除异常值，最大化的捕获表型方差
清洗标准，可以根据群体结构和分析目的，综合考虑每种方法的优缺点
另外，建议可以识别异常值，但是不能删除，异常值也是有价值的信息，可以分别测试不同的结果

注意：表型值的准确性才是最重要的，再好的模型弥补不了数据的缺陷。表型数据不好，一切都是白搭。

为何植物多环境数据（MET）要使用BLUE值或者BLUP值，不用平均值？

BLUE和BLUP重叠更多，平均值结果不太好。blup和blue重复了32个，blue和平均值重复了26个，blup和平均值重复了20个。之前写过博客：用BLUE值作表型进行GWAS分析。

结论：

1. 异常值识别方法是 GWAS 分析的一个重要标准。因此，一种或另一种方法的选择取决于标准的优化和遗传分析的战略决策。

2. 缺乏对数据清理的关注，会直接影响检测到的QTL的数量和效果，并可能导致最终结论模糊。

3. 数据集的组织和存储方式应便于重新分析。这要求对检测到的异常值进行识别，但不从信息系统中删除，并且将异常值检测规则保留为GWAS分析的元数据。

4. GWAS 分析的基因型平均值必须通过考虑实验空间变化的稳健模型（例如混合模型）来估计。

5. 使用考虑空间趋势的混合模型增加了显着QTL的数量，这可能是由于性状的狭义遗传力和GWAS的统计能力增加的结果。

6. 估计基因型平均值的方法的选择会影响GWAS的统计功效。因此，所选方法的后果可以通过选择更高（或更低）的GWAS分析阈值来抵消。

飞哥总结：

异常值一定要处理，不正确的数据一定要删掉
多环境数据，推荐使用混合线性模型的空间分析进行矫正表型，这样结果更可靠。使用的软件：asreml、sommer等包。
对于不确定的异常值，可以放到模型中跑一下，去掉跑一下。另外，样本比较小的群体，多试试GWAS模型，比如MLM、BLINK、Farmcpu等方法。

下一篇，介绍《基因型分型平台选择》，欢迎继续关注。

专注于分享植物方向的最新学术成果、前沿知识和技术进步，以及实践优化过的生信软件、脚本和流程。

最新文章

基因组注释｜1. 从原理介绍开始

SeqKit2｜一款超快且全能的序列处理工具包（以取反向互补序列为例）

Bioinformatics | 张国捷团队开发T2T基因组组装质量评估新工具

Plant Journal｜胡萝卜的T2T 基因组和转录组揭示了其与病原菌在感染过程中的相互作用机制

PCE｜V-ATPase可以与VPT蛋白合作，在亚细胞和系统两个层面上调节Pi稳态

JIPB｜OsBSK1-2通过OsHLH46/OsbHLH6复合物来调节水稻的稻瘟病抗性

TBtools｜对minimap2生成的paf文件进行可视化

Nature Communications｜VIG1基因上的一个点突变促进了水稻的发育和耐冷性

Nature Communications｜HASTY介导的miRNA动态变化调控了拟南芥中缺氮诱导的叶片衰老

高校新闻｜港浸大前协理副校长呼吁取消教资会，将八大高校合并为香港联合大学

会议通知｜这个11月，我们相约重庆

JIPB | 南京农业大学王源超课题组提出大豆锈病菌防治新策略

著作解读｜GWAS第三章：基因分型平台介绍

Plant Communications｜OsHAG1调控了水稻籽粒中的砷元素分配与积累

Plant Communications｜叶绿体五肽重复蛋白通过TB1-RCN22-RbcL模块影响糖水平来调控水稻分蘖

著作解读｜GWAS第二章：表型数据的准备和管理

著作解读｜GWAS第一章：分析的主要步骤和关键要点

New Phytologist｜植物必需微量元素的关键生理功能与缺乏症状

JIPB丨玉米螟幼虫取食玉米时的“马太效应”

Nat Genet | 豌豆参考基因组和314份群体分析提供了对孟德尔性状遗传基础的见解

JIPB｜MRP5和ITPK4双突变在不损害拟南芥耐盐性的同时，降低了种子中的植酸含量

Plant Journal｜法国科研团队推出了871个完全测序的纯合EMS突变体

Nature Communications｜E1及其同源基因精细调控大豆开花时间和适应性的分子机制

PBB｜1-丁醇预处理通过刺激气孔关闭和延缓叶片水分损失，有效增强了拟南芥对干旱胁迫的耐受性

JIPB｜绿光通过调控光敏色素的活性介导了拟南芥中的非典型光形态建成

Nature Communications｜胁迫诱导的转录因子ONAC023同时改善了水稻对干旱和热胁迫耐受性

Mac 上的终端神器 - iTerm2

Nature Communications｜效应因子NopL与GmREM1a和GmNFR5互作以促进大豆与根瘤的共生

JIPB｜液泡的磷酸盐外排机制支持了大豆根毛在缺磷条件下的生长

quarTeT｜鉴定基因组中的端粒（1）

生信技能 | quarTeT：专门用于T2T组装和着丝粒重复识别研究的新工具

Plant Journal｜OsMYC2-JA反馈回路通过细胞壁松弛调控水稻的日间开花时间

Nature Communications｜AUREO1c-LI818途径促进了硅藻在动态光照条件下的适应性

Nature Communications｜温度依赖的Jumonji去甲基化酶通过靶向H3K36me2/3调控小白菜的开花时间

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉