数据预处理中的One-Hot编码

文摘科学 2021-03-15 10:58

在数据处理中我们有三类数据，分别为名义、有序和数值型数据，其中前两者表示的是离散型变量，而数值型

变量指的是连续型变量，这里的one-hot编码针对的是名义型的数据，这类离散型数据间名义大小等级之分，如{中国，美国，日本}，{apple，banner，orange}等。对于这些数据不能简单的把一组数据中第一个标记为1，第二个为2，……因为组中的数据的排序本身即为随机的，且本身也没有大小之分。

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

one-hot编码有以下要求：
1.数据为离散型数据
2.样本空间的排列顺序固定（要用one-hot就要事先规定位置，同一样本，不同顺序就会不同）
3.样本空间数据分为2类以上（就两类也没必要one-hot，直接就0-1了，不过本质也一样~~~）

为了更好的说明，我举个例子，有以下的数据：

特征空间为{男，女}，{篮球，排球，乒乓球}，{苹果，梨}，然后一个爱吃苹果爱好乒乓球的男生样本表示为{男，乒乓球，苹果}，但计算机不认识这样的表示，所以要进行预处理，第一种方式为（1,3,1），但是这样做就会面临上面的问题，所以第二种为one-hot编码，表示为
（1，0|0，0，1|1，0）←加竖线只是为了表示明显点，实际还是逗号，以{篮球，排球，乒乓球}为例，定原顺序为one-hot编码时的顺序，有（是）则为1，否则为0，即篮球表示为（1,0,0）

one-hot编码的好处：
可以对不同样本间估计距离
原先篮球若表示为（1），排球表示为（2），乒乓球为（3），机器学习中常用距离表示相似度，那么篮球和排球的距离为sqr（1），篮球与乒乓球间的距离为sqr（2），但球类间是等价的，所以距离应该要相同。
用one-hot编码时，篮球为（1,0,0），排球为（0,1,0），乒乓球为（0,0,1）所以距离都是sqr（1）
这里我们采用的距离都是欧式距离←就是平面直角坐标系中的那个距离

当特征空间中的离散变量本身直接分析时就有one-hot的优点（能力），或者说数据为连续型变量时就不能使用one-hot

智慧识竹

和小周周一起学习新知识，探索更多的未知世界吧

最新文章

竹子中ABCG亚家族的比较分析及PeABCG15在木质素单体运输中的潜在功能

酵母杂交实验介绍

F-box蛋白PeFKF1通过与PeID1和PeHd1合作促进竹子（Phyllostachys edulis）的开花

IJBM: BZR1靶向类固醇22-α羟化酶4，负调节竹子的细胞伸长

PPB：对毛竹中生长素响应因子家族的鉴定和特征分析揭示PeARF41对第二细胞壁形成具有负调控作用

PNAS：甜橙果实发育和成熟过程中全基因组范围上DNA甲基化的增加

一个涉及水分运输的竹子‘PeSAPK4-PeMYB99-PeTIP4-3’调控模型

单细胞转录组分析揭示了棉花色素腺的发育轨迹和转录调控网络

高杂合性六倍体勃氏甜龙竹的染色体水平基因组和代谢组分析阐明了其顶芽质量和发育特征

弥补空白：在端粒到端粒时代解析植物着丝粒

NP：种子萌发过程中单细胞转录状态的建立

NC:全面映射和建模水稻调控组的景观揭示了复杂性状背后的调控结构

GPB：植物人工智能育种中的机器学习

11种竹子基因组组装揭示动态亚基因组优势诱导的多样化

比较群体基因组学揭示了杏-桃-李-梅复合体中的趋同和趋异选择

nature methods：从单细胞和空间转录组学推断模式驱动的细胞间流动

HR：端粒到端粒无间隙的鳄梨参考基因组组装为识别与脂肪酸生物合成和抗病性相关的基因提供了有用的资源

JIPB：等位基因感知的染色体尺度组装：六倍体麻竹的异源多倍体基因组

整合生理特征和蛋白质组学分析为蓝/红光处理的毛竹（Phyllostachys edulis）提供新见解

MP：操纵光感应和昼夜节律信号限制了拟南芥对变化环境条件的表型可塑性

PLANT PHYSIOLOGY：植被遮荫产生的光信号促进避荫植物对低光的适应

光和激素信号通路的整合在植物避荫综合征调控中的作用

新植物学家: 植物的耐阴分子机制

The plant cell: 光感受器活性有助于粗毛碎米荠和拟南芥幼苗对遮荫的不同响应

Plant Physiology:VvbHLH036，一个基本的螺旋-环-螺旋转录因子，调控葡萄树的耐寒性

新植物学家：在草类中更大的基因组可提供环境依赖性生长优势

Trends in Plant Science: 遮荫耐受性:当高生长不是一种选择时

The Plant Cell:毛竹的快速生长：细胞图谱、转录组动态和环境因素

Nature Methods:基因水平的单细胞轨迹对齐

非生物胁迫诱导的转座元件及其转录本中的DNA甲基化揭示了毛竹的多层次响应

NP:草类植物中的抗干旱能力的趋同进化

Nucleic Acids Research:基于深度学习的方法能够自动且准确地组装染色体水平的基因组

NC:基于单倍型的全基因组揭示了毛竹种群中的遗传变异和气候适应

Frontiers in Plant Science：开花对不同年龄的竹子的茎的解剖结构、化学成分和碳水化合物代谢的影响

叶绿体基因组变异及七种矮型观赏竹类的系统发育分析

PC&E：一种竹子HD-Zip转录因子PeHDZ72通过促进糖和水分运输赋予了抗旱性

时空转录组图谱揭示了快速生长竹笋器官发生过程中的基因调控模式

JIPB:六倍体麻竹（Dendrocalamus latiflorus Munro）异源多倍体基因组的等位基因感知染色体规模组装

黄条金刚竹叶片形态发生的解剖机制

NG重磅综述：利用端粒到端粒的基因组组装解锁植物基因组学

组学上的人工智能应用

数据预处理中的One-Hot编码

试验设计中的平行和重复

竹类的研究历史简介

毛竹大小年形成原因探讨

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉