首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

机器学习入门：医学数据的数学编码

文摘 2024-08-05 23:10 北京

数字数据

首先，我们考虑一个玩具数据集，它包含5名患者在入院时测量的收缩压值（以毫米汞柱为单位）：

患者1: 124,
患者2: 227,
患者3: 105,
患者4: 160,
患者5: 202.

在数学中，这种数据通常存储在一个叫做向量的对象中，它只是一个有序的数字列表：

向量可以是行向量（水平排列）或列向量（垂直排列）。我们可以通过转置操作在行向量和列向量之间转换。转置操作记作向量右上方的一个"T"：

向量可以有任意数量的元素，这称为其维度。例如，向量x和y都是N维的列向量：

我们可以逐元素地将两个维度相同的向量相加或相减：

两个向量还可以通过内积（或点积）相乘，得到一个标量输出：

此外，向量可以乘以一个标量，这会将向量的每个元素都缩放：

向量的范数（或大小）是代表向量长度的一个数字，对于一个二维向量x，可以通过勾股定理计算其范数：

这也可以推广到任意维度的向量：

分类数据

深度学习中的数学函数需要严格的数值输入，但医疗数据有时是分类的。一个常见的方法是使用独热编码，将每个类别表示为一个只有一个位置为1，其余位置为0的向量。

例如，假设我们有三种COVID-19疫苗类别：Moderna、Pfizer和J&J。可以用如下方式编码：

Moderna: [1, 0, 0]
Pfizer: [0, 1, 0]
J&J: [0, 0, 1]

这种编码方式确保所有类别在几何上是等距的。

图像数据

数字图像可以是黑白图像、灰度图像或彩色图像。黑白图像由0和1构成的二维数组表示，其中0表示黑色，1表示白色。灰度图像允许每个像素存储0到255之间的整数值，代表256种灰度。

图像数据通常以矩阵形式存储，例如一个N×M的矩阵：

对于彩色图像，我们需要三维的张量来存储，这种张量有M行、N列和P层。例如，一个RGB图像可以表示为一个M×N×3的张量，其中每一层分别代表红色、绿色和蓝色。

时间序列数据

时间序列是随时间收集的一系列数值，可以表示为一系列时间-值对：

其中，t表示时间戳，x表示在每个时间点测量的数值。大多数时间序列数据是等间隔采集的，可以简化表示为：

常见的医疗时间序列数据包括心电图（ECG）和脑电图（EEG）等。

文本数据

医疗文本数据通常以电子健康记录（EHR）的形式生成，包括病人笔记、体检记录、用药记录、放射学和病理学报告等。处理文本数据通常需要大量的预处理和转换。

词袋模型（BoW）是一种常用的文本表示方法，它统计文档中每个词出现的次数。为了减少维度和计算复杂度，通常会移除停用词并将词还原为其词干形式。

例如，对于以下两句话：

"Patient was sent to the ICU because of respiratory failure."
"Patient's fever, respiratory rate, and respiratory alkalosis have improved."

经过预处理后可以表示为：

"patient, send, ICU, because, respirate, fail"
"patient, fever, respirate, rate, respirate, alkalosis, improve"

然后构建一个包含所有唯一词的向量，并统计每个词在文档中出现的次数。

基因组数据

DNA分子由四种碱基组成：腺嘌呤（A）、胞嘧啶（C）、鸟嘌呤（G）和胸腺嘧啶（T）。基因组数据可以看作是由这四个字母组成的长文本序列。

例如，一个长度为9的DNA序列：

AACTGTCAG

可以表示为一个4×9的独热编码矩阵：

http://mp.weixin.qq.com/s?__biz=MzI0NTU2NzAxNw==&mid=2247485818&idx=1&sn=4a898adf1c9a20b1d02ea6bcefc1502f

ENT医生的科研分享

最新文章

过敏性疾病和超敏反应

一家人就要整整齐齐的：PCR、RT-PCR、qPCR、qRT-PCR

一文明白什么是流式细胞术

《Cell》免疫专刊——探索免疫学新视角

免疫学基础：宿主防御机制缺陷

放疗增敏剂：氧气和一氧化氮

免疫学基础：先天免疫与适应性免疫

免疫学基础：体液免疫

免疫学基础：T 细胞介导的免疫反应

免疫学基础：B和T淋巴细胞的发育

“跨界天才”成功逆袭！细胞分子免疫学迎来史上首例突破性进展，“爆杀”科研界！

免疫学基础：淋巴细胞受体信号传导

免疫肿瘤学基础：免疫检查点抑制剂的疗效预测

放疗与免疫治疗——双剑合璧新纪元

免疫学基础：抗原呈递与T细胞活化

免疫学基础：淋巴细胞抗原受体的生成

免疫肿瘤学基础：针对肿瘤内Tregs细胞的策略

分子生物学基础：细胞连接和细胞外基质

免疫学基础：B细胞和T细胞受体识别抗原

分子生物学基础：细胞死亡

免疫肿瘤学基础：免疫检查点抑制剂——肺癌

分子生物学基础：细胞周期

免疫肿瘤学基础：PD-1抑制剂在黑色素瘤的应用

免疫肿瘤学基础：肿瘤靶向抗体

分子生物学基础：细胞骨架

免疫肿瘤学基础：IDO/TDO抑制剂

分子生物学基础：细胞信号

免疫肿瘤学基础：基于NK细胞的治疗

分子生物学基础：细胞内膜交通

免疫肿瘤学基础：HPV恶性肿瘤的疫苗

分子生物学基础：细胞内区室与蛋白质分选

免疫肿瘤学基础：基于肽的治疗性癌症疫苗

机器学习入门：医学数据的数学编码

免疫治疗靶点：肿瘤特异性遗传变异

分子生物学基础：细胞的小分子运输和生物电

免疫肿瘤学基础：癌细胞在免疫监视中的免疫原性应激与死亡

分子生物学基础：细胞膜的结构

免疫肿瘤学基础：药物对MDSCs的影响

编程基础：Python 面向对象编程

免疫肿瘤学基础：MDSCs生物学

遗传学基础：系统生物学概论

遗传学基础：调控RNA

免疫肿瘤学基础：免疫监视中的NK细胞和ILCs

编程基础：Python函数

遗传学基础：真核生物的转录调控

免疫肿瘤学基础：免疫抑制性微环境中pDC-Treg细胞相互作用

先发Nature又来Cell！这个团队也太离谱了，在细胞和分子免疫学领域再度封神！

遗传学基础：原核生物的转录调控

免疫肿瘤学基础：嘌呤能受体

遗传学基础：翻译

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉