数字数据
首先,我们考虑一个玩具数据集,它包含5名患者在入院时测量的收缩压值(以毫米汞柱为单位):
患者1: 124, 患者2: 227, 患者3: 105, 患者4: 160, 患者5: 202.
分类数据
深度学习中的数学函数需要严格的数值输入,但医疗数据有时是分类的。一个常见的方法是使用独热编码,将每个类别表示为一个只有一个位置为1,其余位置为0的向量。
例如,假设我们有三种COVID-19疫苗类别:Moderna、Pfizer和J&J。可以用如下方式编码:
Moderna: [1, 0, 0]
Pfizer: [0, 1, 0]
J&J: [0, 0, 1]
图像数据
数字图像可以是黑白图像、灰度图像或彩色图像。黑白图像由0和1构成的二维数组表示,其中0表示黑色,1表示白色。灰度图像允许每个像素存储0到255之间的整数值,代表256种灰度。
图像数据通常以矩阵形式存储,例如一个N×M的矩阵:
对于彩色图像,我们需要三维的张量来存储,这种张量有M行、N列和P层。例如,一个RGB图像可以表示为一个M×N×3的张量,其中每一层分别代表红色、绿色和蓝色。
时间序列数据
常见的医疗时间序列数据包括心电图(ECG)和脑电图(EEG)等。
文本数据
"Patient was sent to the ICU because of respiratory failure." "Patient's fever, respiratory rate, and respiratory alkalosis have improved."
"patient, send, ICU, because, respirate, fail" "patient, fever, respirate, rate, respirate, alkalosis, improve"
然后构建一个包含所有唯一词的向量,并统计每个词在文档中出现的次数。