当我们在已经完成了实验数据的收集,无论是分析实验还是临床试验,而且这个数据集非常漂亮和干净。接下来,我们要做的,是对它们进行分析,但是在这之前,我们需要了解我们的数据,检查每个变量并决定它们属于哪种数据类型。
在这篇文章当中,我们将讨论对于这些数据,哪些数学运算可以做,哪些不可以做。这一步至关重要,即可以让我们精心策划的研究成功,也可以让它失败。
在本文的开始,我们首先要了解一下不同的数据类型,理解它们,并学会如何用它们做计算。到本文最后,我们就可以把这项新技能在我们的数据中付诸实践了。
01/
了解我们的数据
有4种不同的数据类型:
➤ 比率
➤ 区间
➤ 序数
➤ 名义
让我们逐个进行解释。
比率数据
这些数据被称为‘比率’,因为我们可以除以它们的值。距离或重量的测量是比率型的,因为我们可以将它们的值除以得到一个有意义的答案。
下面是一些例子:
➤ 20米是10米距离的两倍(即20/10=2)
➤ 50公斤比5公斤重10倍(即50/5=10)
➤ 150K的能量是300K的一半(即150/300=½)
有了比率数据,我们可以做几乎所有的数学运算,结果都是有效的。我们可以:
➤ 除法或乘法
➤ 加法或减法
➤ 比较(大于、等于或小于)。
例如,身体质量指数(BMI)的计算方法是体重与身高平方的比率。体重和身高都是比率数据,由此得出的BMI也是如此。最关键的一点是,要使数值可被分割,数据需要有一个有意义的零点。卷尺不能进行负的测量,壶或一组体重计也不能,所以用这些测量的东西都有一个绝对的零点,只能取正值。
区间数据
对于区间数据,我们不能进行乘法或除法,但我们可以进行加法和减法。
下面是一些例子:
➤ 下午4点是下午2点之后的2小时(即4-2=2)
➤ 50℃比20℃热30度(即50-30=20)
➤ 我80%的考试成绩比我们60%的成绩高20%(即80-20=60)
我们不能对这些例子进行乘法或除法,因为没有有意义的零,所以我们不能说“下午4点是2点的两倍”这样的话。钟表没有零点。
利用区间数据,我们可以进行以下数学运算:
➤ 加法或减法
➤ 比较(大于、等于或小于)
有序数据
有序数据,数据的类别有一个自然的顺序,但每个类别之间的差异不能被量化。顺序型数据的例子有。
➤ 排名(例如,第1位,第12位,第52位,等等)
➤ 同意(即同意、中立、不同意)
➤ 社会经济地位(如:低、中、高)
我们可以用序数数据做什么:
➤ 比较(大于、等于或小于)。
我们可以说,苏格兰红辣椒比卡宴辣椒更辣(在斯考维尔量表上评分为100,000和10,000),但我们不能减去它们的斯考维尔测量值,因为‘辣度’是没有意义的。这就好比说我们需要吃90,000个卡宴辣椒,才能获得与吃零个苏格兰邦尼的相同效果,那就太傻了。
名义数据
有了名义数据,我们所能做的就是命名这些类别。每个名义类别都是不同的,但我们不能从数学上定义它们为什么不同,而且类别中没有顺序。例子包括:
➤ 性别(即男性、女性、其他)
➤ 基因型(即BB,Bb,bB,bb)
➤ 头发颜色(即黑色、棕色、金黄色、红色、其他)
为我们的数据集中的每个变量确定它属于哪种数据类型真的很重要。一旦我们做到了这一点,我们就会知道每个变量可以进行哪些计算,这就是我们接下来要做的事情。
02/
进行数据计算
我们的分析所需的一些数据是收集的(如身高、体重、性别),但其他的数据需要计算(如年龄、BMI、事件发生时间)。在我们的数据中,有5种基本的计算类型,我们很可能会遇到。
➤ 通过乘法和除法创建新的变量
➤ 通过加法和减法创建新的变量
➤ 将连续数据归纳为整数类别
➤ 将整数数据转换为文本类别
➤ 将文本数据转换为整数类别
通过乘法和除法创建新的变量
有时,我们需要将变量相乘或相除来创建新的变量。例子包括BMI,它是体重除以身高的平方。所有的变量都必须是比率类型的,结果也将是比率。
通过加法和减法创建新的变量
有些数据需要添加或减去,以创建新的变量。用出生日期和死亡日期(都是区间数据)相减来计算生存年龄,将得到一个比率型的结果。这是因为出生日期定义了一个真正的零点,我们可以将我们的数据从区间转换为比率型!
将连续数据归纳为整数类别
有时连续数据(比率或区间)包含偏见、噪音或估计数字。如果问一个渔夫他最大的渔获物的重量,我们并不总是能得到一个真实的答案。当我们的连续数据不是那么准确时,将我们的数据进行分类总结是很有用的。例如,我们可以将年龄归纳为十年类别,所以2、3和4代表二十多岁、三十多岁和四十多岁的人。这样做,我们会消除部分或全部的偏见和噪音,但我们也会失去信息中的一些细节。
将整数数据转换为文本类别
有些时候,我们的一些类别中的计数太小,无法进行有意义的分析。将我们的整数类别总结为更广泛的类别可能更有用,例如青少年、绝经前、绝经后等年龄类别,或者任何适合我们的研究的类别。用文本标签来表示这些类别可能比整数更有用,信息量更大。
将文本数据转换为整数类别
现在我们已经在Excel中对类别进行了适当的命名,并准备分析我们的数据,我们突然意识到我们最喜欢的统计程序不支持文本类别!这时,我们就会发现我们的统计程序并不支持文本类别。哎呀,我们现在得把它从文本转换成整数,从[小、中、大]转换成[1、2、3]。
03/
检查我们的数据是否合理
现实生活遵循规则,我们的数据也必须如此。如果我们在Excel中存储了我们的数据,我们的数据中可能存在Excel无法检测的错误,比如当一个病人的年龄为负数或超过300岁时。
检查我们的数据是否合理的一个方法是计算每个变量的描述性统计,我们应该对连续(比率和区间)和分类(顺序和名义)的数据类型都这样做。
04/
总结
好了,我希望我们现在开始意识到,知道如何识别我们的数据集中每个变量的数据类型,以及了解我们可以和不可以对这些数据类型做什么是多么重要。如果我们做对了,我们的分析选择就会变得简单,一切都会水到渠成。
另一方面,绕过这一步会给我们的分析带来严重后果。我们最不想做的事情就是把我们的结果拿给我们的老板,而他们却告诉我们,这一切都是错误的,我们需要重新开始。
来源: 诊断科学
声明:本平台注明来源的稿件均为转载,仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!