欢迎来到专业的体外诊断原材料信息平台

当前位置> 首页> 技术文章>

统计|3个关于数据处理和分析的提示

当我们在已经完成了实验数据的收集,无论是分析实验还是临床试验,而且这个数据集非常漂亮和干净。接下来,我们要做的,是对它们进行分析,但是在这之前,我们需要了解我们的数据,检查每个变量并决定它们属于哪种数据类型。


在这篇文章当中,我们将讨论对于这些数据,哪些数学运算可以做,哪些不可以做。这一步至关重要,即可以让我们精心策划的研究成功,也可以让它失败。


在本文的开始,我们首先要了解一下不同的数据类型,理解它们,并学会如何用它们做计算。到本文最后,我们就可以把这项新技能在我们的数据中付诸实践了。


01/

了解我们的数据


有4种不同的数据类型:


➤ 比率

➤ 区间

➤ 序数

➤ 名义


让我们逐个进行解释。

比率数据


这些数据被称为‘比率’,因为我们可以除以它们的值。距离或重量的测量是比率型的,因为我们可以将它们的值除以得到一个有意义的答案。


下面是一些例子:


➤ 20米是10米距离的两倍(即20/10=2)

➤ 50公斤比5公斤重10倍(即50/5=10)

➤ 150K的能量是300K的一半(即150/300=½)


有了比率数据,我们可以做几乎所有的数学运算,结果都是有效的。我们可以:


➤ 除法或乘法

➤ 加法或减法

➤ 比较(大于、等于或小于)。


例如,身体质量指数(BMI)的计算方法是体重与身高平方的比率。体重和身高都是比率数据,由此得出的BMI也是如此。最关键的一点是,要使数值可被分割,数据需要有一个有意义的零点。卷尺不能进行负的测量,壶或一组体重计也不能,所以用这些测量的东西都有一个绝对的零点,只能取正值。


区间数据


对于区间数据,我们不能进行乘法或除法,但我们可以进行加法和减法。


下面是一些例子:


➤ 下午4点是下午2点之后的2小时(即4-2=2)

➤ 50℃比20℃热30度(即50-30=20)

➤ 我80%的考试成绩比我们60%的成绩高20%(即80-20=60)


我们不能对这些例子进行乘法或除法,因为没有有意义的零,所以我们不能说“下午4点是2点的两倍”这样的话。钟表没有零点。


利用区间数据,我们可以进行以下数学运算:


➤ 加法或减法

➤ 比较(大于、等于或小于)


有序数据


有序数据,数据的类别有一个自然的顺序,但每个类别之间的差异不能被量化。顺序型数据的例子有。


➤ 排名(例如,第1位,第12位,第52位,等等)

➤ 同意(即同意、中立、不同意)

➤ 社会经济地位(如:低、中、高)


我们可以用序数数据做什么:


➤ 比较(大于、等于或小于)。


我们可以说,苏格兰红辣椒比卡宴辣椒更辣(在斯考维尔量表上评分为100,000和10,000),但我们不能减去它们的斯考维尔测量值,因为‘辣度’是没有意义的。这就好比说我们需要吃90,000个卡宴辣椒,才能获得与吃零个苏格兰邦尼的相同效果,那就太傻了。


名义数据


有了名义数据,我们所能做的就是命名这些类别。每个名义类别都是不同的,但我们不能从数学上定义它们为什么不同,而且类别中没有顺序。例子包括:


➤ 性别(即男性、女性、其他)

➤ 基因型(即BB,Bb,bB,bb)

➤ 头发颜色(即黑色、棕色、金黄色、红色、其他)


为我们的数据集中的每个变量确定它属于哪种数据类型真的很重要。一旦我们做到了这一点,我们就会知道每个变量可以进行哪些计算,这就是我们接下来要做的事情。


02/

进行数据计算


我们的分析所需的一些数据是收集的(如身高、体重、性别),但其他的数据需要计算(如年龄、BMI、事件发生时间)。在我们的数据中,有5种基本的计算类型,我们很可能会遇到。


➤ 通过乘法和除法创建新的变量

➤ 通过加法和减法创建新的变量

➤ 将连续数据归纳为整数类别

➤ 将整数数据转换为文本类别

➤ 将文本数据转换为整数类别


通过乘法和除法创建新的变量


有时,我们需要将变量相乘或相除来创建新的变量。例子包括BMI,它是体重除以身高的平方。所有的变量都必须是比率类型的,结果也将是比率。


通过加法和减法创建新的变量

有些数据需要添加或减去,以创建新的变量。用出生日期和死亡日期(都是区间数据)相减来计算生存年龄,将得到一个比率型的结果。这是因为出生日期定义了一个真正的零点,我们可以将我们的数据从区间转换为比率型!


将连续数据归纳为整数类别


有时连续数据(比率或区间)包含偏见、噪音或估计数字。如果问一个渔夫他最大的渔获物的重量,我们并不总是能得到一个真实的答案。当我们的连续数据不是那么准确时,将我们的数据进行分类总结是很有用的。例如,我们可以将年龄归纳为十年类别,所以2、3和4代表二十多岁、三十多岁和四十多岁的人。这样做,我们会消除部分或全部的偏见和噪音,但我们也会失去信息中的一些细节。


将整数数据转换为文本类别

有些时候,我们的一些类别中的计数太小,无法进行有意义的分析。将我们的整数类别总结为更广泛的类别可能更有用,例如青少年、绝经前、绝经后等年龄类别,或者任何适合我们的研究的类别。用文本标签来表示这些类别可能比整数更有用,信息量更大。

将文本数据转换为整数类别


现在我们已经在Excel中对类别进行了适当的命名,并准备分析我们的数据,我们突然意识到我们最喜欢的统计程序不支持文本类别!这时,我们就会发现我们的统计程序并不支持文本类别。哎呀,我们现在得把它从文本转换成整数,从[小、中、大]转换成[1、2、3]。


03/

检查我们的数据是否合理


现实生活遵循规则,我们的数据也必须如此。如果我们在Excel中存储了我们的数据,我们的数据中可能存在Excel无法检测的错误,比如当一个病人的年龄为负数或超过300岁时。


检查我们的数据是否合理的一个方法是计算每个变量的描述性统计,我们应该对连续(比率和区间)和分类(顺序和名义)的数据类型都这样做。


04/

总结


好了,我希望我们现在开始意识到,知道如何识别我们的数据集中每个变量的数据类型,以及了解我们可以和不可以对这些数据类型做什么是多么重要。如果我们做对了,我们的分析选择就会变得简单,一切都会水到渠成。


另一方面,绕过这一步会给我们的分析带来严重后果。我们最不想做的事情就是把我们的结果拿给我们的老板,而他们却告诉我们,这一切都是错误的,我们需要重新开始。



来源: 诊断科学

声明:本平台注明来源的稿件均为转载,仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!



返回顶部