统计｜3个关于数据处理和分析的提示

当我们在已经完成了实验数据的收集，无论是分析实验还是临床试验，而且这个数据集非常漂亮和干净。接下来，我们要做的，是对它们进行分析，但是在这之前，我们需要了解我们的数据，检查每个变量并决定它们属于哪种数据类型。

在这篇文章当中，我们将讨论对于这些数据，哪些数学运算可以做，哪些不可以做。这一步至关重要，即可以让我们精心策划的研究成功，也可以让它失败。

在本文的开始，我们首先要了解一下不同的数据类型，理解它们，并学会如何用它们做计算。到本文最后，我们就可以把这项新技能在我们的数据中付诸实践了。

01/

了解我们的数据

有4种不同的数据类型：

➤ 比率

➤ 区间

➤ 序数

➤ 名义

让我们逐个进行解释。

比率数据

这些数据被称为‘比率’，因为我们可以除以它们的值。距离或重量的测量是比率型的，因为我们可以将它们的值除以得到一个有意义的答案。

下面是一些例子：

➤ 20米是10米距离的两倍（即20/10=2）

➤ 50公斤比5公斤重10倍（即50/5=10）

➤ 150K的能量是300K的一半（即150/300=½）

有了比率数据，我们可以做几乎所有的数学运算，结果都是有效的。我们可以：

➤ 除法或乘法

➤ 加法或减法

➤ 比较（大于、等于或小于）。

例如，身体质量指数（BMI）的计算方法是体重与身高平方的比率。体重和身高都是比率数据，由此得出的BMI也是如此。最关键的一点是，要使数值可被分割，数据需要有一个有意义的零点。卷尺不能进行负的测量，壶或一组体重计也不能，所以用这些测量的东西都有一个绝对的零点，只能取正值。

区间数据

对于区间数据，我们不能进行乘法或除法，但我们可以进行加法和减法。

下面是一些例子：

➤ 下午4点是下午2点之后的2小时（即4-2=2）

➤ 50℃比20℃热30度（即50-30=20）

➤ 我80%的考试成绩比我们60%的成绩高20%（即80-20=60）

我们不能对这些例子进行乘法或除法，因为没有有意义的零，所以我们不能说“下午4点是2点的两倍”这样的话。钟表没有零点。

利用区间数据，我们可以进行以下数学运算：

➤ 加法或减法

➤ 比较（大于、等于或小于）

有序数据

有序数据，数据的类别有一个自然的顺序，但每个类别之间的差异不能被量化。顺序型数据的例子有。

➤ 排名（例如，第1位，第12位，第52位，等等）

➤ 同意（即同意、中立、不同意）

➤ 社会经济地位（如：低、中、高）

我们可以用序数数据做什么：

➤ 比较（大于、等于或小于）。

我们可以说，苏格兰红辣椒比卡宴辣椒更辣（在斯考维尔量表上评分为100,000和10,000），但我们不能减去它们的斯考维尔测量值，因为‘辣度’是没有意义的。这就好比说我们需要吃90,000个卡宴辣椒，才能获得与吃零个苏格兰邦尼的相同效果，那就太傻了。

名义数据

有了名义数据，我们所能做的就是命名这些类别。每个名义类别都是不同的，但我们不能从数学上定义它们为什么不同，而且类别中没有顺序。例子包括：

➤ 性别（即男性、女性、其他）

➤ 基因型（即BB，Bb，bB，bb）

➤ 头发颜色（即黑色、棕色、金黄色、红色、其他）

为我们的数据集中的每个变量确定它属于哪种数据类型真的很重要。一旦我们做到了这一点，我们就会知道每个变量可以进行哪些计算，这就是我们接下来要做的事情。

02/

进行数据计算

我们的分析所需的一些数据是收集的（如身高、体重、性别），但其他的数据需要计算（如年龄、BMI、事件发生时间）。在我们的数据中，有5种基本的计算类型，我们很可能会遇到。

➤ 通过乘法和除法创建新的变量

➤ 通过加法和减法创建新的变量

➤ 将连续数据归纳为整数类别

➤ 将整数数据转换为文本类别

➤ 将文本数据转换为整数类别

通过乘法和除法创建新的变量

有时，我们需要将变量相乘或相除来创建新的变量。例子包括BMI，它是体重除以身高的平方。所有的变量都必须是比率类型的，结果也将是比率。

通过加法和减法创建新的变量

有些数据需要添加或减去，以创建新的变量。用出生日期和死亡日期（都是区间数据）相减来计算生存年龄，将得到一个比率型的结果。这是因为出生日期定义了一个真正的零点，我们可以将我们的数据从区间转换为比率型!

将连续数据归纳为整数类别

有时连续数据（比率或区间）包含偏见、噪音或估计数字。如果问一个渔夫他最大的渔获物的重量，我们并不总是能得到一个真实的答案。当我们的连续数据不是那么准确时，将我们的数据进行分类总结是很有用的。例如，我们可以将年龄归纳为十年类别，所以2、3和4代表二十多岁、三十多岁和四十多岁的人。这样做，我们会消除部分或全部的偏见和噪音，但我们也会失去信息中的一些细节。

将整数数据转换为文本类别

有些时候，我们的一些类别中的计数太小，无法进行有意义的分析。将我们的整数类别总结为更广泛的类别可能更有用，例如青少年、绝经前、绝经后等年龄类别，或者任何适合我们的研究的类别。用文本标签来表示这些类别可能比整数更有用，信息量更大。

将文本数据转换为整数类别

现在我们已经在Excel中对类别进行了适当的命名，并准备分析我们的数据，我们突然意识到我们最喜欢的统计程序不支持文本类别！这时，我们就会发现我们的统计程序并不支持文本类别。哎呀，我们现在得把它从文本转换成整数，从[小、中、大]转换成[1、2、3]。

03/

检查我们的数据是否合理

现实生活遵循规则，我们的数据也必须如此。如果我们在Excel中存储了我们的数据，我们的数据中可能存在Excel无法检测的错误，比如当一个病人的年龄为负数或超过300岁时。

检查我们的数据是否合理的一个方法是计算每个变量的描述性统计，我们应该对连续（比率和区间）和分类（顺序和名义）的数据类型都这样做。

04/

总结

好了，我希望我们现在开始意识到，知道如何识别我们的数据集中每个变量的数据类型，以及了解我们可以和不可以对这些数据类型做什么是多么重要。如果我们做对了，我们的分析选择就会变得简单，一切都会水到渠成。

另一方面，绕过这一步会给我们的分析带来严重后果。我们最不想做的事情就是把我们的结果拿给我们的老板，而他们却告诉我们，这一切都是错误的，我们需要重新开始。

来源：诊断科学

声明：本平台注明来源的稿件均为转载，仅用于分享，不代表平台立场，如涉及版权等问题，请尽快联系我们，我们第一时间更正，谢谢！