自然》文章阐释有关科学的20条小贴士

　　科学和政策会在一些有争议的问题上发生冲突，诸如蜜蜂数量下降、核能以及獾是否牛结核病等。

　　数十年来，有关决策应该依靠科学的要求早已成为老生常谈。但是，在从能源到健康再到等诸多领域中，将科学应用于决断的过程依然存在一系列问题。

　　英国剑桥大学动物系生物学教授William J. Sutherland、数学科学中心的David Spiegelhalter，以及大学的Mark Burgman如今提出了应该成为公务员、家、咨询顾问和记者教育一部分的20条概念。

　　“当然，其他人也许会有不同的列表。我们认为，一旦能够充分理解这20个概念，社会将向前迈出一大步。”他们在《自然》上撰文指出。

　　。现实世界的变化难以预测。科学在很大程度上是要寻找究竟是什么引发了人们看到的模式，为何这个十年比过去更热以及为何一个地区的鸟类比其他地区更多。此类趋势有许多解释，因此研究的主要挑战是梳理出有趣过程的重要方面，例如，气候变化对鸟类种群的影响。而重要方面往往隐含了其他的许多变化原因，例如农业集约化、入侵，以及影响出生和死亡的偶发事件等。

　　。实际上，所有的测量值都存在某些错误。如果测量过程被重复，人们可能会记录到不同的结果。在某些情况下，测量误差可能比实际偏差要大。如果你被告知上月的经济增长了0.13%，那么也有可能实际经济在收缩。

　　。实验设计或测量工具可能产生一个给定方向的型结果。例如，在街上、家里或通过网络调查询问人们的投票行为，涉及的样本可能是不同的人群，他们会有不同的回答。另外，研究还可能因期望值而出现偏差：参与疗法实验的人可能假设自己会有不同的经历，因此出现行为偏差。

　　。从大量观察中提取的平均结果与从少量观察中获得的结果相比通常更具信息量。换言之，当我们在积累时，我们的知识量在提高。当研究被大量自然变异和测量错误环绕时，这尤为重要。例如，一个药物试验的参与者多达数万人时，其结论的有效性要比仅有数百人参加的类似实验更高。

　　假设一个事件引起另一个事件，十分吸引人，但是，相关性可能纯属巧合，或者可能是由第三个事件引起的两个事件的共同结果一个“混合”或“潜伏”变量。例如，生态学家曾认为有毒藻类会河里的鱼，但实际藻类并没有引起鱼的死亡。

　　。至少在某种程度上，数据的极端模式很可能是由偶然或错误引起的异常现象。接下来的数据可能没有那么极端。例如，测速相机被放置在交通事故频发地段，但是事故率的减少并不是因为这架相机，无论如何发生率都可能降低。

　　。在一个给定范围内发现的模式未必适用于其他范围。例如，当变化速率比现有的进化史更快，或极端气候可能完全是新型的时候，预测生态系统对气候变化的应答将非常困难。

　　。用一个不完美的测试来确定一种状态的能力，取决于该状态发生的可能性（基准利率）。例如，一个进行血液测试的人，有99%的准确率患有一种稀有疾病且测验呈阳性，但是他们也可能不会患这种病。如果10001个人进行测试，其中只有1人有病，那个人几乎可以肯定有一个阳性结果，但也可以说有100个人（1%）会患病，即使他们没患病。

　　。除了特定疗法没有外，一个对照组的处理方法与实验组是完全一样的。没有对照组就很难确定一个给定疗法是否有效。对照可以帮助研究人员确信没有混杂变量影响结果。

　　。只要有可能，实验应该随机分配个人或团体。对照儿童的教育成就时，采用健康计划的父母与未采取的父母可能会出现偏斜，例如，受教育越好的家庭越倾向于参与该项目。一个精心设计的项目应随机选择接受项目的人。

　　。能够被研究小组重复的研究结果可能更可靠。几个这样的实验结果可能合并成系统回顾和荟萃分析，从而提供该主题的总体观点，这比任何的研究更具统计功效。

　　。科学家在推动自己的工作方面有既得利益，通常出于身份和进一步研究，尽管有时也因为直接的经济收益。这可能导致有选择地报告结果和偶尔夸大其词。同行评议并不绝对可靠：编辑更喜欢正面结果和新闻价值。多样化、事件的信源和复制更能令人信服。

　　。用P表示的统计显著性表示一个结果发生的偶然性。P=0.01意味着一个治疗的效果发生的概率是1%，但实际上可能并没有效果。

　　统计上的显著结果的缺失，并不意味着没有潜在影响：它意味着没有发现影响。一项小型研究可能没有能力发现一个真正的区别。

　　。小规模应答不太可能被发现。一个重复多次的研究可能导致具有统计显著性的结果，但只是有一个较小的效应量。不过，一个效应量的影响因素是生物学、物理学或社会学问题，而不是统计学问题。上世纪90年代，《流行病学》期刊要求作者在递交的手稿中不要使用统计显著性，因为作者通常会曲解显著性实验的意义，从而为公共健康政策提供无效或的。

　　概括地讲，风险可以被认为是某段时间里一个事件发生的可能性，乘以该事件可能出现的结果。人们的风险受到许多东西的不成比例的影响，其中包括事件的稀有度、他们认为能在多大程度上控制，以及风险自发与否等。例如，美国人将家里拥有的风险低估了100倍，却把住宅附近有核反应堆的风险扩大了10倍。

　　。计算极端潮汐、暴雨等单个事件的风险存在可能性。但是，如果是相互关联的事件（例如风暴引起潮汐或大雨工人进入某地），那么它们同时发生的概率比预想中的高。信用评级机构断言，次级抵押贷款集团有一个非常低的违约风险，是2008年信贷市场崩溃的重要因素。

　　人们能够对事件进行安排，以便支持某个观点。要解释孕妇食用酸奶和后代出现哮喘两者之间的关系，一个是需要了解作者是否着手测验这个单独的假设，或者利用巨大数据集得出结论。相比之下，希格斯玻色子的与研究人员多么努力地寻找它有关。

　　。任何测量（例如给定学校的效益）将显示天赋能力（教师能力）差异产生的可变性，加上样本（孩子），加上和测量误差（不同学校的产出结果可能采用不同的测量方法）。但是，由此产生的变化通常只解释天生能力的差异，但忽略了其他因素。这变成不确定的陈述描绘一个极端产出（及格率翻倍），或者用平均值比照极端量级（学校X的及格率是国家平均值的3倍）或范围（最高或最低的学校之间的差异为x倍

杭州论文网

自然》文章阐释有关科学的20条小贴士