图片来源|网络图片
对于学术研究而言,调查类型的研究有好有坏。
好处是从构思到收集数据需要的资源最少(特别是计算机网络技术使得大规模发放调查问卷变得非常容易)。近年来以调查为中心的学术产出激增也反映了这一点,数据显示与2016年相比,2021年PubMed上列出的已发表研究中,包含“调查”和“麻醉”关键词的文章是2016年的两倍,而包含“调查”和/或“重症监护”的研究也增加了70%左右。
然而,开展有影响力的调查研究并不简单。其中与设计和实施相关的几个关键因素可能会影响研究的可靠性和有效性。
在开始基于调查的研究之前,首先需要考虑的问题是,问卷调查方法是否适合解决研究问题。此外,研究者须考虑的其他问题还包括:拟定的调查问卷是否可产生可靠和有效的数据;抽样方法是否合理;分析方法是否合适?在有效地告知研究问题的同时,报告结果是否透明?
之前已有书籍和文章详述了关于调查研究方法的注意事项。本文作为Anaesthesia杂志『审稿人建议』专栏的一部分,旨在为作者提供一些进行调查研究时应考虑的基本但很关键的方法学问题。
一、调查方法的适当性
1.与任何研究一样,首先必须考虑研究问题是否值得,解决该问题是否有可能增进对某一方面的理解。
2.需确定调查形式是否是研究该问题的最佳方法。问卷调查方法常被用来来收集一些群体的态度、意见、看法。许多研究是在特定时间内研究目标人群获得横断面数据,也有一些问卷调查是看某些变量随时间的变化情况。
3.调查通常是定量的,重点是设定一些预定答案选项,这样后续可对数据进行汇总统计,进行参数或非参数检验;当然,研究人员有时也会提出开放式问题,以便受访者详细说明这样回答的原因。根据实际所需收集的数据,问卷可采用混合方法。
此外,如果目的是获得对现象的深入理解,那么更定性的方法—如访谈或焦点小组,可能是合适的。当然,如果目标是衡量知识和技能,仅凭自我报告不太可能提供强有力的证据。
4.措施的可靠性和有效性对于判断调查得出的结论至关重要。即使是使用之前发表的量表,也必须先明确用于本研究中是否合适。例如,某些英文问卷可以在欧美人中产生可靠和有效的结果,在中国人中可能效果欠佳。
简而言之,调查研究可能最适合尝试对广泛的意见、做法或看法进行抽样,以建立人群对某主题的基线理解,并为更严格的研究生成检验假设。
图片来源|网络图片
二、问卷设计的考虑因素
- 使用已发布的心理测试量表可能会帮助设计问卷。然而,并不是所有问卷调查都有现成设计好的工具,因此必须下功夫钻研设计。
- 问卷中设计的问题应该清晰地让回答者理解,否则没有意义。
- 事先应全面地阅读相关文献综述以指导问卷内容设计。
- 类似于Delphi技术的专家小组审查有助于确保拟定问卷项目的完整性、准确性和清晰度。
- 最初可对目标人群中部分人员进行认知访谈,从而了解将来可能出现的一些问题的原因。问题来源一旦解决,修订后的调查问卷应用更广泛。一般认为这项认知访谈样本量至少需要30个。当然,研究内容不同,这项也不是严格必要的,但无论如何,应想方法证明并描述这些问卷设计过程是有效的。
- 问题内容应适合目标人群,阅读简单,适合理解
- 除非与研究问题直接相关,否则问题中不应存在一些可能引起歧义的带有冒犯性的敏感/尴尬问题、需特定文化理解的术语、俚语或缩写。
- 问题应简短且易于理解。一个题干应避免包含两个或多个问题(例如,“本文内容是否简明、准确和有用?”)
- 在某些情况下,包括肯定和否定措辞的项目可能是必要的,但为了简单和易于回答,最好避免使用否定措辞的问题。
- 应避免不必要的问题,记住,答复者的注意力是有限的,问卷过长时响应率低的风险升高。
- 答案选项的数量是奇数还是偶数尚无广泛接受的共识,常用的Likert量表方法通常包括4-7个选项,具体应取决于研究问题。
- 问题选项间应相互排斥,且彼此不同,在逻辑和视觉上有序,每个选项都应有描述性锚点。
- 回答者对问题选项越容易理解,那么越有助于研究者获得代表其真实意见的回答。
三、可靠性和有效性
- 『可靠性』是指问卷回答的一致性或可重复性。Cronbach’s a(理想情况下>0.7)是问卷项目内部一致性的最常用指标。如果是将几个问题的回答合并为一个复合定量,则可能需要进行稳健性分析。对于稳健性分析时,每个纳入项目应至少有3例(最多20例)受试者。
- 当一份问卷在同一组个体的不同时间点上产生一致的结果时,就存在可重复性。如果同一个人在短时间内对同一份问卷的反应有很大不同,而没有先验假设的变化原因,那么问卷或抽样方法可能不可靠。
- 通过以下几个方面可描述调查问卷的『有效性』,包括:问卷内容、应答过程、研究逻辑、与其他类似指标的相关性,以及对结果的解释是否产生有意义的信息。根据研究问题和问卷的性质,列出这些所有内容可能不可行或没有必要,但如果希望调查结果让人信服,至少应该提供一些有效性的证据。
图片来源|网络图片
四、采样和应答率
- 必须采用系统的采样和应答率计算方法。
- 关于抽样,有两个关键考虑因素:①确保目标人群代表性好;②确保样本量充足。
- 为确保充分的代表性,应充分了解目标人群,以便采用抽样策略可解释预期的变异性来源。如果无法实现真正有代表性的采样,研究人员有责任公开承认这一限制,以确保结果可以准确解释。
- 所需的样本量取决于研究人群、允许的误差界限、一致性水平和标准差。建议咨询统计学家进行这些计算。
- 为获得有意义的结果,应预先确定最小样本量和应答率。从样本量和应答率推算出需要分发的问卷数量。
- 文献中报告的医学调查回复率差异很大,从38%到76%;提醒似乎能提高回复率,而患者对调查的应答率往往高于临床医生。
- 最终获得应答的数量为样本量。
- 如果样本量达到所需的误差界限和一致性水平,则应答率可能不那么重要。然而,高应答率并不能克服采样方法不佳的问题。例如,在一项旨在告知国家专业培训政策的问卷调查中,单个机构的100%应答率不太可能产生可推广的信息,但国内所有学员的50%应答率可能是足够的。
- 值得注意的是,低应答率是文章被拒稿的常见原因。低应答率增加了调查中的偏倚风险,因为几乎不可能确定应答者与非应答者是否存在显著差异,从而质疑对预期研究人群得出的任何结论的有效性。如果无法先验进行稳健的把握度和一致性计算,则应将40%的缓解率视为最低应答率(不保证发表)。理想情况下,应答率> 60%才更有效。
五、分析和报告
- 与所有的研究一样,透明地报告调查研究结果是很重要的,然而这通常是不理想的。
- 在正式的数据解释之前,应核实和报告收集的数据的质量。至少应清楚说明以下内容:应答率;数据中的已知问题(例如缺失值和异常值的百分比和类型)、如何处理缺失值;以及参数检验的假设。调查研究报告的全面指南可参照基于共识的调查研究报告检查表(CROSS)。
- 对于Likert量表项目的问卷,有必要检查正态分布(例如,使用Shapiro–Wilk检验)。然而,Likert量表项目通常是偏态的,很少呈正态分布;这些数据可以使用非参数检验进行分析。通常,此类数据也报告为频率和比例,或者以表格或条形图表示。
图片来源|网络图片
六、结论
进行良好的调查研究需要大量的时间和资源。为了最大限度地发挥影响,必须仔细思考所有的数据结果。因此,应该分配足够的时间来有效地描述研究结果,并就实际影响进行反思性的讨论。
此外,更应讨论结果可如何为实践或未来的研究提供信息,以及这些结果可能对目标人群产生什么影响。
,