一项新研究有 裸露 国民健康和营养检查调查(NHANES)衍生出的公式化研究论文令人震惊的增长,这表明人工智能工具正在被滥用以大规模生产统计上的弱和潜在误导性的科学文献。作者指出,单因素分析的激增无视多因素复杂性,有选择地利用开放数据并绕过可靠的统计校正。
之间 2014年和2021年,每年只发表四篇论文。但是仅在2024年,直到10月9日,塔利就已经膨胀到190。这种指数增长与出版起源的变化和对自动化的依赖相结合,表明AI辅助管道可能正在加速低品质的手稿产量。问题的核心是滥用NHANES,这是一个受人尊敬的A-Ready美国政府数据集,该数据集最初是为了评估整个人群的公共卫生趋势。
解开NHANES问题
NHANES提供了一个异常丰富的数据集,结合了数千个变量的临床,行为和实验室数据。 它可以通过API访问,并具有标准化的Python和R库,使研究人员可以有效提取和分析数据。这使其成为公共卫生研究人员和AI开发人员的宝贵工具。但是,这种便利也会造成一个脆弱性:它使研究人员能够快速产生结果,并以最少的监督产生结果,从而导致公式化研究的爆炸。
这项新研究分析了2014年至2024年之间发表的341篇论文,这些论文依赖于单变量的相关性。这些论文平均出现在中等影响期刊(平均影响因子3.6)中,并且通常集中在抑郁症,糖尿病或心血管疾病等疾病上。这些研究通常没有探索这些条件的多因素性质,而是从单个独立变量中汲取统计学意义,绕过错误的发现校正并经常依靠无法解释的数据子集。
一个主要问题是,使用更适合简单二进制关系的方法对多因素健康状况(例如精神疾病,慢性炎症或心血管疾病)进行了分析。实际上,这些研究提出了剥夺细微差别的发现,而忽略了健康结果很少受到单一因素驱动的现实。
抑郁被用作案例研究,有28个单独的论文声称病情与各种自变量之间的关联。但是,在应用虚假发现率(FDR)校正后,只有13个关联在统计上具有显着意义。没有适当的纠正,这些出版物可能会引入大量 类型I错误 进入科学文献。在某些情况下,研究人员似乎将变量回收为跨论文的预测因素和结果,进一步使水域变得混乱。
选择性数据挖掘和Harking
作者发现的另一个问题是使用 不合理的数据子集。 尽管NHANES提供了可以追溯到1999年的健康数据的广泛时间表,但许多研究人员在没有透露基本原理的情况下选择了狭窄的分析窗口。例如,一些研究仅使用 2003年至2018年 尽管数据可用性更广泛,但仍可以分析糖尿病和炎症。这种做法暗示了数据疏g或harking,结果后的假设是一种有缺陷的方法,破坏了可重复性和透明度。
尽管数据库提供了二十年的信息,但中位数研究仅分析了四年的NHANES数据。这种选择性抽样使作者能够增加取得重大结果的可能性,而无需考虑完整数据集的复杂性,从而更容易地生产和发布大量的手稿。
这些发现对科学文献的完整性构成了严重的挑战。无法考虑复杂相互依赖的单变量研究更有可能产生误导。当大规模重复时,此类研究将学术生态系统充斥着符合出版阈值但几乎没有新见解的论文。这是由于较弱的同伴审查和研究人员经常出版的压力加剧了这一点。
作者警告说,如果不受限制,这些做法可能会在制造论文的某些子领域的平衡转移超过合法性的子领域。 使用AI加速手稿的生成只会放大这种风险。随着生成模型变得更加易于使用,它们可以快速将统计输出转换为全长手稿,从而减少了发表科学文章所需的时间和专业知识。
对利益相关者的建议:
为了减轻AI支持数据疏and和大规模生产的研究的风险,作者提出了几个具体步骤:
- 对于研究人员: 确认单因素研究的局限性,并在适当的情况下合并多因素分析。明确证明所有数据子集或假设的变化是合理的。
- 对于数据提供商: 通过API键或应用程序ID介绍可审核的访问,以阻止不加区分的采矿。要求任何引用其数据集的出版物都披露了完整的数据提取历史记录。
- 对于出版商: 增加公式化文件的桌面排斥率。雇用专门的统计审阅者。使用模板使用仅具有可变掉期的相同管道来识别手稿。
- 对于同行评审者: 将单变量分析用作复杂条件作为危险信号的使用。当缺乏统计严格或数据子集缺乏统计严格时,请求澄清。
- 对于更广泛的科学界: 进行出版后审查。诸如PubPeer之类的平台也应被积极地用于标记可疑的实践,即使统计方法显得表面上也是如此。