系统认知评估科学白皮书

技术底座声明 · 专业学术版 · 内部公开级

01 绪论:认知能力的测量学效度与社会经济价值

1.1 认知心理学百年积淀与底层范式演进

认知能力(Cognitive Abilities)包含个体在加工信息、注意调控、记忆编码与提取、逻辑推理、语言解析以及空间表征时所表现出的心理异质性。自 19 世纪末实验心理学确立以来,对人类认知架构的定量化测量一直是心理学与神经科学的核心议题。从法兰西学派的开创性工作到现代认知神经科学的非侵入性脑成像研究,学术界已确立了认知能力作为个体发展底层“心理数字基础设施”的轴心地位。

在公共教育、健康管理及组织行为学领域,海量纵向追踪研究表明,底层认知能力的个体差异对个体的学业成就(Academic Achievement)、工作绩效(Job Performance)以及健康老化(Healthy Aging)具有极高的长期预测效度(Predictive Validity)。然而,当前认知测评市场乱象丛生:大量商业化产品严重缺乏测量学实证,其所谓的“测评”本质上多为缺乏信效度验证的趣味性问答。此类产品不仅无法提供科学的定量化基线,更因其设计纪律的缺失,导致测量结果充斥着设备延迟噪声、极端反应偏向以及无效作答干扰。

针对机构采购时核心关注的“科学性、准确性、竞品差异性”三大质询,本白皮书旨在提供一份可查证、可审计的科学技术底座声明。我们坚持“不做未经验证的自造范式、参数设计逐个有学术出处、作答质量先安检再出分”的测量学纪律,使认知能力的数字化筛查从口头承诺转化为透明的科学承诺。

1.2 筛查与干预边界的合规性确立

本平台在此做出严格的合规性与应用边界声明:

这一边界不仅符合数据安全与数字健康的国际监管趋势,亦从底层保护了合作伙伴与销售团队免于过度承诺的法律风险。

02 认知能力六维模型与经典测量学综合算法

本系统的认知测评架构摒弃了市面上主流的自造概念,完全基于认知心理学经典的分层理论。本章系统阐述六维能力模型的科学定义、内部指标以及综合总分的测量学合成逻辑。

2.1 六维模型的科学定义与因变量(DVs)规范

本系统严格对齐经典心理学教科书的广度能力分类,通过六个独立的认知引擎进行数据采集,各维度底层的因变量指标完全依循实验心理学规范:

💡 关于“效率指数(Efficiency Index)”的学术表述规范:
系统在高级指标层部署了各具任务特异性的 *_efficiency 指标。在学术论述中,该类指标被统称为“效率指数(速度-准确率联合指标,IES 思想的任务内变体)”,用以全面评估个体在时间压力与认知负荷双重约束下的信息加工效能。

2.2 综合认知总分的测量学合成路径

本系统的综合认知总分严格基于经典测量理论(Classical Test Theory, CTT)路线进行标准化合成,不包含任何项目反应理论(IRT)成分。核心统计加工链路包含以下步骤:

Step 1: 常模 z 分数转换。系统在原始分入库后,比对常模矩阵将其转化为标准 z 分数。为了保持单调性一致,所有低优指标(如反应时)的逆向翻转逻辑(即 )已固定在常模建库侧完成。

Step 2: 维度内指标算术平均。某一特定认知维度 内的分数,由该维度下当前有效指标 分数进行算术平均。缺失指标直接跳过,绝不补 0:

Step 3: 跨维度线性加权合成。综合 z 分数(Composite )由各个维度的 分数通过预设的权重向量 进行线性合成,当前标准版本默认等权,且在有效维度之间对权重向量进行动态归一化:

Step 4: 补偿加权方差收缩(方差校正标准化)。由于维度间并非完全正相关,合成后的总体方差必然发生统计学收缩。为了修正该方差塌陷,系统执行标准的方差补偿校正,推导标准化的综合 分数:

Step 5: 双轨制量表分映射与百分位导出

03 数字化测验的经典范式起源与科学渊源

本平台核心主张:我们不发明任何认知心理学测验,我们只做经典的、经过几十年全球学术界验证的学术范式的屏幕化数字化迁移。

3.1 现行 GA 版本数字化范式深度储备

3.2 已立项 P2 波次经典储备范式

系统底座已预留如下储备位:Go/No-Go 任务(执行功能/冲动抑制,基于 Logan, 1984);Corsi 空间广度任务(空间工作记忆第二测验,基于 Milner, 1971);心理旋转任务(空间视觉第二测验,基于 Shepard & Metzler, 1971)。

04 数字化迁移的控制论:参数设计规范与多设备适配

4.1 核心设计参数的学术出处与置信度分级

本系统针对题量、时限、难度梯度等核心实验控制参数,建立了“置信度三档标注机制”:

引擎/任务 参数项 典型数值设定 置信度级别 学术文献出处 / 设计推断依据
加工速度
simple_reaction
刺激呈现间隔
(SOA Jitter)
1500ms - 3500ms
矩形均匀分布
A级:文献明确 遵循 Donders (1868) 经典测时法控制规范;Jensen (2006) 标准设定值。
工作记忆
n_back
刺激呈现时间
(Stimulus Duration)
500ms 锁死 A级:文献明确 遵循 Jonides et al. (1997) 经典神经成像控制基准。
执行功能
matrix_reasoning
最大单题时限
(Max Timeout)
儿童/老年:90s
成人:60s
B级:多来源收敛 结合 Raven (1938) 施测规范,融合线上预实验关于高流失率的行为数据折中。
全引擎
所有任务
触屏手势交互
反应时修正系数
依据硬件基线
进行动态扣减
C级:科学推断 数字化迁移工程推断。基于手势触控在电容屏上的电荷改变时间及肌肉群终末运动学延迟进行工程对冲。

4.2 跨人群(四套年龄参数)的自适应调整逻辑

为了确保对全生命周期人群测量的有效性,系统设计了四套完全隔离的参数群体适配矩阵。儿童与老年的工作记忆容量及持续注意时限较短,因此题目总试次数相对成人调减 30%–40%,规避疲劳效应;同时针对高阶执行功能任务放宽最大单题时限,用以补偿正常老化发生的流体智力自发性衰减(Salthouse, 1996)。

4.3 三层设备延迟校准机制

本平台部署了严密的三层混合延迟校准算法底座,对系统延迟进行精细化对冲:

首先,系统底层内置了输入通道的静态物理延迟查表基线 :Keyboard (5ms) / Mouse (12ms) / Pen (30ms) / Touch (60ms)。同时结合 VSync 信号计算半帧显示延迟:。从而推导出硬件固定系统延迟:

其次,用户在测评前被强制执行 20 次试次的弹球物理拦截运动基线测试。应用 Tukey 1.5×IQR 准则修剪离群值后,取剩余有效试次中位数作为其视动时序误差 。系统最终执行的全局扣减校正值公式如下:

系统设立通道防守:若混合输入通道占比 则拒绝输出基线。校准数据指纹时效性严格限定为 30 天,变更硬件立刻强制重校。

05 响应保真度审查机制:四层作答质量体检防线

5.1 四层作答合规性审查机制与统计学截断点

5.2 “能力弱永不判无效”的代码级强制红线

在底层的效度解析器中,存在一条代码级强制红线:任何单纯的认知能力能力指标(如正确率极低、平均反应时极长),均被禁止单独构成触发数据无效(INVALID)的判定规则。这意味着,一个用户的认知能力哪怕再弱、得分再低,只要他在认真作答,系统必须给予出分并纳入分析。只有当且仅当其作答过程、态度或客观环境违规时,数据才会被判无效。

5.3 数据无效后果链机制

一旦触发 INVALID 红线,系统将彻底激活后果链阻断:污染数据立刻隔离(不入常模资产库);出分策略强制收敛为 report_policy = NONE(阻断报告输出);同时向机构客户开放免费重测信封。这绝非系统的功能缺陷,而是计量心理学对客户数据质量负责的最高纪律表现。

06 认知分数加工链路:从原始点击到离差总分的五层演进

6.1 分数加工的五层逻辑架构

每一次微小的屏幕点击,都需要经过五层严格的心理测量学统计加工:

  1. Layer 1: 原始作答流数据:捕获用户在前端屏幕上的毫秒级时间戳、触控坐标、响应事件及硬件帧率,执行运动延迟校正扣减。
  2. Layer 2: 测量指标提取:测评结束后,对应的认知引擎清洗浓缩出各任务特异性的因变量指标(如 median_rt_msd_prime 等)。
  3. Layer 3: 能力分标准化:将指标与常模参数对齐,转化为标准 分数,并在常模侧直接完成低优指标的翻转,确保单调性一致。
  4. Layer 4: 六维画像分数:运行算术平均与权重归一化逻辑,生成包含六维画像向量的离散分布。
  5. Layer 5: 综合认知总分:通过加权方差补偿校正公式,将跨维度的综合 分数转化为标准化的 分数,最终向外输出具备离差智商(100±15)及百分制(75±10)的双轨制认知总分。

6.2 统计口径冻结与版本化更新纪律

为了保障纵向追踪数据的历史可比性,系统执行显式版本化更新纪律。一旦特定版本的计算配置发布上线,其涉及的合成权重、常模比对基线、数据体检截断点将全量锁死。当算法或常模矩阵发生重大升级时,系统将遵循语义化版本规范整体迭代(如 V1.0 升级至 V2.0),并同步更新本科学白皮书,历史得分将保留其历史版本计算锚点,确保科学可审计性。

07 常模与对照基准建设:路线图与诚实声明

7.1 当前阶段:合成常模诚实声明

⚠️ 数据基线诚实披露:
现行阶段系统内部部署的常模矩阵属于合成常模(Simulated Synthetic Norms)。该常模当前未参考韦氏中国量表常模、国家卫健委人口学数据集或其他任何国内外大规模既成人口学统计数据集。
底层生成机制:当前常模数据基于认知心理学文献中经典范式的理论分布区间,量纲强行锚定了本平台早期产品研发阶段、真实已完成的小规模样本原始分分布(常模来源标记为 SIMULATED)。

7.2 动态演进路线图:自有真实常模的建设里程碑

每一次用户的真实作答,只要通过了质量安检,其逐试次的行为学行为流数据都已作为匿名的、合规的数据资产,沉淀在平台的原始资产库中。常模建设路线图严格划分为三个科学阶段:

08 应用边界、隐私权规范与数据隔离宣言

8.1 场景适用性与非医疗定位

本平台系统设计严格适配以下非医疗通用健康场景:基础教育与因材施教(辅助识别学龄儿童注意广度与工作记忆瓶颈);高管关怀与用脑状态监测(协助企业评估脑力劳动群体的当下疲劳度与决策效率);健康老化与认知养护(面向中老年群体及康养机构提供流体智力衰退的早期非临床风险分层筛查)。平台再次重申,筛查结果绝不具有临床医疗诊断效力。

8.2 数据安全与多租户隔离原则

本平台在数据治理层严格践行《数据安全法》与《个人信息保护法》(PIPL)的最高合规要求:针对涉及 14 周岁以下未成年人的儿童测评场景,系统在交互界面层强制部署了“监护人明示同意书”电子信封,未取得监护人实名授权前,系统拒绝开启任何底层数据采集引擎。

在系统架构层,全面部署了行级安全策略(Row-Level Security, RLS)。不同机构之间的数据流执行严格的物理与逻辑租户隔离,任何机构无权跨租户调阅其他机构的用户原始作答流与分数画像。所有入库的个人身份识别信息执行全脱敏解耦存储,底层设立标准的 RESTful 审计留痕机制,对分数的每一次生成、比对、版本切换执行全生命周期的不可篡改日志留痕,用最高的工程纪律护航用户的数据隐私安全。