认知能力(Cognitive Abilities)包含个体在加工信息、注意调控、记忆编码与提取、逻辑推理、语言解析以及空间表征时所表现出的心理异质性。自 19 世纪末实验心理学确立以来,对人类认知架构的定量化测量一直是心理学与神经科学的核心议题。从法兰西学派的开创性工作到现代认知神经科学的非侵入性脑成像研究,学术界已确立了认知能力作为个体发展底层“心理数字基础设施”的轴心地位。
在公共教育、健康管理及组织行为学领域,海量纵向追踪研究表明,底层认知能力的个体差异对个体的学业成就(Academic Achievement)、工作绩效(Job Performance)以及健康老化(Healthy Aging)具有极高的长期预测效度(Predictive Validity)。然而,当前认知测评市场乱象丛生:大量商业化产品严重缺乏测量学实证,其所谓的“测评”本质上多为缺乏信效度验证的趣味性问答。此类产品不仅无法提供科学的定量化基线,更因其设计纪律的缺失,导致测量结果充斥着设备延迟噪声、极端反应偏向以及无效作答干扰。
针对机构采购时核心关注的“科学性、准确性、竞品差异性”三大质询,本白皮书旨在提供一份可查证、可审计的科学技术底座声明。我们坚持“不做未经验证的自造范式、参数设计逐个有学术出处、作答质量先安检再出分”的测量学纪律,使认知能力的数字化筛查从口头承诺转化为透明的科学承诺。
本平台在此做出严格的合规性与应用边界声明:
这一边界不仅符合数据安全与数字健康的国际监管趋势,亦从底层保护了合作伙伴与销售团队免于过度承诺的法律风险。
本系统的认知测评架构摒弃了市面上主流的自造概念,完全基于认知心理学经典的分层理论。本章系统阐述六维能力模型的科学定义、内部指标以及综合总分的测量学合成逻辑。
本系统严格对齐经典心理学教科书的广度能力分类,通过六个独立的认知引擎进行数据采集,各维度底层的因变量指标完全依循实验心理学规范:
median_rt_ms(反应时中位数)、mean_rt_ms(反应时平均数)、rt_sd_ms(反应时标准差/变异性)、accuracy(正确率)。系统在中心倾向的表征上,固定以中位数为主指标,以有效对冲离群值。
rt_sd_ms、accuracy,以及记忆序列引擎的 false_alarm_rate(虚报率)。本系统现行数字化口径提炼为更加稳健的“稳定性(RT 变异/漏报)”与“抑制控制(虚报)”两面式架构,未套用 ANT 三网络划分。
d_prime(敏感度指数 )、hit_rate(击中率)、false_alarm_rate(虚报率)、correct_rejection_rate(正确拒绝率)、accuracy。
accuracy、mean_solution_time_ms、timeout_rate、reasoning_efficiency(推理效率);路径规划任务中的 completed_rate、mean_planning_time_ms、path_efficiency(路径效率系数)、excess_step_ratio(冗余步数比)。
accuracy、mean_rt_ms、semantic_error_rate、timeout_rate、semantic_efficiency。
accuracy、mean_solution_time_ms、construction_error_rate、spatial_efficiency。
💡 关于“效率指数(Efficiency Index)”的学术表述规范:
系统在高级指标层部署了各具任务特异性的 *_efficiency 指标。在学术论述中,该类指标被统称为“效率指数(速度-准确率联合指标,IES 思想的任务内变体)”,用以全面评估个体在时间压力与认知负荷双重约束下的信息加工效能。
本系统的综合认知总分严格基于经典测量理论(Classical Test Theory, CTT)路线进行标准化合成,不包含任何项目反应理论(IRT)成分。核心统计加工链路包含以下步骤:
Step 1: 常模 z 分数转换。系统在原始分入库后,比对常模矩阵将其转化为标准 z 分数。为了保持单调性一致,所有低优指标(如反应时)的逆向翻转逻辑(即 )已固定在常模建库侧完成。
Step 2: 维度内指标算术平均。某一特定认知维度 内的分数,由该维度下当前有效指标 分数进行算术平均。缺失指标直接跳过,绝不补 0:
Step 3: 跨维度线性加权合成。综合 z 分数(Composite )由各个维度的 分数通过预设的权重向量 进行线性合成,当前标准版本默认等权,且在有效维度之间对权重向量进行动态归一化:
Step 4: 补偿加权方差收缩(方差校正标准化)。由于维度间并非完全正相关,合成后的总体方差必然发生统计学收缩。为了修正该方差塌陷,系统执行标准的方差补偿校正,推导标准化的综合 分数:
Step 5: 双轨制量表分映射与百分位导出:
本平台核心主张:我们不发明任何认知心理学测验,我们只做经典的、经过几十年全球学术界验证的学术范式的屏幕化数字化迁移。
simple_reaction):起源于 19 世纪 Donders 的心理测时法实验(Donders, 1868; Jensen, 2006)。系统控制刺激呈现间隔(SOA)在 1500ms~3500ms 之间进行伪随机化抖动(Jitter),彻底消除用户依靠节奏建立预期的作答偏差。visual_search):基于 Treisman 的特征整合理论设计的经典空间搜索范式(Treisman & Gelade, 1980)。系统动态操纵干扰项数量(Set Size 梯度变化)用以精细刻画个体的注意搜索效能差异。n_back):由 Kirchner (1958) 首次提出,是公认评估背外侧前额叶工作记忆更新能力的金标准范式。刺激物呈现时限精确锁死为 500ms,刺激间隔(ISI)固定为 2000ms,全线应用信号检测论(SDT)计分。matrix_reasoning):源自 Raven (1938) 编制的瑞文标准推理测验,是测量流体智力及一般认知因素 的最具代表性非文字测验。系统全面追踪解题时间与超时率。grid_navigation):经典的“伦敦塔测验”(Shallice, 1982)与迷宫任务的高级数字化变体,实时计算实际路径与拓扑最短路径的最优解差异,用以客观定量化个体的空间策略规划能力。word_semantic_judgment):介于经典词汇判断任务(Meyer & Schvaneveldt, 1971)与语义验证任务之间,严格基于语料库控制词频与具体性,提取语义加工效率。block_design):完全对齐韦氏智力量表(Wechsler, 1955)中的核心分测验“积木图案”。通过高精度的触控无缝拖拽交互,完美复刻实体积木的旋转与拼接逻辑。系统底座已预留如下储备位:Go/No-Go 任务(执行功能/冲动抑制,基于 Logan, 1984);Corsi 空间广度任务(空间工作记忆第二测验,基于 Milner, 1971);心理旋转任务(空间视觉第二测验,基于 Shepard & Metzler, 1971)。
本系统针对题量、时限、难度梯度等核心实验控制参数,建立了“置信度三档标注机制”:
| 引擎/任务 | 参数项 | 典型数值设定 | 置信度级别 | 学术文献出处 / 设计推断依据 |
|---|---|---|---|---|
加工速度simple_reaction |
刺激呈现间隔 (SOA Jitter) |
1500ms - 3500ms 矩形均匀分布 |
A级:文献明确 | 遵循 Donders (1868) 经典测时法控制规范;Jensen (2006) 标准设定值。 |
工作记忆n_back |
刺激呈现时间 (Stimulus Duration) |
500ms 锁死 | A级:文献明确 | 遵循 Jonides et al. (1997) 经典神经成像控制基准。 |
执行功能matrix_reasoning |
最大单题时限 (Max Timeout) |
儿童/老年:90s 成人:60s |
B级:多来源收敛 | 结合 Raven (1938) 施测规范,融合线上预实验关于高流失率的行为数据折中。 |
| 全引擎 所有任务 |
触屏手势交互 反应时修正系数 |
依据硬件基线 进行动态扣减 |
C级:科学推断 | 数字化迁移工程推断。基于手势触控在电容屏上的电荷改变时间及肌肉群终末运动学延迟进行工程对冲。 |
为了确保对全生命周期人群测量的有效性,系统设计了四套完全隔离的参数群体适配矩阵。儿童与老年的工作记忆容量及持续注意时限较短,因此题目总试次数相对成人调减 30%–40%,规避疲劳效应;同时针对高阶执行功能任务放宽最大单题时限,用以补偿正常老化发生的流体智力自发性衰减(Salthouse, 1996)。
本平台部署了严密的三层混合延迟校准算法底座,对系统延迟进行精细化对冲:
首先,系统底层内置了输入通道的静态物理延迟查表基线 :Keyboard (5ms) / Mouse (12ms) / Pen (30ms) / Touch (60ms)。同时结合 VSync 信号计算半帧显示延迟:。从而推导出硬件固定系统延迟:
其次,用户在测评前被强制执行 20 次试次的弹球物理拦截运动基线测试。应用 Tukey 1.5×IQR 准则修剪离群值后,取剩余有效试次中位数作为其视动时序误差 。系统最终执行的全局扣减校正值公式如下:
系统设立通道防守:若混合输入通道占比 则拒绝输出基线。校准数据指纹时效性严格限定为 30 天,变更硬件立刻强制重校。
INVALID)。INVALID。norm_eligible = false),数据报告标记为条件受限(CONDITIONAL),出分的同时提示用户安排免费重测。INVALID。在底层的效度解析器中,存在一条代码级强制红线:任何单纯的认知能力能力指标(如正确率极低、平均反应时极长),均被禁止单独构成触发数据无效(INVALID)的判定规则。这意味着,一个用户的认知能力哪怕再弱、得分再低,只要他在认真作答,系统必须给予出分并纳入分析。只有当且仅当其作答过程、态度或客观环境违规时,数据才会被判无效。
一旦触发 INVALID 红线,系统将彻底激活后果链阻断:污染数据立刻隔离(不入常模资产库);出分策略强制收敛为 report_policy = NONE(阻断报告输出);同时向机构客户开放免费重测信封。这绝非系统的功能缺陷,而是计量心理学对客户数据质量负责的最高纪律表现。
每一次微小的屏幕点击,都需要经过五层严格的心理测量学统计加工:
median_rt_ms、d_prime 等)。为了保障纵向追踪数据的历史可比性,系统执行显式版本化更新纪律。一旦特定版本的计算配置发布上线,其涉及的合成权重、常模比对基线、数据体检截断点将全量锁死。当算法或常模矩阵发生重大升级时,系统将遵循语义化版本规范整体迭代(如 V1.0 升级至 V2.0),并同步更新本科学白皮书,历史得分将保留其历史版本计算锚点,确保科学可审计性。
⚠️ 数据基线诚实披露:
现行阶段系统内部部署的常模矩阵属于合成常模(Simulated Synthetic Norms)。该常模当前未参考韦氏中国量表常模、国家卫健委人口学数据集或其他任何国内外大规模既成人口学统计数据集。
底层生成机制:当前常模数据基于认知心理学文献中经典范式的理论分布区间,量纲强行锚定了本平台早期产品研发阶段、真实已完成的小规模样本原始分分布(常模来源标记为 SIMULATED)。
每一次用户的真实作答,只要通过了质量安检,其逐试次的行为学行为流数据都已作为匿名的、合规的数据资产,沉淀在平台的原始资产库中。常模建设路线图严格划分为三个科学阶段:
OFFICIAL,正式升级为官方权威常模。本平台系统设计严格适配以下非医疗通用健康场景:基础教育与因材施教(辅助识别学龄儿童注意广度与工作记忆瓶颈);高管关怀与用脑状态监测(协助企业评估脑力劳动群体的当下疲劳度与决策效率);健康老化与认知养护(面向中老年群体及康养机构提供流体智力衰退的早期非临床风险分层筛查)。平台再次重申,筛查结果绝不具有临床医疗诊断效力。
本平台在数据治理层严格践行《数据安全法》与《个人信息保护法》(PIPL)的最高合规要求:针对涉及 14 周岁以下未成年人的儿童测评场景,系统在交互界面层强制部署了“监护人明示同意书”电子信封,未取得监护人实名授权前,系统拒绝开启任何底层数据采集引擎。
在系统架构层,全面部署了行级安全策略(Row-Level Security, RLS)。不同机构之间的数据流执行严格的物理与逻辑租户隔离,任何机构无权跨租户调阅其他机构的用户原始作答流与分数画像。所有入库的个人身份识别信息执行全脱敏解耦存储,底层设立标准的 RESTful 审计留痕机制,对分数的每一次生成、比对、版本切换执行全生命周期的不可篡改日志留痕,用最高的工程纪律护航用户的数据隐私安全。