系统认知评估科学白皮书（专业版）

01 绪论：认知能力的测量学效度与社会经济价值

1.1 认知心理学百年积淀与底层范式演进

认知能力（Cognitive Abilities）包含个体在加工信息、注意调控、记忆编码与提取、逻辑推理、语言解析以及空间表征时所表现出的心理异质性。自 19 世纪末实验心理学确立以来，对人类认知架构的定量化测量一直是心理学与神经科学的核心议题。从法兰西学派的开创性工作到现代认知神经科学的非侵入性脑成像研究，学术界已确立了认知能力作为个体发展底层“心理数字基础设施”的轴心地位。

在公共教育、健康管理及组织行为学领域，海量纵向追踪研究表明，底层认知能力的个体差异对个体的学业成就（Academic Achievement）、工作绩效（Job Performance）以及健康老化（Healthy Aging）具有极高的长期预测效度（Predictive Validity）。然而，当前认知测评市场乱象丛生：大量商业化产品严重缺乏测量学实证，其所谓的“测评”本质上多为缺乏信效度验证的趣味性问答。此类产品不仅无法提供科学的定量化基线，更因其设计纪律的缺失，导致测量结果充斥着设备延迟噪声、极端反应偏向以及无效作答干扰。

针对机构采购时核心关注的“科学性、准确性、竞品差异性”三大质询，本白皮书旨在提供一份可查证、可审计的科学技术底座声明。我们坚持“不做未经验证的自造范式、参数设计逐个有学术出处、作答质量先安检再出分”的测量学纪律，使认知能力的数字化筛查从口头承诺转化为透明的科学承诺。

1.2 筛查与干预边界的合规性确立

本平台在此做出严格的合规性与应用边界声明：

平台定位：本系统属于认知能力风险分层筛查（Risk Stratification Screening）与非医疗干预建议系统。
业务边界：平台输出的任何多维画像、认知总分或训练建议，均定位为通用健康（General Wellness）管理工具。本平台不构成医疗诊断，不替代临床医疗评估，亦不具备临床诊断法律效力。
分流机制：当系统筛查结果提示个体认知指标存在显著的统计学异常（如落入常模分布的极端低百分位区间）时，系统将触发警示，建议用户寻求专业医疗机构（如神经内科、精神科或临床心理科）进行标准的医学临床评估（如 MMSE、MoCA 或 WISC/WAIS 临床量表测验）。

这一边界不仅符合数据安全与数字健康的国际监管趋势，亦从底层保护了合作伙伴与销售团队免于过度承诺的法律风险。

02 认知能力六维模型与经典测量学综合算法

本系统的认知测评架构摒弃了市面上主流的自造概念，完全基于认知心理学经典的分层理论。本章系统阐述六维能力模型的科学定义、内部指标以及综合总分的测量学合成逻辑。

2.1 六维模型的科学定义与因变量（DVs）规范

本系统严格对齐经典心理学教科书的广度能力分类，通过六个独立的认知引擎进行数据采集，各维度底层的因变量指标完全依循实验心理学规范：

1. 加工速度（Processing Speed）：个体对简单或选择性刺激进行认知加工并做出行为反应的敏捷度。系统核心指标包含 median_rt_ms（反应时中位数）、mean_rt_ms（反应时平均数）、rt_sd_ms（反应时标准差/变异性）、accuracy（正确率）。系统在中心倾向的表征上，固定以中位数为主指标，以有效对冲离群值。
2. 注意力（Attention）：大脑对特定外部刺激或内部表征进行选择性聚焦、维持以及抑制干扰的资源分配能力。系统核心指标复用离散反应引擎的 rt_sd_ms、accuracy，以及记忆序列引擎的 false_alarm_rate（虚报率）。本系统现行数字化口径提炼为更加稳健的“稳定性（RT 变异/漏报）”与“抑制控制（虚报）”两面式架构，未套用 ANT 三网络划分。
3. 工作记忆（Working Memory）：个体在执行复杂认知任务时，对信息进行临时存储、在线维护与动态加工的心理工作空间。系统全线引入标准的信号检测论（Signal Detection Theory, SDT）框架，核心指标包含 d_prime（敏感度指数）、hit_rate（击中率）、false_alarm_rate（虚报率）、correct_rejection_rate（正确拒绝率）、accuracy。
4. 执行功能（Executive Function）：个体在达成特定目标时，对协同多个底层认知过程进行高阶调控、规划与灵活切换的能力。核心指标包含矩阵推理任务中的 accuracy、mean_solution_time_ms、timeout_rate、reasoning_efficiency（推理效率）；路径规划任务中的 completed_rate、mean_planning_time_ms、path_efficiency（路径效率系数）、excess_step_ratio（冗余步数比）。
5. 语言理解（Language Comprehension）：个体对语言符号、词汇语义及逻辑概念进行快速检索、语义激活与深层解析的能力。核心指标为 accuracy、mean_rt_ms、semantic_error_rate、timeout_rate、semantic_efficiency。
6. 空间能力（Spatial Ability）：个体在心理上对多维空间视觉刺激进行表征、操纵、追踪、重构与变换的能力。核心指标包含 accuracy、mean_solution_time_ms、construction_error_rate、spatial_efficiency。

💡 关于“效率指数（Efficiency Index）”的学术表述规范：
系统在高级指标层部署了各具任务特异性的 *_efficiency 指标。在学术论述中，该类指标被统称为“效率指数（速度-准确率联合指标，IES 思想的任务内变体）”，用以全面评估个体在时间压力与认知负荷双重约束下的信息加工效能。

2.2 综合认知总分的测量学合成路径

本系统的综合认知总分严格基于经典测量理论（Classical Test Theory, CTT）路线进行标准化合成，不包含任何项目反应理论（IRT）成分。核心统计加工链路包含以下步骤：

Step 1: 常模 z 分数转换。系统在原始分入库后，比对常模矩阵将其转化为标准 z 分数。为了保持单调性一致，所有低优指标（如反应时）的逆向翻转逻辑（即）已固定在常模建库侧完成。

Step 2: 维度内指标算术平均。某一特定认知维度内的分数，由该维度下当前有效指标分数进行算术平均。缺失指标直接跳过，绝不补 0：

Step 3: 跨维度线性加权合成。综合 z 分数（Composite ）由各个维度的分数通过预设的权重向量进行线性合成，当前标准版本默认等权，且在有效维度之间对权重向量进行动态归一化：

Step 4: 补偿加权方差收缩（方差校正标准化）。由于维度间并非完全正相关，合成后的总体方差必然发生统计学收缩。为了修正该方差塌陷，系统执行标准的方差补偿校正，推导标准化的综合分数：

Step 5: 双轨制量表分映射与百分位导出：

学术级内部指数：，数值严格截断在区间内。
用户端可见分数：，数值严格截断在区间内。
常模百分位数（Percentile Rank）：通过标准正态分布累积分布函数直接导出：。

03 数字化测验的经典范式起源与科学渊源

本平台核心主张：我们不发明任何认知心理学测验，我们只做经典的、经过几十年全球学术界验证的学术范式的屏幕化数字化迁移。

3.1 现行 GA 版本数字化范式深度储备

简单反应时任务（simple_reaction）：起源于 19 世纪 Donders 的心理测时法实验（Donders, 1868; Jensen, 2006）。系统控制刺激呈现间隔（SOA）在 1500ms~3500ms 之间进行伪随机化抖动（Jitter），彻底消除用户依靠节奏建立预期的作答偏差。
视觉搜索任务（visual_search）：基于 Treisman 的特征整合理论设计的经典空间搜索范式（Treisman & Gelade, 1980）。系统动态操纵干扰项数量（Set Size 梯度变化）用以精细刻画个体的注意搜索效能差异。
N-Back 任务（n_back）：由 Kirchner (1958) 首次提出，是公认评估背外侧前额叶工作记忆更新能力的金标准范式。刺激物呈现时限精确锁死为 500ms，刺激间隔（ISI）固定为 2000ms，全线应用信号检测论（SDT）计分。
瑞文式矩阵推理任务（matrix_reasoning）：源自 Raven (1938) 编制的瑞文标准推理测验，是测量流体智力及一般认知因素的最具代表性非文字测验。系统全面追踪解题时间与超时率。
网格路径规划任务（grid_navigation）：经典的“伦敦塔测验”（Shallice, 1982）与迷宫任务的高级数字化变体，实时计算实际路径与拓扑最短路径的最优解差异，用以客观定量化个体的空间策略规划能力。
词语语义判断任务（word_semantic_judgment）：介于经典词汇判断任务（Meyer & Schvaneveldt, 1971）与语义验证任务之间，严格基于语料库控制词频与具体性，提取语义加工效率。
积木图案构建任务（block_design）：完全对齐韦氏智力量表（Wechsler, 1955）中的核心分测验“积木图案”。通过高精度的触控无缝拖拽交互，完美复刻实体积木的旋转与拼接逻辑。

3.2 已立项 P2 波次经典储备范式

系统底座已预留如下储备位：Go/No-Go 任务（执行功能/冲动抑制，基于 Logan, 1984）；Corsi 空间广度任务（空间工作记忆第二测验，基于 Milner, 1971）；心理旋转任务（空间视觉第二测验，基于 Shepard & Metzler, 1971）。

04 数字化迁移的控制论：参数设计规范与多设备适配

4.1 核心设计参数的学术出处与置信度分级

本系统针对题量、时限、难度梯度等核心实验控制参数，建立了“置信度三档标注机制”：

引擎/任务	参数项	典型数值设定	置信度级别	学术文献出处 / 设计推断依据
加工速度 `simple_reaction`	刺激呈现间隔 (SOA Jitter)	1500ms - 3500ms 矩形均匀分布	A级：文献明确	遵循 Donders (1868) 经典测时法控制规范；Jensen (2006) 标准设定值。
工作记忆 `n_back`	刺激呈现时间 (Stimulus Duration)	500ms 锁死	A级：文献明确	遵循 Jonides et al. (1997) 经典神经成像控制基准。
执行功能 `matrix_reasoning`	最大单题时限 (Max Timeout)	儿童/老年：90s 成人：60s	B级：多来源收敛	结合 Raven (1938) 施测规范，融合线上预实验关于高流失率的行为数据折中。
全引擎所有任务	触屏手势交互反应时修正系数	依据硬件基线进行动态扣减	C级：科学推断	数字化迁移工程推断。基于手势触控在电容屏上的电荷改变时间及肌肉群终末运动学延迟进行工程对冲。

4.2 跨人群（四套年龄参数）的自适应调整逻辑

为了确保对全生命周期人群测量的有效性，系统设计了四套完全隔离的参数群体适配矩阵。儿童与老年的工作记忆容量及持续注意时限较短，因此题目总试次数相对成人调减 30%–40%，规避疲劳效应；同时针对高阶执行功能任务放宽最大单题时限，用以补偿正常老化发生的流体智力自发性衰减（Salthouse, 1996）。

4.3 三层设备延迟校准机制

本平台部署了严密的三层混合延迟校准算法底座，对系统延迟进行精细化对冲：

首先，系统底层内置了输入通道的静态物理延迟查表基线：Keyboard (5ms) / Mouse (12ms) / Pen (30ms) / Touch (60ms)。同时结合 VSync 信号计算半帧显示延迟：。从而推导出硬件固定系统延迟：

其次，用户在测评前被强制执行 20 次试次的弹球物理拦截运动基线测试。应用 Tukey 1.5×IQR 准则修剪离群值后，取剩余有效试次中位数作为其视动时序误差。系统最终执行的全局扣减校正值公式如下：

系统设立通道防守：若混合输入通道占比则拒绝输出基线。校准数据指纹时效性严格限定为 30 天，变更硬件立刻强制重校。

05 响应保真度审查机制：四层作答质量体检防线

5.1 四层作答合规性审查机制与统计学截断点

第一层：盲目抢答审查：在离散反应引擎中，记为抢答；记忆序列引擎中记为抢答。若抢答试次占比分别或，触发数据无效（INVALID）。
第二层：过度漏答审查：当单场测验中“完全无应答”的试次占比，或绝对有效试次总数过低（离散反应次；记忆/路径次）时，触发过度漏答，判定为 INVALID。
第三层：系统超时降级机制：当超时试次占比在各引擎中超过截断点（20%~40%）时，系统不会判定为 INVALID，而是将其常模准入合规性标记为失效（norm_eligible = false），数据报告标记为条件受限（CONDITIONAL），出分的同时提示用户安排免费重测。
第四层：恶意作答与过程违规审查：同键率（无脑狂点同一屏幕区域）、数学投入度，或在正式施测期检测到切屏等信封违规行为，resolver 立刻阻断并标定为 INVALID。

5.2 “能力弱永不判无效”的代码级强制红线

在底层的效度解析器中，存在一条代码级强制红线：任何单纯的认知能力能力指标（如正确率极低、平均反应时极长），均被禁止单独构成触发数据无效（INVALID）的判定规则。这意味着，一个用户的认知能力哪怕再弱、得分再低，只要他在认真作答，系统必须给予出分并纳入分析。只有当且仅当其作答过程、态度或客观环境违规时，数据才会被判无效。

5.3 数据无效后果链机制

一旦触发 INVALID 红线，系统将彻底激活后果链阻断：污染数据立刻隔离（不入常模资产库）；出分策略强制收敛为 report_policy = NONE（阻断报告输出）；同时向机构客户开放免费重测信封。这绝非系统的功能缺陷，而是计量心理学对客户数据质量负责的最高纪律表现。

06 认知分数加工链路：从原始点击到离差总分的五层演进

6.1 分数加工的五层逻辑架构

每一次微小的屏幕点击，都需要经过五层严格的心理测量学统计加工：

Layer 1: 原始作答流数据：捕获用户在前端屏幕上的毫秒级时间戳、触控坐标、响应事件及硬件帧率，执行运动延迟校正扣减。
Layer 2: 测量指标提取：测评结束后，对应的认知引擎清洗浓缩出各任务特异性的因变量指标（如 median_rt_ms、d_prime 等）。
Layer 3: 能力分标准化：将指标与常模参数对齐，转化为标准分数，并在常模侧直接完成低优指标的翻转，确保单调性一致。
Layer 4: 六维画像分数：运行算术平均与权重归一化逻辑，生成包含六维画像向量的离散分布。
Layer 5: 综合认知总分：通过加权方差补偿校正公式，将跨维度的综合分数转化为标准化的分数，最终向外输出具备离差智商（100±15）及百分制（75±10）的双轨制认知总分。

6.2 统计口径冻结与版本化更新纪律

为了保障纵向追踪数据的历史可比性，系统执行显式版本化更新纪律。一旦特定版本的计算配置发布上线，其涉及的合成权重、常模比对基线、数据体检截断点将全量锁死。当算法或常模矩阵发生重大升级时，系统将遵循语义化版本规范整体迭代（如 V1.0 升级至 V2.0），并同步更新本科学白皮书，历史得分将保留其历史版本计算锚点，确保科学可审计性。

07 常模与对照基准建设：路线图与诚实声明

7.1 当前阶段：合成常模诚实声明

⚠️ 数据基线诚实披露：
现行阶段系统内部部署的常模矩阵属于合成常模（Simulated Synthetic Norms）。该常模当前未参考韦氏中国量表常模、国家卫健委人口学数据集或其他任何国内外大规模既成人口学统计数据集。
底层生成机制：当前常模数据基于认知心理学文献中经典范式的理论分布区间，量纲强行锚定了本平台早期产品研发阶段、真实已完成的小规模样本原始分分布（常模来源标记为 SIMULATED）。

7.2 动态演进路线图：自有真实常模的建设里程碑

每一次用户的真实作答，只要通过了质量安检，其逐试次的行为学行为流数据都已作为匿名的、合规的数据资产，沉淀在平台的原始资产库中。常模建设路线图严格划分为三个科学阶段：

第一阶段：合成常模期（当前阶段）：采用文献先验分布与合成矩阵，全面跑通算法全链路，强制锁定免责声明。
第二阶段：真实行业常模期：伴随合作机构的深入，当匿名化合规有效 Session 数据集突破数十万册时，系统将通过动态聚类与参数化拟合，发布首批基于中国本土真实人群的数字化认知广度能力行业参考常模。
第三阶段：官方权威常模期（长期战略里程碑）：团队计划联合国内顶级高校心理学系或认知神经科学国家重点实验室，引入标准化人口学分层抽样设计进行大规模多中心实证施测，正式在系统数据库中将状态变更为 OFFICIAL，正式升级为官方权威常模。

08 应用边界、隐私权规范与数据隔离宣言

8.1 场景适用性与非医疗定位

本平台系统设计严格适配以下非医疗通用健康场景：基础教育与因材施教（辅助识别学龄儿童注意广度与工作记忆瓶颈）；高管关怀与用脑状态监测（协助企业评估脑力劳动群体的当下疲劳度与决策效率）；健康老化与认知养护（面向中老年群体及康养机构提供流体智力衰退的早期非临床风险分层筛查）。平台再次重申，筛查结果绝不具有临床医疗诊断效力。

8.2 数据安全与多租户隔离原则

本平台在数据治理层严格践行《数据安全法》与《个人信息保护法》（PIPL）的最高合规要求：针对涉及 14 周岁以下未成年人的儿童测评场景，系统在交互界面层强制部署了“监护人明示同意书”电子信封，未取得监护人实名授权前，系统拒绝开启任何底层数据采集引擎。

在系统架构层，全面部署了行级安全策略（Row-Level Security, RLS）。不同机构之间的数据流执行严格的物理与逻辑租户隔离，任何机构无权跨租户调阅其他机构的用户原始作答流与分数画像。所有入库的个人身份识别信息执行全脱敏解耦存储，底层设立标准的 RESTful 审计留痕机制，对分数的每一次生成、比对、版本切换执行全生命周期的不可篡改日志留痕，用最高的工程纪律护航用户的数据隐私安全。