📌 研究背景与目标
大语言模型在教育领域的应用日益广泛(如AI数学辅导),模型训练不可避免地接触学生敏感数据。成员推理攻击 (MIA) 可判断某条数据是否参与了训练,构成隐私威胁。
本研究基于 Qwen/Qwen2.5-Math-1.5B-Instruct 微调的数学辅导模型,验证MIA风险的存在性,并探索 标签平滑(训练期)与 输出扰动(推理期)两类防御策略的有效性及其对模型效用的影响。
| 🛡️ 策略配置 | 📊 AUC | 🎯 准确率 | 💡 说明 |
|---|---|---|---|
| 基线(无防御) | 0.6308 | 63.3% | 攻击风险基准 |
| LS(ε=0.02) | 0.6223 | 74.7% | 训练期防御 |
| LS(ε=0.2) | 0.5869 | 71.0% | 训练期防御 |
| OP(σ=0.01) | 0.6141 | 63.3% | 推理期防御 |
| OP(σ=0.015) | 0.6025 | 63.3% | 推理期防御 |
| OP(σ=0.02) | 0.5947 | 63.3% | 推理期防御 |
💡 指标提示: AUC越接近0.5 = 防御越有效;准确率越高 = 模型效用越好。