📌 研究背景与目标

大语言模型在教育领域的应用日益广泛(如AI数学辅导),模型训练不可避免地接触学生敏感数据。成员推理攻击 (MIA) 可判断某条数据是否参与了训练,构成隐私威胁。

本研究基于 Qwen/Qwen2.5-Math-1.5B-Instruct 微调的数学辅导模型,验证MIA风险的存在性,并探索 标签平滑(训练期)与 输出扰动(推理期)两类防御策略的有效性及其对模型效用的影响。

🛡️ 策略配置 📊 AUC 🎯 准确率 💡 说明
基线(无防御) 0.6308 63.3% 攻击风险基准
LS(ε=0.02) 0.6223 74.7% 训练期防御
LS(ε=0.2) 0.5869 71.0% 训练期防御
OP(σ=0.01) 0.6141 63.3% 推理期防御
OP(σ=0.015) 0.6025 63.3% 推理期防御
OP(σ=0.02) 0.5947 63.3% 推理期防御

💡 指标提示: AUC越接近0.5 = 防御越有效;准确率越高 = 模型效用越好。