MIA攻防研究

📌 研究背景与目标

大语言模型在教育领域的应用日益广泛（如AI数学辅导），模型训练不可避免地接触学生敏感数据。成员推理攻击 (MIA) 可判断某条数据是否参与了训练，构成隐私威胁。

本研究基于 Qwen/Qwen2.5-Math-1.5B-Instruct 微调的数学辅导模型，验证MIA风险的存在性，并探索 标签平滑（训练期）与 输出扰动（推理期）两类防御策略的有效性及其对模型效用的影响。

🛡️ 策略配置	📊 AUC	🎯 准确率	💡 说明
基线（无防御）	0.6308	63.3%	攻击风险基准
LS(ε=0.02)	0.6223	74.7%	训练期防御
LS(ε=0.2)	0.5869	71.0%	训练期防御
OP(σ=0.01)	0.6141	63.3%	推理期防御
OP(σ=0.015)	0.6025	63.3%	推理期防御
OP(σ=0.02)	0.5947	63.3%	推理期防御

💡 指标提示: AUC越接近0.5 = 防御越有效；准确率越高 = 模型效用越好。