BinAgg 再現追試

欠損処理・標準化と係数指標での比較

補足実験: 欠損処理の選択と係数指標での比較

レポート本体(E3)は論文 [1] の実データ設定に準拠し、欠損センチネル -200 を残したまま予測誤差 RelMSE で 評価した。一方、実務で直観的に取りたくなる選択肢として「欠損を含む行の削除」「欠損の補完」、および 「係数レベルの指標での比較」がある。これらは妥当なアプローチなので、本体とは別に補足実験として実施し、 結果と注意点をここにまとめる(論文の主設定ではない)。

設定

UCI Air Quality(目的 CO(GT))に対し、-200(欠損センチネル)の前処理と標準化を 4 通り用意して比較する。 bounds はいずれもデータ由来の non-private な min/max、予算は μ-GDP \(\mu\in\{0.5,1,2,5\}\)、20 反復平均。 スクリプト: scripts/04_preprocessing_variants.py

変種 内容 \(n\) \(d\) \(\mathrm{cond}(X^\top X)\) OLS RelMSE
keep(本体・論文準拠) -200 残す(全 12 特徴) 9357 12 \(7.4\times10^6\) 0.441
keep + standardized keep を特徴標準化(z-score) 9357 12 \(1.8\times10^4\) 0.603
drop_rows NMHC(GT)(約 9 割欠損)を列除外+-200 行を削除 6941 11 \(4.3\times10^8\) 0.028
impute 特徴の -200 を列平均で補完、目的が -200 の行のみ削除 7674 12 \(4.4\times10^8\) 0.035

指標

結果

E4: RelMSE と係数 relL2 を前処理変種ごとに比較

BinAgg の予測 RelMSE(mean、μ別):

変種 μ=0.5 μ=1.0 μ=2.0 μ=5.0
keep(本体) 0.506 0.450 0.443 0.444
keep + standardized 0.617 0.608 0.608 0.607
drop_rows 0.076 0.050 0.036 0.032
impute 0.082 0.057 0.044 0.039

DP–OLS 係数 relL2(mean±std、μ別):

変種 μ=0.5 μ=1.0 μ=2.0 μ=5.0
keep(本体) 0.97±0.16 0.91±0.10 0.96±0.13 0.84±0.16
keep + standardized 0.73±0.19 0.62±0.14 0.69±0.22 0.80±0.32
drop_rows 4.27±3.43 3.29±2.21 2.32±1.38 1.95±0.88
impute 3.42±3.56 2.07±1.74 2.19±1.19 1.50±0.83

観察と注意点

💡 実務メモ: 欠損処理の選択(残す/行削除/補完)は予測誤差の絶対値を大きく動かす。 手法間の比較や論文との照合では、前処理を固定して同条件で比べること。係数レベルの評価を行うなら、 標準化・共線性の整理・次元削減で設計の条件数を下げてから測るのが望ましい。

参照

  1. Lin, S., Slavković, A., & Bhoomireddy, D. R. (2026). Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees. AISTATS 2026 (PMLR). arXiv:2510.16974. https://arxiv.org/abs/2510.16974
  2. BinAgg (Python package). Shuronglin/BinAgg, commit 13c09bb (2026-05-27). https://github.com/Shuronglin/BinAgg
  3. UCI Machine Learning Repository — Air Quality Data Set(同梱 data/AirQualityUCI.csv).