BinAgg 再現追試

よくある疑問と設計判断

QA・メモ

このページは、BinAgg による差分プライバシー(DP)線形回帰の再現追試に関して、よく寄せられる疑問と、本追試での設計判断をまとめた FAQ です。手法や前処理の詳細は別ページ(「用語と記法」「BinAgg 手法詳細」「前処理とドメイン特化メモ」「エンジニアリングと再現手順」)も参照してください。

📘 凡例: 事実には出典チップ(例 [1] / [2])を付けます。チップの無い記述は本追試での実測・解釈であり、推定を含む箇所は「〜と考えられる」「本実験条件では」と推定調で示します。

プライバシー予算とトレードオフ

Q. プライバシー予算 \(\mu\) はどう選ぶ?

\(\mu\) はガウス機構の DP 保証を表すパラメータで、小さいほど加えるノイズが大きく、強いプライバシー保護と引き換えに精度が下がります。逆に \(\mu\) が大きいほどノイズは小さく、精度は上がりますが保護は弱くなります。

BinAgg の README は目安として、\(\mu \le 0.5\) を強い保護、\(0.5 < \mu \le 1.5\) を中程度、\(\mu > 1.5\) を弱い保護としています [2]。本追試ではこの幅をまたぐように \(\mu \in \{0.5, 1, 2, 5\}\) を取り、精度とのトレードオフを観測しました。

💡 「どの \(\mu\) が正解」ということはなく、許容できる保護水準と必要な精度のバランスで決める運用パラメータと考えられます。

Q. なぜ 95% 信頼区間の被覆率が 0.95 を少し下回る (0.92–0.93) のか?

ここで構成している信頼区間は漸近的なもの、すなわち標本数が大きくなる極限で正当化されるものです。有限標本では正規近似の誤差が残るため、被覆率は名目値の 0.95 を僅かに下回る、と考えられます。本実験条件で観測された 0.92–0.93 はこの範囲に収まっています。

\(n\) やビン数を増やしたときに被覆率が 0.95 へ近づくかを確かめる感度分析は、今後の課題です。

Q. なぜノイズを無視した素朴 (naive) 区間は被覆を大きく失う (0.08–0.32) のか?

これは点推定ではなく分散推定の問題です。naive な区間は標準誤差の計算に DP ノイズの分散を勘定に入れていません(本追試の実装では \(\sigma^2 = 1\) 相当のプレースホルダを用いています)。その結果、区間が実際の不確実性に比べて狭くなりすぎ、真値を含む割合が激減します。

⚠️ 点推定が同程度に正確でも、分散を正しく見積もらなければ信頼区間は信頼できません。被覆率はまさにこの分散推定の質を映す指標です。

点推定・分散推定の挙動

Q. E1 で点推定のバイアスが補正版と naive でほぼ同じだったのはなぜ?

本実験は条件数の良い一様計画を用いており、バイアス補正行列 \(\tilde D\) が点推定に与える影響が相対的に小さかったため、と考えられます。E1 で補正版と naive を分けたのは点推定の差ではなく、分散推定(サンドイッチ標準誤差)の質でした。

設計行列が悪条件の場合は点推定にも差が出うると考えられますが、本実験条件では確認していません。

Q. E3 の実データ評価はなぜ「係数の一致」でなく「予測誤差 RelMSE」なのか?

論文 [1] が実データ評価で予測誤差 RelMSE \(=\lVert X\hat\beta-y\rVert_2^2/\lVert y\rVert_2^2\) を使っているからで、 これに準拠しました。RelMSE が優れているのは頑健性です。DP 推定も OLS も同じ \(y\) を予測するため、欠損 -200 や 設計の悪条件性が分子・分母および両手法に等しく効き、相対比較が崩れません。実際、論文準拠で測ると OLS=0.441 (論文と完全一致)・BinAgg=0.450(論文 0.463 と整合)と報告値を再現できました。

逆に係数の一致(相対 L2)で測ると不安定になります。この実データ計画は著しく悪条件で (\(\mathrm{cond}(X^\top X)\approx 4.3\times10^8\)、特徴量スケールが 0.4〜406 と乖離、\(\lVert\hat\beta_{\text{OLS}}\rVert\approx 0.15\))、 係数は一部の悪条件方向に支配されて暴れるためです。本追試は当初この係数指標で評価して不安定な結果を得ましたが、 論文を一次情報として指標・前処理を揃え直して再現に至りました(詳細は「前処理とドメイン特化メモ」)。

合成データと評価方針

Q. 合成データにそのまま通常の OLS を当ててよい?

避けるべきです。合成データへ素朴に OLS を当てると係数が偏ります(E2 では相対 L2 誤差が大きく出ました)。BinAgg のバイアス補正推定を使うと真値に近づきます。論文の方針では、有用性は「回帰の統計的保証」で測るのが基本です [1]

Q. なぜ合成データの良さを TVD (周辺分布の一致) でなく回帰で測るのか?

論文の主眼が「回帰分析の保証」、すなわち点推定の正しさと信頼区間の妥当性にあるからです [1]。回帰による評価は周辺分布の一致よりも厳しく、下流の統計推論に直結する実用的な基準だと考えられます。

📘 周辺分布が一致していても、回帰係数や標準誤差が偏れば下流の推論は誤ります。回帰での評価はその点をより直接に突きます。

Q. Option A/B/C の違いは?

予算の使い道が異なる 3 つのモードです [2]

A と B の係数は分布としては同等ですが、ノイズの実現値が異なるため、個々の数値は一致しません(詳細は「BinAgg 手法詳細」を参照)。

一般化と今後

Q. この結果はどこまで一般化できる?

限定的な確認にとどまります。E1 と E2 は単一の線形生成過程に基づき、E3 は論文の D7(Air Quality)1 データセットに基づきます。論文は D1–D9 の 9 データセットを評価しており、他データ・他手法への拡張が必要、と考えられます。

Q. 次にやるべきことは?

論文 Table 2 の D7 は再現できたので、次の優先課題は以下です。

参照

  1. Lin, S., Slavković, A., & Bhoomireddy, D. R. (2026). Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees. AISTATS 2026 (PMLR). arXiv:2510.16974. https://arxiv.org/abs/2510.16974
  2. BinAgg (Python package). Shuronglin/BinAgg, commit 13c09bb (2026-05-27). https://github.com/Shuronglin/BinAgg