BinAgg 再現追試レポート

差分プライバシー下の線形回帰手法 BinAgg [1] の公式実装 [2] を固定環境で動かし、論文の中核的な主張（妥当な信頼区間・回帰の保証で測る合成データの有用性）を再現追試した実証研究レポートである。対象は tpdp2026 Issue #16。

📘 本ページは論文体のレポート本体である。用語の定義は「用語と記法」、手法の詳細は「BinAgg 手法詳細」、分割アルゴリズムは「PrivTree」、データ前処理とドメイン知識は「前処理とドメイン特化メモ」、環境構築・再現手順は「エンジニアリングと再現手順」、よくある疑問は「QA・メモ」に分けて掲載している。

実行環境: Python 3.12.12 / numpy 2.4.6 / scipy 1.17.1 / pandas 3.0.3。全乱数はシード固定。本レポートの数値は results/ の生成物に対応する（再現手順はエンジニアリングと再現手順を参照）。

1. アブストラクト

差分プライバシー（個々のレコードの有無が出力からほとんど判別できないことを保証する枠組み [1]）の下での線形回帰について、論文 [1] が提案する手法 BinAgg の公式実装 [2] を固定環境で動かし、中核的な主張を追試した。結論として、主張はおおむね再現された。 すなわち、(i) この手法が与える信頼区間はほぼ名目どおりの被覆を達成し、ノイズを考慮しない素朴な区間が被覆を大きく失うのと対照的であること、 (ii) 合成データに素朴に回帰すると係数が偏る一方、この手法のバイアス補正がそれを回復すること、 (iii) 実データ（論文の D7 = UCI Air Quality）でも、論文と同じ予測誤差 RelMSE で評価すると、非プライベート OLS と BinAgg の値が論文 Table 2 の報告値（0.441 / 0.463）を再現すること、を確認した（§5）。

これら中核の確認に加え、論文のもう一つの主眼である合成データの下流 ML 評価（§5.2.2 / Table 3）や、比較手法 AdaSSP・他データ（Abalone/Appliances 等）への拡張も best-effort で追試し、いずれも論文と整合する挙動（予測精度の桁・プライバシーによる劣化の向き・手法の優劣 BinAgg < AdaSSP）を確認した（発展実験）。残課題は、(a) 競合 DP-SDG 手法（AIM 等）・DP-GD の実装による優劣検証、(b) 唯一未同定の他データ D3 と感度分析、 (c) 悪条件な実計画における係数推定の安定化（標準化・次元削減）であり、一部は補助タブで着手済みである（§7）。

2. イントロダクション

差分プライバシー (DP) の下で線形回帰を行うと、集約量に加えるノイズが二つの歪みを生む。第一に、ノイズ入りの二乗和が真の二乗和より系統的に大きくなり、点推定が 0 方向へ偏る。第二に、ノイズの分散を無視した標準誤差は過小評価となり、信頼区間が狭くなりすぎて被覆を失う [1]。論文 [1] の BinAgg は、バイアス補正項とサンドイッチ分散推定でこの二つに同時に対処し、さらに同一のプライバシー予算で合成データも生成できると主張する。合成データの良否を「周辺分布の保存」ではなく「回帰分析の保証（点推定の正しさと信頼区間の妥当性）」で測る点が特徴である。

本レポートの貢献は次の三点である。

公式実装 [2] を固定環境で動かし、論文の主張（妥当な信頼区間）を被覆率という直接的な指標で定量検証した（E1）。
合成データ上の回帰について、補正なしの偏りと BinAgg の補正による回復を対比し、有用性を回帰の保証で測った（E2）。
実データ（論文 D7 = UCI Air Quality）で論文の設定（\(n=9357,d=12\)・予測誤差 RelMSE・non-private bounds）に準拠して評価し、論文 Table 2 の報告値（OLS 0.441 / BinAgg 0.463）を再現した（E3）。あわせて、直観的な前処理（欠損行削除・補完）と係数指標での比較を補足実験として行い、予測誤差 RelMSE の頑健性を確認した（§6, 補足実験）。

なお、論文のもう一つの主眼である合成データの下流 ML 評価（§5.2.2 / Table 3）、および比較手法・他データセットへの拡張は、 best-effort の発展実験として別途まとめた（発展実験）。本体（E1–E3）はこれらと独立に成立する中核検証に絞っている。

3. 関連技術・対象手法の概要

BinAgg（Binning-Aggregation）は μ-GDP（Gaussian Differential Privacy。\(\mu\) が小さいほど強い保護 [1]）の下で、(1) PrivTree [4] でデータ空間を private に分割（binning）、(2) 各 bin の件数・特徴量の和・目的変数の和に Gaussian ノイズを加える、(3) ノイズ入り集約からバイアス補正済みの重み付き最小二乗で回帰する、という流れを取る [1][2]。点推定と信頼区間は次式で与えられる（記号は用語と記法、導出と直感はBinAgg 手法詳細、分割の詳細は PrivTree を参照）。

\[\tilde\beta = \bigl(\tilde S^\top \tilde W \tilde S - \tilde D\bigr)^{-1}\tilde S^\top \tilde W \tilde t, \qquad \tilde\Sigma = \tilde M^{-1}\,\tilde H\,\tilde M^{-1}.\]

合成データ生成（Algorithm 3）は同じ集約から bin 単位で標本を作り、回帰と同じノイズ実現を共有することで 同一予算で回帰と合成の両方を出力できる（Corollary 3.1）[1]。実装は回帰のみ (A)・回帰＋合成 (B)・合成のみ (C) の 3 つの使い方を提供する [2]。

4. 実験設定と評価方法

本追試は次の 3 つの問いに答えることを目的とする。

(Q1) 統計的保証: BinAgg の信頼区間は名目どおりの被覆を達成するか。
(Q2) 合成データの有用性: BinAgg が生む合成データは、回帰の点推定を偏りなく回復できるか。
(Q3) 外的妥当性: 実データで論文の報告値を再現できるか。

これらに答えるため、評価軸は周辺分布の一致（TVD）ではなく回帰の保証に置く [1]。Q1・Q2 は真値や名目被覆と照合できるよう生成過程が既知のシミュレーションで、Q3 は論文準拠の実データで検証する。各問いは §5 の E1・E2・E3 に一対一で対応する（指標・データの厳密な定義は用語と記法と前処理とドメイン特化メモ）。

主指標（評価する量と、その「良い向き」）:

区分	指標	良い向き	対応
シミュ	95% CI 被覆率	\(\approx 0.95\)	E1
シミュ	係数バイアス / 相対 L2 係数誤差 \(\lVert\hat\beta-\beta\rVert_2/\lVert\beta\rVert_2\)	小さいほど良い	E1 / E2
実データ	予測誤差 RelMSE \(=\lVert X\hat\beta-y\rVert_2^2/\lVert y\rVert_2^2\)	小さいほど良い	E3

ベースライン: 非プライベート OLS（参照値）、naive 推定量（補正なし）、合成データへの素朴 OLS。

プライバシー予算: μ-GDP で \(\mu \in \{0.5,\,1.0,\,2.0,\,5.0\}\)（小さいほど強い保護）。

データ:

シミュレーション: \(X\sim\mathrm{Uniform}(0,10)^3\)、\(\beta=[1.5,-2,0.5]\)、\(y=X\beta+\varepsilon,\ \varepsilon\sim\mathcal{N}(0,1)\)、\(n=2000\)。
実データ: UCI Air Quality（目的 CO(GT)）。論文の D7 設定に準拠し \(n=9357\)・\(d=12\)（-200 も全特徴も残す）。

bounds の扱い: DP では本来 bounds をデータに依存させてはならない。シミュは既知の生成分布から与える。実データは論文に倣い non-private な（データ由来の）bounds を用いて手法比較する（DP ではない点を明記。詳細は前処理とドメイン特化メモ）。

4.1 評価の限界（先に明記）

本実験はシミュレーション 1 種類の生成過程と実データ 1 種類に基づく限定的な確認である。一般化には設定（特徴分布・次元・条件数・誤差分布）と複数データへの拡張が必要であり、§7 に残課題として整理する。

5. 実験結果

§4 の 3 つの問いに対応して 3 実験を行う。各実験のデータ・指標・事前の期待・主結果を以下に整理する（「期待」は事前予想、「主結果」は実測）。

実験	問い	データ	主指標	期待	主結果
E1	CI は名目被覆を達成するか (Q1)	シミュ (\(n=2000\), \(T=300\))	95% CI 被覆率	BinAgg \(\approx0.95\), naive \(\ll0.95\)	0.92–0.93 / naive 0.08–0.32
E2	合成データ回帰の偏りを補正が回復するか (Q2)	シミュ (20 seed)	相対 L2 係数誤差	naive \(\gg\) BinAgg \(\approx\) OLS	0.58→0.06 (naive) vs 0.09→0.02 (BinAgg)
E3	実データで論文値を再現するか (Q3)	UCI Air Quality (D7, \(n=9357,d=12\))	RelMSE	論文 Table 2 と一致	OLS 0.441 / BinAgg 0.450（論文 0.441/0.463）

5.1 E1 — 信頼区間は名目被覆を達成するか（シミュレーション, \(T=300\) 試行/\(\mu\)）

BinAgg（バイアス補正版）と naive（補正なし・ノイズ分散を無視）について、各 \(\mu\) で \(T=300\) 試行の 95% CI 被覆率・平均絶対バイアス・平均 CI 幅を測った（図 5.1・表 5.1）。

E1: CI coverage and coefficient bias vs μ

図 5.1: 被覆率（左）と係数バイアス（右）の \(\mu\) 依存。破線は名目水準 0.95。

表 5.1: μ 別の被覆率・平均絶対バイアス・平均 CI 幅。

μ	被覆率 BinAgg(補正)	被覆率 naive	平均\|バイアス\| BinAgg	平均\|バイアス\| naive	平均 CI 幅
0.5	0.917	0.077	0.064	0.066	0.518
1.0	0.931	0.149	0.032	0.032	0.291
2.0	0.934	0.227	0.019	0.019	0.181
5.0	0.918	0.318	0.012	0.012	0.103

事実: BinAgg の補正版 CI は全 \(\mu\) で被覆率 0.92–0.93 と名目水準 0.95 に近い。一方、ノイズの分散を無視した naive 区間の被覆率は 0.08–0.32 と大きく不足する。CI 幅は \(\mu\) が増えるにつれ単調に縮小する（0.52→0.10）。
考察: 「妥当な信頼区間」という主張（Q1）は再現された。点推定のバイアスは本設定（条件数の良い一様計画）では補正版と naive でほぼ同等であり、両者を分けているのは点推定よりも分散推定（サンドイッチ標準誤差）だと解釈できる。被覆率が 0.95 を僅かに下回るのは、この信頼区間が漸近的であることに伴う有限標本の近似誤差と整合的である（§7。背景はQA・メモ）。

5.2 E2 — 合成データ回帰の偏りを補正が回復するか（シミュレーション, 20 シード平均）

同じ生成過程で、真の係数 \(\beta\) に対する相対 L2 係数誤差を、3 通りの推定で比較した（図 5.2・表 5.2）: 非プライベート OLS（元データ・参照値）、合成データへの素朴 OLS（補正なし）、BinAgg のバイアス補正推定 \(\tilde\beta\)。

E2: regression utility vs μ

図 5.2: 相対 L2 係数誤差の \(\mu\) 依存（小さいほど良い）。点線は OLS(元データ) の参照値。

表 5.2: 相対 L2 係数誤差 \(\lVert\hat\beta-\beta\rVert_2/\lVert\beta\rVert_2\)（小さいほど良い）。

μ	OLS(元データ, 参照)	naive OLS(合成)	BinAgg DP 回帰 (\(\tilde\beta\))
0.5	0.003	0.575	0.093
1.0	0.003	0.327	0.058
2.0	0.003	0.172	0.031
5.0	0.003	0.064	0.018

事実: 合成データへ素朴に OLS を当てると係数誤差が大きい（\(\mu=0.5\) で 0.58）。BinAgg のバイアス補正推定は同一データから誤差 0.09 と約 1 桁小さくなり、\(\mu\) が大きくなるにつれて OLS(元データ) の 0.003 に漸近する。
考察: 「合成データをそのまま回帰すると偏り、補正によって真値を回復できる」という主眼（Q2）を確認した。有用性を回帰の保証で測る評価軸は、周辺分布の一致を見るより厳しく、下流の統計推論に直結する実用的な基準である。

5.3 E3 — 実データ再現: UCI Air Quality（論文準拠 D7, \(n=9357\), \(d=12\), 100 反復）

論文 [1] の実データ設定（§5.2.1 Table 2 の D7）に準拠し、予測誤差 RelMSE \(=\lVert X\hat\beta-y\rVert_2^2/\lVert y\rVert_2^2\) で評価する。データは -200 も全 12 特徴も残し（\(n=9357,d=12\)）、bounds はデータ由来の non-private な min/max を用いる。論文の比較手法のうち AdaSSP・DP-GD は BinAgg パッケージ外のため、本追試は BinAgg と非プライベート OLS のみを実行し、論文の報告値を並べて照合する（計画と逸脱は docs/plans/E3-paper-faithful.md）。

E3: prediction RelMSE vs μ, and μ=1 vs paper Table 2 (D7)

図 5.3: 予測 RelMSE の \(\mu\) 依存（左）と、\(\mu=1\) での論文 Table 2（D7）との比較（右）。

表 5.3: \(\mu=1\) における各手法の RelMSE と論文 D7 報告値の照合。

手法	本追試 RelMSE (μ=1)	論文 D7 報告値
非プライベート OLS	0.441	0.441
BinAgg	0.450	0.463
AdaSSP	— (対象外)	0.682
DP-GD	— (対象外)	0.852

表 5.4: BinAgg RelMSE の \(\mu\) 依存（100 反復, mean±std。OLS=0.441 が参照）。

μ	0.5	1.0	2.0	5.0
RelMSE	0.509±0.032	0.450±0.006	0.443±0.001	0.444±0.001

事実: 非プライベート OLS の RelMSE は 0.441 で論文 D7 と完全一致、BinAgg は μ=1 で 0.450 と論文の 0.463 によく一致した。RelMSE は μ が増えるにつれて OLS の 0.441 に漸近する。論文の主要結果（実データでの予測精度）を再現できた（Q3）といえる。
考察: 予測誤差 RelMSE は、DP 推定も OLS も同じ \(y\) を予測するため、データの素性（欠損 -200 や悪条件性）が両者に等しく効き、比較が頑健になる。論文が係数誤差ではなく RelMSE を採るのはこの頑健性のためだと解釈できる。
bounds の効き（補足）: 同じ設定で bounds をドメイン知識の緩い値に替えると BinAgg の RelMSE は \(\approx 1.0\) に悪化した。論文が non-private（データ由来）の締まった bounds を使う重要性を確認した。

💡 直観的な前処理（欠損行の削除・補完）・標準化・係数レベルの指標での比較は補足実験に、比較手法 AdaSSP・他データセット（Abalone/Wine/Appliances）・反復数・合成データの下流 ML 評価（論文 §5.2.2 / Table 3）の検討は発展実験にまとめた。要点だけ述べると、Abalone・Appliances でも論文 RelMSE をほぼ再現し、手法の優劣 BinAgg < AdaSSP も再現、下流 ML でも合成データが論文と同オーダーの実用的な予測性能を与えることを確認した。

6. 考察

3 実験を通じて、論文 [1] の中核的な主張は本実験条件で再現された（Q1: E1、Q2: E2、Q3: E3）。 E1 は妥当な信頼区間を被覆率で直接確認し、補正版と naive を分けるのが分散推定の質であることを示した。 E2 は合成データの有用性が回帰の保証で測れること（素朴 OLS の偏りを補正が回復すること）を示した。 E3 は論文の実データ設定に準拠して予測 RelMSE で Table 2 の値を再現した。

統合的な含意として、本手法の有効性は評価軸の設計と表裏一体である。シミュレーションでは被覆率という直接的な指標が「妥当な信頼区間」を検証でき、実データでは予測 RelMSE が——DP 推定も OLS も同じ \(y\) を予測するため——欠損や悪条件に対して頑健な比較を与える。すなわち、論文が周辺分布の一致ではなく回帰の保証で評価する設計は、再現追試の立場からも妥当だと確認できた。一方、係数レベルの指標は悪条件な実計画では脆く、前処理（欠損の削除・補完）や指標の選択が結果を大きく動かす点は補足実験・発展実験で示した。

これら中核 3 実験の確認は、本体外の best-effort 追試——合成データの下流 ML 評価（§5.2.2）、比較手法 AdaSSP、他データ（Abalone/Appliances）——でも質的に支持され、予測精度の桁・劣化の向き・手法の優劣が論文と整合した。論文の主張が単一のシミュレーション設定・単一データの産物ではないことを補強する結果である（詳細は発展実験）。

7. 残課題

研究上・運用上の限界を正直に列挙する（一部は発展実験・補足実験で着手済み）。未着手の実験は GitHub Issues で追跡する（gghatano/tpdp2026-binagg/issues）。

合成データの下流 ML 評価（論文 §5.2.2）: 4 データ（Abalone/Wine/Air Quality/Appliances）で合成データから非線形 ML（GradBoost/RF/SVR/MLP）を学習し実テストで評価し、Table 3 の Original/BinAgg と同オーダーを best-effort で再現した（発展実験、→ #1）。残るは競合 DP-SDG 手法（AIM 等）の実装。
比較手法: AdaSSP は best-effort で追加し優劣 BinAgg < AdaSSP を再現（発展実験）。 DP-GD はチューニング感度・コストのため未実施（→ #2）。
データセットの広がり: 同定できた Abalone・Appliances は論文値をほぼ再現、Wine の乖離は red/white の列アラインメント由来と判明し解消（OLS 0.016 / BinAgg 0.021、発展実験）。さらに D1=LT-FS-ID(WSN)・D2=BUPA Liver・D5=Parkinsons Telemonitoring・D9=Superconductivity を同定し、 D2/D5/D9 を best-effort 追試（D3 のみ未同定）（→ #3）。反復は論文と同じ 100 に揃えた。
漸近信頼区間の有限標本近似: 被覆率が 0.95 を僅かに下回る点の、\(n\)・bin 数を増やした感度分析は未実施（→ #4）。
bounds の与え方: 実データでは論文に倣い non-private な bounds を用いた（DP ではない）。bounds を private に推定する経路は未評価（→ #5）。
悪条件データでの係数推定: 予測 RelMSE は頑健だが係数レベルは悪条件で不安定。標準化で条件数を約 400 分の 1 に下げ安定化できるが切片なしでは予測精度とトレードオフ（補足実験）。切片付き・共線性整理・次元削減が今後の課題（→ #6）。

8. 結論

公式実装 BinAgg を固定環境で動かし、論文 [1] の中核的な主張を再現できた。すなわち、 (i) バイアス補正とサンドイッチ分散推定による 95% 信頼区間はほぼ名目どおりの被覆を達成し、ノイズを無視する素朴な推定は被覆を失う (E1)、(ii) 合成データ上の回帰は補正なしでは偏り、BinAgg の補正が真値を回復する (E2)、 (iii) 実データ（D7 = Air Quality）で論文の設定に準拠して評価すると、予測誤差 RelMSE が論文 Table 2 の報告値（OLS 0.441 / BinAgg 0.463）を再現する (E3)。予測誤差 RelMSE は、DP 推定と OLS が同じ \(y\) を予測することで欠損や悪条件に対して頑健であり、これが論文の評価軸の妥当性を支える。残課題は §7 の各項（他手法・他データへの拡張、感度分析、悪条件データでの係数推定の安定化）である。

9. 参考文献

Lin, S., Slavković, A., & Bhoomireddy, D. R. (2026). Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees. AISTATS 2026 (PMLR). arXiv:2510.16974. https://arxiv.org/abs/2510.16974
BinAgg (Python package). Shuronglin/BinAgg, commit 13c09bb (2026-05-27). https://github.com/Shuronglin/BinAgg
UCI Machine Learning Repository — Air Quality Data Set（同梱 data/AirQualityUCI.csv）.
Zhang, J., Xiao, X., & Xie, X. (2016). PrivTree: A Differentially Private Algorithm for Hierarchical Decompositions. ACM SIGMOD 2016, pp. 155–170. https://doi.org/10.1145/2882903.2882928（BinAgg の binning が用いる分割アルゴリズム。詳細は[PrivTree](privtree.html)）