BinAgg 再現追試

本文で使う用語・記号の定義

用語と記法

本ページはレポート本体の補助です。本文に初出する用語の定義は、ここで確認できます。対象は「BinAgg による差分プライバシー(DP)線形回帰の再現追試」です [1][2]

💡 ヒント: 本ページを通じて、チルダ記号 \(\tilde{\cdot}\) は「ノイズを加えた DP 版の量」を表します。たとえば \(\beta\) が真の係数なら \(\tilde\beta\) はその DP 推定、\(S\) が集約量ならば \(\tilde S\) はノイズ付加後の集約量です。チルダの無い記号は非プライベート(真値あるいは素の OLS)を指します。

プライバシーの枠組み

差分プライバシー(DP)

差分プライバシーとは、「データセットから 1 人分のレコードを足し引きしても、出力の分布がほとんど変わらない」ことを数学的に保証する枠組みです。直感的には、解析結果を見ても「特定の個人が含まれていたか」をほぼ判別できないようにします。最も基本的な \((\varepsilon,\delta)\)-DP では、隣接データセット \(\mathcal{D}, \mathcal{D}'\)(1 レコードだけ異なる)に対し、任意の出力集合 \(A\) について次が成り立ちます。

\[ \Pr[M(\mathcal{D}) \in A] \le e^{\varepsilon}\,\Pr[M(\mathcal{D}') \in A] + \delta \]

ここで \(M\) はランダム化された解析(メカニズム)です。\(\varepsilon\) が小さいほど、\(\delta\) が小さいほどプライバシーは強くなります。

μ-GDP(Gaussian Differential Privacy)

μ-GDP は、ガウスノイズに基づく DP の定式化です。「個人の有無を見分けるという仮説検定が、平均差 \(\mu\) の 2 つの正規分布を見分けるのと同じくらい難しい」という形でプライバシーを表します [1]。パラメータ \(\mu\)(プライバシー予算)が小さいほどプライバシーは強く、\(\mu\) が大きいほどノイズは小さく精度は上がります。GDP は合成(複数の解析の積み重ね)の扱いが素直で、必要に応じて \((\varepsilon,\delta)\)-DP へ換算できます。

📘 出典: μ-GDP の定義と \((\varepsilon,\delta)\)-DP への換算は本手法の前提です [1]

PrivTree

PrivTree は、データ空間を再帰的に分割して DP を満たす分割(bin 構造)を作るアルゴリズムです。各領域に含まれる点の個数に応じて「さらに分割するか」を DP の下で決め、密な領域は細かく、疎な領域は粗く分割します。BinAgg では、この PrivTree で得た bin ごとに集約量を計算してから回帰を行います [1][2]。アルゴリズムの詳細は専用ページ「PrivTree」を参照してください。

集約と回帰の用語

bin・集約量(count, sum(X), sum(y))

bin とは、PrivTree で得られた空間の小領域(セル)です。各 bin について、次の 3 種類の集約量を計算します。

DP を満たすため、これらの集約量それぞれにガウスノイズを足したものを使います(\(\widetilde{\text{count}}, \tilde S, \tilde t\))。生データを直接使わず、ノイズ付きの集約量だけから回帰を組み立てるのが要点です [1][2]

感度(sensitivity)

感度とは、入力データを 1 レコード変えたときに、ある集計量が最大でどれだけ変化しうるかの上界です。たとえば count の感度は 1、sum 系の感度は各特徴量・目的変数の値域に依存します。DP では、この感度の大きさに比例したノイズを加えることで保証を得ます。感度が大きいほど必要なノイズも大きくなります。

OLS(最小二乗法)

OLS(Ordinary Least Squares、最小二乗法)は、残差二乗和を最小にする線形回帰の標準手法で、推定量は \(\hat\beta = (X^\top X)^{-1} X^\top y\) です。本研究では、ノイズを一切加えない非プライベートな参照(ベースライン)として使います。DP 推定がどれだけ真値や非プライベート推定に近いかを測る基準になります。

信頼区間の被覆率(coverage)

被覆率(coverage)とは、同じ手順を多数回繰り返したとき、構成した信頼区間(CI)が真値を含む試行の割合です。95% 信頼区間が正しく較正されていれば、被覆率は \(\approx 0.95\) になるはずです。被覆率が 0.95 を大きく下回れば CI が狭すぎ(過信)、大きく上回れば広すぎ(保守的すぎ)を意味します。DP では加えたノイズの分散まで正しく勘定できているかの健全性チェックになります。

「naive(素朴)」の 2 用法

本研究では「naive」を 2 通りの意味で使うため、混同を避けます。

⚠️ 注意: 両者はいずれも「補正を省いた比較対象」ですが、(a) は集約量レベル、(b) は合成データレベルの素朴さを指します。本文で「naive」が出たら、どちらの意味かを文脈で確認してください。

評価指標

TVD(全変動距離)

TVD(Total Variation Distance、全変動距離)は、2 つの確率分布 \(P, Q\) の隔たりを測る指標で、離散分布なら次で定義されます。

\[ \mathrm{TVD}(P, Q) = \tfrac{1}{2} \sum_{x} \bigl| P(x) - Q(x) \bigr| \]

合成データと元データの周辺分布がどれだけ一致するかを見るのに使われます。ただし本手法は回帰の推定精度を主目的とするため、TVD は主指標にはしません(補助的な確認にとどめます)。

相対 L2 係数誤差

回帰係数の推定が真値からどれだけずれているかを、係数ベクトルの相対的な大きさで測る指標です。

\[ \frac{\lVert \hat\beta - \beta \rVert_2}{\lVert \beta \rVert_2} \]

分母で正規化しているため、係数のスケールに依らず比較できます。値が小さいほど推定が真値に近いことを表します。

モーメント誤差

モーメント誤差は、合成データと元データの間で、各変数の平均(1 次モーメント)や標準偏差(2 次モーメント由来)の差を測る指標です。分布全体ではなく、まず基本的な統計量がどれだけ保たれているかを確認するために使います。

記法表

記号 読み・意味
\(\mu\) プライバシー予算(μ-GDP のパラメータ。小さいほど強いプライバシー)
\(\beta\) 真の回帰係数ベクトル
\(\tilde\beta\) DP 補正済みの係数推定(ノイズ込みで較正したもの)
\(S\) 各 bin 内の特徴量の和(sum(X))
\(\tilde S\) \(S\) にノイズを加えた DP 版
\(t\) 各 bin 内の目的変数の和(sum(y))
\(\tilde t\) \(t\) にノイズを加えた DP 版
\(W\) bin 件数の逆数を対角に並べた重み行列
\(\tilde W\) \(W\) の DP 版(ノイズ付き件数に基づく重み)
\(\tilde D\) バイアス補正行列(素朴推定の偏りを差し引く)
\(\tilde\Sigma\) 係数の分散共分散行列(サンドイッチ推定)
\(n\) 標本数
\(d\) 特徴量の次元
\(K\) bin 数

💡 ヒント: 重み行列 \(\tilde W\) は、件数の多い bin ほど信頼して重く扱うために件数の逆数を用います。\(\tilde\Sigma\) の「サンドイッチ」とは、\(\tilde\Sigma = A^{-1} B A^{-1}\) のように中央の項を両側から逆行列で挟む形を指し、モデルの誤特定やノイズを織り込んだ頑健な分散推定を与えます。

参照

  1. Lin, S., Slavković, A., & Bhoomireddy, D. R. (2026). Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees. AISTATS 2026 (PMLR). arXiv:2510.16974. https://arxiv.org/abs/2510.16974
  2. BinAgg (Python package). Shuronglin/BinAgg, commit 13c09bb (2026-05-27). https://github.com/Shuronglin/BinAgg
  3. UCI Machine Learning Repository — Air Quality Data Set(同梱 data/AirQualityUCI.csv).