evalationmemo.txt 4.1 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687
  1. [出力PDF一覧と内容まとめ]
  2. (注) {NOISE} は main.py の noise_model_list の要素名に置換されます (例: Depolar)。
  3. PDF はカレントディレクトリに保存。幅系グラフは delta=0.1 (既定) を使用。
  4. pickle は ./outputs/ 以下に保存されるもののみ明記しています。
  5. 1) plot_accuracy_vs_budget_{NOISE}.pdf
  6. - X軸: 目標予算 (Budget target)
  7. - Y軸: 正答率の平均 (各ペアでベストリンクを正しく当てた割合の平均)
  8. - 系列: スケジューラごと
  9. - CI帯: なし (平均のみ)
  10. - Pickle: ./outputs/plot_accuracy_vs_budget_{NOISE}.pickle (必要に応じて利用/保存)
  11. 2) plot_value_vs_used_{NOISE}.pdf
  12. - X軸: 実際に使用した測定コストの平均 (Total measured cost: used)
  13. - Y軸: 総価値の平均 (各ペアの重要度 I_d × 推定忠実度 f_hat × 投入バウンス数 B の総和)
  14. - 系列: スケジューラごと
  15. - CI帯: なし
  16. - Pickle: なし (PDFのみ)
  17. 3) plot_value_vs_budget_target_{NOISE}.pdf
  18. - X軸: 目標予算 (Budget target)
  19. - Y軸: 総価値の平均 (定義は上と同じ: I_d × f_hat × B の総和)
  20. - 系列: スケジューラごと
  21. - CI帯: なし
  22. - Pickle: なし (PDFのみ)
  23. 4) plot_widthsum_alllinks_vs_budget_{NOISE}.pdf
  24. - 定義: 全リンクの (UB - LB) の総和 (重要度は掛けない)
  25. UB/LB は Hoeffding 半径に基づく信頼区間から計算
  26. - X軸: 目標予算 (Budget target)
  27. - Y軸: 全リンク (UB - LB) 総和の反復平均
  28. - 系列: スケジューラごと
  29. - CI帯: あり (平均 ± 95% CI)
  30. - Pickle: ./outputs/plot_widthsum_alllinks_vs_budget_{NOISE}.pickle
  31. 5) plot_minwidthsum_perpair_vs_budget_{NOISE}.pdf
  32. - 定義: ペアごとに (UB - LB) の最小値を取り、その総和 (重要度は掛けない)
  33. 推定が無いペアは幅=1.0として加算 (保守的扱い)
  34. - X軸: 目標予算 (Budget target)
  35. - Y軸: ペア最小幅の総和の反復平均
  36. - 系列: スケジューラごと
  37. - CI帯: あり (平均 ± 95% CI)
  38. - Pickle: ./outputs/plot_minwidthsum_perpair_vs_budget_{NOISE}.pickle
  39. 6) plot_widthsum_alllinks_weighted_vs_budget_{NOISE}.pdf
  40. - 定義: 全リンクの I_d × (UB - LB) の総和 (重要度を幅に乗算)
  41. - X軸: 目標予算 (Budget target)
  42. - Y軸: 重み付き全リンク幅総和の反復平均
  43. - 系列: スケジューラごと
  44. - CI帯: あり (平均 ± 95% CI)
  45. - Pickle: ./outputs/plot_widthsum_alllinks_weighted_vs_budget_{NOISE}.pickle
  46. 7) plot_minwidthsum_perpair_weighted_vs_budget_{NOISE}.pdf
  47. - 定義: ペアごとの最小幅に I_d を掛け、その総和 (I_d × min_l(UB - LB) の合計)
  48. 推定が無いペアは I_d × 1.0 を加算 (保守的扱い)
  49. - X軸: 目標予算 (Budget target)
  50. - Y軸: 重み付きペア最小幅総和の反復平均
  51. - 系列: スケジューラごと
  52. - CI帯: あり (平均 ± 95% CI)
  53. - Pickle: ./outputs/plot_minwidthsum_perpair_weighted_vs_budget_{NOISE}.pickle
  54. 8) plot_importance_discovery_value_vs_budget_<noise>.pdf
  55. 閾値 y をどのように決定するのか
  56. - 1 素朴にユーザーが直接指定する。
  57. - 例 y = 0.01
  58. - 2 予算Cとdeltaから理論的に導出した固定基準に従って決める。
  59. - 総測定予算C 、 どの程度の誤判定率をユーザーが望むのかによって閾値y
  60. を決定する
  61. - Hoeffding半径について
  62. - f(N,delta) = r であらわされる
  63. - 入力
  64. - サンプル数 N
  65. - 平均を計算するために集めたデータの数。
  66. - 今回でいうとバウンス数
  67. - 許容誤差確率 delta
  68. - "どのくらいの確率で誤判定を許すか"を表す値。
  69. - delta = 0.01ならば「誤差がこの信頼区間を超える確率は高々1%」という意味。
  70. - 出力
  71. - Hoeffding半径 r
  72. - サンプル平均と真の平均が高々この値以内に収まることを保証する幅。
  73. - 意味すること
  74. - 真の平均は推定平均の周り±rの区間に含まれる確率が 1 - delta 以上である