ABテストの方法と検定について (前編): ABテストのデザインについて説明します

この記事は約5分で読めます。

ABテストの使いどころ

ABテストの威力が発揮されるのは,2通りの状況があります。

  • Webサイトの最適化や,(web)広告の効果検証を行う場合
  • ダイエットやサプリの効果検証,社内教育などの効果検証

ABテストは,学術研究の領域では,群比較実験あるいは一事例実験やN of 1 trialと呼ばれます。

  • 群比較実験: ダイエットをするグループとしないグループで分けるなど,異なる人を集めてグループを作る。グループ (群) 間で平均値などを比較する手法。複数の人から1回だけデータを取ることが多い。
    →並行テスト
  • 一事例実験: 一人の人に対して,ダイエットをする前 (ベースライン期) とした後 (処遇気) など前後で比較する手法。一人の人から反復してデータを取るため,一事例実験やN of 1 trialと呼ばれる。
    →逐次テスト

群比較実験は,王道の実験方法です。グループをランダムに分けることで,因果推論を行うことが可能です。
分析も比較的シンプルなものになることが多いです。

Webサイトの最適化はこの群比較実験 (→並行テスト) を使用することが多いです。

一方で,群比較実験を行うことが適切ではなく,一事例実験 (→逐次テスト) のような形式が適切であることもあります。

本記事では,群比較実験=並行テスト,一事例実験=逐次テストという理解で記述しています。厳密には異なるものですが,ほぼ同じものという理解で十分です。

データ収集のデザイン

ABテストは大きく分けて,2つの手法があります。
ここでは,Webサイトの最適化を例に説明してみます。

以下の図のように,左上のコンテンツを「A」にすべきか「B」にすべきかを知りたいという状況を考えます。例えば,LPの構成をどのようにしたら,コンバージョン率やクリック率が上がるのかなどを知りたい状況を考えましょう。

ABテストの説明用の図
図. ABテストの説明: Webサイトの一部を変更して,どちらが利益に寄与するかを調べる。

効果検証のやり方には,並行テストと逐次テストがあります。

  • 並行テスト: 同時期にAとBの2バージョンを実施する手法。ユーザには,2つのバージョンのいずれかがランダムに提示される
  • 逐次テスト: 異なる時期にAとBの2バージョンを実施する手法。例えば,
    6~8月はバージョンAを提示し,9~11月はバージョンBを提示するなど
逐次テストと並行テストの説明用の図
図. 逐次テストと並行テストの違いを説明する図

並行テストが望ましい場合

  • リンクをランダムに変更できるwebサイトの最適化や,web広告の効果検証などに向いている
    • 同時期に行えることやランダムに割り当てを行うことができるため,因果推論が行いやすい (原因がはっきりと特定しやすい)
    • 並行テストが行える状況では,逐次テストより並行テストの方が望ましい

逐次テストが望ましい場合

  • リンクをランダムに割り当てるなどの設定が面倒あるいはシステム上難しい場合。
  • テレビCMなどのマスメディア広告など,ユーザによってバージョンを変えることができない場合。
  • Youtube広告など,広告と購買行動が分離している場合。
    • クリック率などの指標がとれないため,時期をずらして売上高などで比較する必要が生じる。
  • ダイエットサプリの効果検証や,社員教育の効果検証など
    • データが多く取れない場合: 社内の新入社員の人数などは上限が決まっている。
    • 倫理的にランダムな割り当てが難しい場合: 効果が期待できる教育法Aと,効果が薄そうな教育法Bがあった時に,Bの条件に割り当てられる人は不利益を被る。

ABテストにおける分析方法

基本的には,バージョンAとバージョンBにおける,(i) 水準の差か,(ii) 傾きの差を確認します。

Webサイトの1日のPV数を分析するという状況を考えましょう。PV数は4月1日から記録し始め徐々に増えていっているとします。切片 (4/1のPV数) をa, 傾き (1日のPV数の増加数) をbとしましょう。

つまり,t日目のPV数 = a + b × tとなります。

  • 水準: 切片aのことです。例では,4/1のPV数です。
  • 傾き: bのことです。

この直線の式を,バージョンBとバージョンAで2通り用意して,切片と傾きを比較する (というイメージです)。
例えば,バージョンBの方がクリック率などを上昇させる効果があると考えていれば,

  • 並行テストでは: バージョンBにおける,水準か傾きが大きくなる = 効果があります
  • 逐次テストでは: バージョンBを提示した時期 (フェーズBや処遇期と呼ぶ) における,水準か傾きが大きくなる = 効果があります

下の図は,並行テストにおいて,傾きが異なる (効果がある) 例です。

並行テストの例
図. 並行テストにおいてグループ間で傾きが異なる例

下の図は,逐次テストにおいて,水準が異なる (効果がある) 例です。

一事例実験で水準差がある場合の図
図. 逐次テストにおいて,水準の差がある場合

ABテストの検定方法

ABテストを実行するツールでは,t検定やカイ二乗検定によって分析することが多いと思います。これらの手法は,要するにグループA (時期A) とグループB (時期B) の平均値に差があるかどうかを調べています。

群比較実験 (並行テスト)では,t検定やカイ二乗検定を行うことがほとんどだと思います。
逐次テストでは,厳密には時系列分析などやや特殊な分析を行う方が望ましいです。一方で,単にt検定を行う場合も見かけます。

しかし,並行テストでも逐次テストでも,単純なt検定やカイ二乗検定では,問題が生じます。そのため,単純なt検定などを使用することは望ましくありません。
どのような点で望ましくないのかは,後編で紹介します。

統計的仮説検定: t検定やカイ二乗検定を仮説検定と呼びます。
例えば,バージョンAのクリック率 (平均) が10%で,バージョンBのクリック率が12%だったとします。平均値 (クリック率) の差は2%ですが,これが偶然か偶然じゃないか,つまり意味のある差なのか偶然の差なのかを,はっきりさせる手法を仮説検定と言います。統計的に意味のある差 (有意差と言います) であれば,バージョンBの方が良いと言えます。
統計的仮説検定についてはこちらの記事で詳しく説明しています。

コメント