ABテストの使いどころ
ABテストの威力が発揮されるのは,2通りの状況があります。
- Webサイトの最適化や,(web)広告の効果検証を行う場合
- ダイエットやサプリの効果検証,社内教育などの効果検証
ABテストは,学術研究の領域では,群比較実験あるいは一事例実験やN of 1 trialと呼ばれます。
群比較実験は,王道の実験方法です。グループをランダムに分けることで,因果推論を行うことが可能です。
分析も比較的シンプルなものになることが多いです。
Webサイトの最適化はこの群比較実験 (→並行テスト) を使用することが多いです。
一方で,群比較実験を行うことが適切ではなく,一事例実験 (→逐次テスト) のような形式が適切であることもあります。
データ収集のデザイン
ABテストは大きく分けて,2つの手法があります。
ここでは,Webサイトの最適化を例に説明してみます。
以下の図のように,左上のコンテンツを「A」にすべきか「B」にすべきかを知りたいという状況を考えます。例えば,LPの構成をどのようにしたら,コンバージョン率やクリック率が上がるのかなどを知りたい状況を考えましょう。
効果検証のやり方には,並行テストと逐次テストがあります。
並行テストが望ましい場合
- リンクをランダムに変更できるwebサイトの最適化や,web広告の効果検証などに向いている
- 同時期に行えることやランダムに割り当てを行うことができるため,因果推論が行いやすい (原因がはっきりと特定しやすい)
- 並行テストが行える状況では,逐次テストより並行テストの方が望ましい
逐次テストが望ましい場合
- リンクをランダムに割り当てるなどの設定が面倒あるいはシステム上難しい場合。
- テレビCMなどのマスメディア広告など,ユーザによってバージョンを変えることができない場合。
- Youtube広告など,広告と購買行動が分離している場合。
- クリック率などの指標がとれないため,時期をずらして売上高などで比較する必要が生じる。
- ダイエットサプリの効果検証や,社員教育の効果検証など
- データが多く取れない場合: 社内の新入社員の人数などは上限が決まっている。
- 倫理的にランダムな割り当てが難しい場合: 効果が期待できる教育法Aと,効果が薄そうな教育法Bがあった時に,Bの条件に割り当てられる人は不利益を被る。
ABテストにおける分析方法
基本的には,バージョンAとバージョンBにおける,(i) 水準の差か,(ii) 傾きの差を確認します。
この直線の式を,バージョンBとバージョンAで2通り用意して,切片と傾きを比較する (というイメージです)。
例えば,バージョンBの方がクリック率などを上昇させる効果があると考えていれば,
- 並行テストでは: バージョンBにおける,水準か傾きが大きくなる = 効果があります
- 逐次テストでは: バージョンBを提示した時期 (フェーズBや処遇期と呼ぶ) における,水準か傾きが大きくなる = 効果があります
下の図は,並行テストにおいて,傾きが異なる (効果がある) 例です。
下の図は,逐次テストにおいて,水準が異なる (効果がある) 例です。
ABテストの検定方法
ABテストを実行するツールでは,t検定やカイ二乗検定によって分析することが多いと思います。これらの手法は,要するにグループA (時期A) とグループB (時期B) の平均値に差があるかどうかを調べています。
群比較実験 (並行テスト)では,t検定やカイ二乗検定を行うことがほとんどだと思います。
逐次テストでは,厳密には時系列分析などやや特殊な分析を行う方が望ましいです。一方で,単にt検定を行う場合も見かけます。
しかし,並行テストでも逐次テストでも,単純なt検定やカイ二乗検定では,問題が生じます。そのため,単純なt検定などを使用することは望ましくありません。
どのような点で望ましくないのかは,後編で紹介します。
コメント