ビジネスの世界から自然現象まで,この世界には至るところに「べき乗則」が潜んでいる。
「べき乗則」にしたがう分布をもつデータ群では,「ロングテール」と呼ばれる特徴的な分布が見られる。
ビジネスの世界では,この「ロングテール」に対する施策が重要といわれるが,自分のブログへのアクセスはどうなっているのだろうか。
そこで今回の記事では,本ブログにおけるアクセスデータを解析し,どのような分布になっているのかを可視化してみた。
まえがき:パレートの法則とロングテール
実際の解析結果に入る前に,そもそものきっかけとなった「パレートの法則」と「ロングテール」について簡単に説明する。
ビジネスの世界においては,「2割のファンが製品やサービスの売上の8割を占める」法則が成り立つ。この法則は,超有名な「80:20の法則=パレートの法則」と呼ばれるものだ。
本法則が成立する製品・サービス群は,「2割の売れ筋品」と「8割のそのほかの品」に分けられる。このうち,8割の方は,売上 – 商品数を軸にとった2次元プロットにおいて,恐竜のしっぽのように長く延びていることから「ロングテール」と呼ばれている。ロングテールでは,製品あたりの売上数は少ないものの,コアなファンが買ってくれる。
Amazonなんかは,このロングテールを徹底して充実させる(ニッチな商品をキッチリそろえる)ことで,売上を増やしていることで有名だ。ビジネスにおいてファンを増やすためには,このロングテールも意外と侮れないわけだ。
ブログのアクセス分布をプロットすると…
自分のブログのアクセス数を増やそうとすれば,このロングテールへの施策が大事なことはわかった。
でも,そもそも,自分のブログのアクセス数分布がどうなっているのか,今まで見たことがなかった。
そこで,ブログの各ページ(ランディングページ:LP)に対するアクセス数を,一定期間で収集して,2次元プロットから解析してみた。
解析対象とした期間と解析ツール
解析対象とする期間は,過去3年における同時期の1カ月を対象とした。具体的には,以下の通り。
- 2020年2月4日~2020年3月4日
- 2021年2月4日~2021年3月4日
- 2022年2月4日~2022年3月4日
アクセス解析には,いつも通り「Google Analytics」を用いた。
(各ページに対するセッションが表示される画面において,表示行数を増やして,上記期間のデータをエクセルファイルとしてエクスポートした。)
アクセス数とLP数のプロット
さっそく,アクセス数分布の結果を示す。
べき乗分布とパレート則の成立!
まずは,「1. 2020年の2月4日から3月4日」のアクセス分布を,以下の図に示す。縦軸はセッション(PV)数,横軸はランディングページ(LP)の総数だ。
(※ランディングページとは,ユーザーがブログを訪問して,着地(ランディング)したページのこと。)
上図からわかるように,同期間のアクセス分布は「べき乗分布」となっていることがわかった。同図の横軸:LP=100(すなわち,LP総数の約2割)を超えたあたりから,500以上にかけて,美しい「ロングテール」が見られる。この「ロングテール」は,LP総数の8割を占めていることから,本ブログへの訪問数にも「パレートの法則」がしっかりと当てはまることがわかる。
また,同図中には,破線にて,各プロットの最小2乗近似(べき近似)曲線を示している。R = 0.93程度なので,まずまず良い近似に見える。
ただし,これは縦横軸がいずれも線形なので,ロングテールの部分の近似精度は読み取られない(両対数プロットによる議論は,すべての期間(2020-2022)について紹介したのち,取り上げる)。
他の期間でも同様の分布に
次に,2021年,2022年の同期間におけるアクセス数分布を,それぞれ以下に示す。
こちらも,「べき乗分布」になっており,近似曲線の精度も2020年のプロットと同程度となっている。
両対数プロットによる議論
ここまでで,アクセス数分布が,だいたいべき乗則に沿っていることがわかった。ただ,セッション数の多いページと,ロングテールの部分との差が大きすぎて,ロングテールの部分の細かい傾向が見られなかった。
そこで,本節では,両対数プロット(※)での議論を試みる。
※両対数プロット:縦軸y,横軸xを,それぞれlog y,log xとしてデータをプロットしたもの。値の小さい範囲をスケールアップして見られる。両対数プロットにおいて,べき乗分布をもつデータは,直線となる。
「完全」な「べき乗分布」ではなかった!
以下に,両対数軸に対して,セッション数 – LP総数をプロットした図を示す。
期間1~3毎の傾向の違いを見ようと思ってプロットしたら・・・あれ,線形軸でべき乗分布に見えたデータたちが,両対数プロットで直線に並ばないではないか。
Fig. 4には,破線で,べき乗近似曲線を示している(近似曲線の式は,先ほどのFig.1 – 3とは縦軸のスケールが異なるため,若干違っているが,ざっくりとした傾向は同じだ)。
※ Fig. 1-3とは異なり,式変形がなされていない。上図において,Fig. 1-3のように\(y=Ax^{-b}\)のような関数形に式変形する方法は以下の通り。
$$
\begin{align*}
&\ln y = – b \ln x + A\\
&\ln y = – \ln x^b + A\\
&\ln y + \ln x^b = A\\
&\ln y \cdot x^b = A\\
&y \cdot x^b = e^A\\
&y = e^A x^{-b}
\end{align*}$$
「完全な」べき乗分布であれば,破線のような直線となる。しかし,データのプロットを見ると,この破線には沿っていないように見える。だいたい,LP総数が100から150のあたりに,変曲点が生じ,落ち込みが急速になっているように見える。
Fig. 4を見る限り,べき乗分布というよりは指数分布に近い(実際,近似曲線を引っ張ってみると,指数近似の方が綺麗にデータに沿っていた)。
R =0.92くらいになっているのは,おそらくこの「アクセス数が10未満=LP総数が100-150」における急峻な低下によるものと思われる。
LP > 150ではべき乗分布に
そこで,べき乗分布から外れていそうな,アクセス数の少ないLPのデータを除外して,再プロットしてみた。具体的には,セッション数TOP150をプロットし,近似曲線を引っ張ってみた。
以下の図が,その結果を示している(先ほどとは縦軸の範囲が異なることに注意)。LP150位までとすることで,セッション数が50未満のページは除外された。これによって,プロットがほとんど直線に並んだ!
同図に破線で示している近似曲線も,R>0.98以上となっており,良好な近似となっている。
以上の解析から,本ブログのアクセス分布は,
「セッション数が50以上のページの分布は『べき乗分布』となっているが,セッション数が50未満のページをも含めた分布は,『べき乗分布』から外れ,『指数分布』に近づいている」
ような分布となっていることがわかった。
*
Fig. 4や5のようなプロットを,他期間にも適用すれば,もっと詳細な分析ができそうだが・・・長くなるので,それはまた別の機会にしよう。
*
似たようなことを解析した方がおられたので,リンクを貼っておきます。
↑でも,本ページと似たような結論にたどり着いておられます。セッション数が極端に少ないLPまで含めると,べき乗近似というよりは指数近似の方に近づいています。
やはり,個人ブログで,それなりのアクセス数(>100 / 月)がある記事を,100以上維持するのは難しいのでしょうか。Fig. 4だと,アクセス数50以上の変曲点を,もう少し右の方までもっていくこと,これを達成するのが,個人ブログの難しいところだと考えられます。
まとめ
以上,ブログのアクセス解析に見る「べき乗分布」のお話でした。
個人ブログでも,数年続けていると,それなりにアクセスデータが溜まります。
今回のように,ごく簡単な解析でも,面白い事実が見つかるものなんですね。
またの機会に,もう少し詳しい解析もやってみようかと思っています。
(参考文献)