ブログのアクセス数分布でも「ロングテール」が成立していた話

ビジネスの世界から自然現象まで,この世界には至るところに「べき乗則」が潜んでいる。

「べき乗則」にしたがう分布をもつデータ群では,「ロングテール」と呼ばれる特徴的な分布が見られる。

ビジネスの世界では,この「ロングテール」に対する施策が重要といわれるが,自分のブログへのアクセスはどうなっているのだろうか。

そこで今回の記事では,本ブログにおけるアクセスデータを解析し,どのような分布になっているのかを可視化してみた。

まえがき:パレートの法則とロングテール

実際の解析結果に入る前に,そもそものきっかけとなった「パレートの法則」と「ロングテール」について簡単に説明する。

ビジネスの世界においては,「2割のファンが製品やサービスの売上の8割を占める」法則が成り立つ。この法則は,超有名な「80:20の法則=パレートの法則」と呼ばれるものだ。

引用元URL:https://www.onemarketing.jp/lab/btob-marketing/pareto-principle_201 [Access: 2022/3/6]

本法則が成立する製品・サービス群は,「2割の売れ筋品」と「8割のそのほかの品」に分けられる。このうち,8割の方は,売上 – 商品数を軸にとった2次元プロットにおいて,恐竜のしっぽのように長く延びていることから「ロングテール」と呼ばれている。ロングテールでは,製品あたりの売上数は少ないものの,コアなファンが買ってくれる。

Amazonなんかは,このロングテールを徹底して充実させる(ニッチな商品をキッチリそろえる)ことで,売上を増やしていることで有名だ。ビジネスにおいてファンを増やすためには,このロングテールも意外と侮れないわけだ。

ブログのアクセス分布をプロットすると…

自分のブログのアクセス数を増やそうとすれば,このロングテールへの施策が大事なことはわかった。

でも,そもそも,自分のブログのアクセス数分布がどうなっているのか,今まで見たことがなかった。

そこで,ブログの各ページ(ランディングページ:LP)に対するアクセス数を,一定期間で収集して,2次元プロットから解析してみた。

解析対象とした期間と解析ツール

解析対象とする期間は,過去3年における同時期の1カ月を対象とした。具体的には,以下の通り。

  1. 2020年2月4日~2020年3月4日
  2. 2021年2月4日~2021年3月4日
  3. 2022年2月4日~2022年3月4日

アクセス解析には,いつも通り「Google Analytics」を用いた。

(各ページに対するセッションが表示される画面において,表示行数を増やして,上記期間のデータをエクセルファイルとしてエクスポートした。)

アクセス数とLP数のプロット

さっそく,アクセス数分布の結果を示す。

べき乗分布とパレート則の成立!

まずは,「1. 2020年の2月4日から3月4日」のアクセス分布を,以下の図に示す。縦軸はセッション(PV)数,横軸はランディングページ(LP)の総数だ。

(※ランディングページとは,ユーザーがブログを訪問して,着地(ランディング)したページのこと。)

Fig. 1: 2020年2月4日から3月4日までのアクセス分布(横軸はランディングページ:LPの積算数)

上図からわかるように,同期間のアクセス分布は「べき乗分布」となっていることがわかった。同図の横軸:LP=100(すなわち,LP総数の約2割)を超えたあたりから,500以上にかけて,美しい「ロングテール」が見られる。この「ロングテール」は,LP総数の8割を占めていることから,本ブログへの訪問数にも「パレートの法則」がしっかりと当てはまることがわかる。

また,同図中には,破線にて,各プロットの最小2乗近似(べき近似)曲線を示している。R = 0.93程度なので,まずまず良い近似に見える。

ただし,これは縦横軸がいずれも線形なので,ロングテールの部分の近似精度は読み取られない(両対数プロットによる議論は,すべての期間(2020-2022)について紹介したのち,取り上げる)。

他の期間でも同様の分布に

次に,2021年,2022年の同期間におけるアクセス数分布を,それぞれ以下に示す。

こちらも,「べき乗分布」になっており,近似曲線の精度も2020年のプロットと同程度となっている。

Fig. 2: 2021年2月4日から3月4日までのアクセス分布
Fig. 3: 2022年2月4日から3月4日までのアクセス分布

両対数プロットによる議論

ここまでで,アクセス数分布が,だいたいべき乗則に沿っていることがわかった。ただ,セッション数の多いページと,ロングテールの部分との差が大きすぎて,ロングテールの部分の細かい傾向が見られなかった。

そこで,本節では,両対数プロット(※)での議論を試みる。

※両対数プロット:縦軸y,横軸xを,それぞれlog y,log xとしてデータをプロットしたもの。値の小さい範囲をスケールアップして見られる。両対数プロットにおいて,べき乗分布をもつデータは,直線となる。

「完全」な「べき乗分布」ではなかった!

以下に,両対数軸に対して,セッション数 – LP総数をプロットした図を示す。

期間1~3毎の傾向の違いを見ようと思ってプロットしたら・・・あれ,線形軸でべき乗分布に見えたデータたちが,両対数プロットで直線に並ばないではないか。

Fig. 4:2020年から2022年におけるセッション数とLP総数の両対数プロット

Fig. 4には,破線で,べき乗近似曲線を示している(近似曲線の式は,先ほどのFig.1 – 3とは縦軸のスケールが異なるため,若干違っているが,ざっくりとした傾向は同じだ)。

※ Fig. 1-3とは異なり,式変形がなされていない。上図において,Fig. 1-3のように\(y=Ax^{-b}\)のような関数形に式変形する方法は以下の通り。

$$
\begin{align*}
&\ln y = – b \ln x + A\\
&\ln y = – \ln x^b + A\\
&\ln y + \ln x^b = A\\
&\ln y \cdot x^b = A\\
&y \cdot x^b = e^A\\
&y = e^A x^{-b}
\end{align*}$$

「完全な」べき乗分布であれば,破線のような直線となる。しかし,データのプロットを見ると,この破線には沿っていないように見える。だいたい,LP総数が100から150のあたりに,変曲点が生じ,落ち込みが急速になっているように見える。

Fig. 4を見る限り,べき乗分布というよりは指数分布に近い(実際,近似曲線を引っ張ってみると,指数近似の方が綺麗にデータに沿っていた)。

R =0.92くらいになっているのは,おそらくこの「アクセス数が10未満=LP総数が100-150」における急峻な低下によるものと思われる。

LP > 150ではべき乗分布に

そこで,べき乗分布から外れていそうな,アクセス数の少ないLPのデータを除外して,再プロットしてみた。具体的には,セッション数TOP150をプロットし,近似曲線を引っ張ってみた。

以下の図が,その結果を示している(先ほどとは縦軸の範囲が異なることに注意)。LP150位までとすることで,セッション数が50未満のページは除外された。これによって,プロットがほとんど直線に並んだ!

Fig. 5:2020年から2022年におけるセッション数とLP総数の両対数プロット(LP:上位150ページのみ)

同図に破線で示している近似曲線も,R>0.98以上となっており,良好な近似となっている。

以上の解析から,本ブログのアクセス分布は,

セッション数が50以上のページの分布は『べき乗分布』となっているが,セッション数が50未満のページをも含めた分布は,『べき乗分布』から外れ,『指数分布』に近づいている

ような分布となっていることがわかった。

Fig. 4や5のようなプロットを,他期間にも適用すれば,もっと詳細な分析ができそうだが・・・長くなるので,それはまた別の機会にしよう。

似たようなことを解析した方がおられたので,リンクを貼っておきます。

↑でも,本ページと似たような結論にたどり着いておられます。セッション数が極端に少ないLPまで含めると,べき乗近似というよりは指数近似の方に近づいています。

やはり,個人ブログで,それなりのアクセス数(>100 / 月)がある記事を,100以上維持するのは難しいのでしょうか。Fig. 4だと,アクセス数50以上の変曲点を,もう少し右の方までもっていくこと,これを達成するのが,個人ブログの難しいところだと考えられます。

まとめ

以上,ブログのアクセス解析に見る「べき乗分布」のお話でした。

個人ブログでも,数年続けていると,それなりにアクセスデータが溜まります。

今回のように,ごく簡単な解析でも,面白い事実が見つかるものなんですね。

またの機会に,もう少し詳しい解析もやってみようかと思っています。

(参考文献)

関連記事: 2021年のアクセス数総括

>> じててつログの2021年を総括~PV数・記事数など