retireSakiの日記

たぶん引退した?ソフトウエアエンジニアのブログ

ここが変だよ!はてなブログのサイトマップ

 はてなブログサイトマップGoogleサーチコンソールを見ると、検索エンジンのインデックスに登録されていても、登録されているURLがインフォメーションレベル扱いとなっています。

URLは有効なので、普通なら無視できますが...

 Googleクローラーの巡回エラーなど一連のサイトマップ問題等を含めると、気になってきましたw

そこで、サイトマップの内容をチェックしました。

1.はてなブログサイトマップのインデックス

 サイトマップは、おおよそ 500url ぐらいまで扱うことができます。
これを超える場合、サイトマップインデクスを作って、分割されたサイトマップを扱うことになります。

 はてなブログの場合、 URLから判断すると (PHPPerlなど)サーバーサイドのプログラムを使って、サイトマップを管理しているようです。

2.分割されている各サイトマップをみてみる

 各ページはプログラムで生成されたもののようです。

3.疑問①

 もし、サーバーサイドでsitemapファイル(データ)を作っているなら、何故そんなことをしているのか?
Webサーバーは固定ファイル(データ)なら、プログラムを通さず、ファイル化したほうがレスポンスが良くCPU負荷が少ないのですが。

なぜ固定ファイルではないのか?!

4.疑問②

 更新されていない page=2 が、何故 pahe=1 と同じ日付なの?

インデクスのpage=2の更新日が "2019-03-07" になっているが、page=2 の内容をみても、そんな日付で更新されていない。

Googleから見ると、無駄な読み込みをすることになり、Googleはてなサーバーも負荷が増えることなります。

これってバグじゃないの?!

5.疑問③

 調べた結果、はてなブログサイトマップの構造が上図のようになっています。
これは、サイトっマップの分割数が増える都度、過去のサイトマップ(page=n)が、page=1がpage=2,page=2がpage=3に移り変わってしまうことを示唆しています。

Goggleから見ると、一度読んだはずのサイトマップの内容が変わってしまい、再度全てのサイトマップを読み直す必要があります。

6.まとめ

 とまぁ、正直SEO対策以前の問題があります。
1つのブログなら、微々たる負荷でも、数千以上のブログとなると話は別問題!
いずれも sitemaps.org の規格に明記されていなくても考慮すべきことで、暗黙の常識です。

意外にWebサイト開発者で、sitemap.org の存在を知らない人が多いんですよw

www.sitemaps.org

 


 はてなスターの処理でサーバー負荷がかかっていることは有名ですが...これだって...といくらでもやりようがあると思うですが。
まぁ、なんと言いますが、はてな自身が自分で高負荷にしているなぁ〜と感じますw

 こういったテクニックは、大規模なClient-Serverシステム開発経験者なら当然のように設計時に考慮するのですが(^^ゞ
まさにソフトウエアエンジニアの空洞化現象ですw

 たぶん引退した私には関係ないですが、ユーザーに迷惑がかかるようなことだけはしないで欲しいです。(^^)/

※この記事へのコメントは無視します。
 面倒くさそうになりそうなので (^^ゞ 

 

イラスト図解式 この一冊で全部わかるWeb技術の基本

イラスト図解式 この一冊で全部わかるWeb技術の基本

 
Linuxサーバー構築標準教科書

Linuxサーバー構築標準教科書

 
WEBアプリケーション・サーバー 設計・構築ノウハウ 第2版

WEBアプリケーション・サーバー 設計・構築ノウハウ 第2版

 
サーバ負荷分散入門

サーバ負荷分散入門

 
改訂3版 サーバ/インフラエンジニア養成読本 (Software Design plus)

改訂3版 サーバ/インフラエンジニア養成読本 (Software Design plus)

 

 

注目記事

「Amazon.co.jpアソシエイト」または「[乙の名称を挿入]は、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。