retireSakiの日記

たぶん引退した?ソフトウエアエンジニアのブログ

「はてなブログ」と他の大手6ブログサイトのサイトマップ(XML)を徹底比較

 Googleクローラーの「なてなブログ」のサイトマップの読み取りエラーは相変わらず続いています。
とりあえず、rss, feed を登録して、直近の記事の検索エンジンの登録はできていますよ。
サイトマップ絡みでもう一つ悩ませているのが、モバイルフレンドリーエラーです。修正しても、Googleのモバイルのエラーの解除は、サイトマップが読み取れないと解除されないことがあります。これについても、多くの「はてなブロガー」が頭を抱える問題となっています。
はてな」はGoogleの開発者向けのブログを読んでいないのではかと思ってしまいます。

いろいろなブログサイト

 そこで、はてなブログ」のサイトマップと他のブログサービスのサイトマップとを比較してみました。

 しかし、今だに一部の大手ブログサービスでサイトマップを作成できないというアホな話があり、ブログサイトの対応に関しては、5年以上の時代遅れなのでは?!と感じます。
技術者の空洞化現象ですよね!
もう少し、コレ絡みの出版を引き受けたほうが良かったかもと、思ってしまいます(-_-;)

また、サイトマップを作成できても、PINGを送信できとか問題を抱えているブログサービスもあります。

 正直なところ、そういったブログサービスの技術者はGoogleの開発向けブログを熟読してないのでは?!と思わざる得ません。
また、そういうブログサービスを有料で使うということが、如何にアホらしいことかと思ってしまいます。

 今回、ざっと見て、サイトマップのサポートができている大手ブログサービスから、適当なブログをチョイスしてサイトマップを取得し、xmllint コマンドを使って見易いXMLフォーマットに整形し直しました。

実行コマンド:
 xmllint --format xxx.xml > xxx2.xml

はてなブログ
なてブログ サイトマップ
Blogger
Blogger サイトマップ
エキサイトブログ
エキサイトブログ サイトマップ
FC2ブログ
FC2ブログ サイトマップ
ライブドアブログ
ライブドアブログ サイトマップ
Seesaa
SEESAA サイトマップ
WordPress
WordPress サイトマップ 
サイトの拡張性を飛躍的に高める WordPressプラグイン開発のバイブル

サイトの拡張性を飛躍的に高める WordPressプラグイン開発のバイブル

 
Webサイト構築・運用のコストと効果がバッチリわかる (ウェブビズ)

Webサイト構築・運用のコストと効果がバッチリわかる (ウェブビズ)

 

比較結果 (見つかった問題)

 はてなブログを含め計7サイトのサイトマップを見てみました。

各サイトの日付<lastmod>を見てください。

サイトマップファイルのフォーマット仕様は、下のサイトでみることができます。

www.sitemaps.org

サイトマップの<lastmod>はオプションで、ファイル(ブログなら記事)の最終更新日です。
この日付は W3C Datetime形式でなければなりません。
とはいえ、必要に応じて時間部分を省略してYYYY-MM-DDを使用できます

はてなブログ」の<lastmod>の文法は間違ってはいないのですが...
もし、<lastmod>の日にGoogle側のサイトマップの解析があり、その後に記事を更新しても、<lastmod>は変わらないためGoogleは気づかないということになります。

時系列にすると

<lastmod>2019-04-30</lastmod>

Google側:サイトマップを元にページの取得

記事更新
<lastmod>2019-04-30</lastmod>

Google側:変更されていないからスキップ

他のブログサイトのサイトマップは、時分秒を入れているため、こういったことをに対応できていますよね!

W3Cでは、より精度の高い方を使うように勧めています。
はてなブログ」も他のブログサイトと同様、W3Cに則り、

This profile defines two ways of handling time zone offsets:

Times are expressed in UTC (Coordinated Universal Time), with a special UTC designator ("Z").
Times are expressed in local time, together with a time zone offset in hours and minutes. A time zone offset of "+hh:mm" indicates that the date/time uses a local time zone which is "hh" hours and "mm" minutes ahead of UTC. A time zone offset of "-hh:mm" indicates that the date/time uses a local time zone which is "hh" hours and "mm" minutes behind UTC.
A standard referencing this profile should permit one or both of these ways of handling time zone offsets.

W3Cより

<lastmod>YYYY-MM-DDThh:mm:ssZ</lastmod>
フォーマットを採用して欲しいものです。

Bloggerに剃ったサイトマップを作成するか、
WordPressのようにプラグイン形式を取るか、
もしくは、ユーザーが作成したサイトマップファイルを保存できるようにするか。

このような措置を講じるべきでしょう!

サイトマップ問題に直面しているブロガーの方々へ

 サイトマップの読み込み問題は、「はてな」もしくは「はてな」と「Google」間の問題ですので、私達は突っ組みを入れ、「はてな」の重いケツを蹴り飛ばすことしかできません。
はてな」と喧嘩をする必要はないですが、多くのブロガーで発生している事実と早急な対策またはGoogleとのやり取りを実現するよう、しつこく問題提起するべきです!

もし、rss または feed を登録していない場合は、どちらか、または両方をGooglee Search Console に登録しておくと良いです。
これにより、直近の記事の登録はできます!

また、私のように、はてな」から「何故サイトマップを登録する必要があるのか!?」と聞かれたら (今だにカチンときていますがw)

retiresaki.hatenablog.com

以下のGoogleのページを引き合いに出すと良いでしょう!

support.google.com

 更新の少ないブログなら別ですが、一日1回以上更新するようなブログで、リアルタイム性のある記事なら、サイトマップによる通知は重要です!

また、はてなブログ」はどうもサイトマップの更新を、検索エンジンクローラーに通知(ping) する機能がないと思われます。
れは、サイトマップの運用において、非常に致命的ですね (ToT)

そういう部分も含め、WordPressプラグインは非常に強力なのですが...有料なので悩ましいです。
はてなブログの有料版は、有料に値するだけのサービスを提供しているのか、疑問を持ちます。

「Amazon.co.jpアソシエイト」または「[乙の名称を挿入]は、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。