searchconsole」カテゴリーアーカイブ

クロールとインデックスに必要な3つの実施事項


sponsord link

style=”width: 700px; text-align: left; vertical-align: top;”>

クロールとインデックスについて再確認しておきましょう。
 
①Google検索エンジンは、個々のサイトをクロールしてサイトの情報収集を行います。
 
②クロールによって収集された情報を分析して、サイトの情報をインデックスに登録します。
 
③Google検索エンジンは、ユーザがキーワードを入力して検索を行うとインデックス登録された情報をもとに検索結果を表示します。
 
サイトをインデックス登録させるために実施することは3つあります。
 
【一番目は、Googleのクローラにクロールされるようにすること】
 
サイトにクローラが訪れなければ何も始まりません。
 
サイトが存在すれば、何もしなくてもいずれはクロールされるようになるでしょう。
 
しかし、それではいつになるか全くわかりません。
 
サイトの情報をGoogleに知らせることで、早い時期にクローラの訪問が始まります。
 
そのためには、Search Consoleにサイトを登録することが必須となります。
 
Fetch as Googleからクローラの訪問を即す連絡をすれば、クローラの訪問を早めることができます。
 
【二番目は、サイトをGoogleのインデックスに登録させること】
 
サイトマップを作成して、Googleに送信することです
 
サイトの構造を記述したサイトマップは、クロールを効率よく行うために必要なものです。
 
サイトマップをGoogleに送信することで、クローラはサイトマップの情報を使ってクロールを行います。
 
サイトマップは、クロールを効率よく行う手助けとなりサイトの評価も高くなります。
 
サイトマップを作成するプラグインをインストールすれば、簡単にサイトマップを作成することができます。
 
クローラは、サイトマップだけでなく内部リンクを辿ってサイト内をクロールします。
 
サイト内の構造を分かり易くすることで、クロールしやすいサイトとなります。
 
内部リンクのない独立したページを作成するとクローラはクロールすることができません。
 
クローラは、一回の訪問でサイト内のページ全てをクロールするわけではありません。
 
クロールしやすいサイトは、一回のクローラの訪問でより多くのサイト情報を取得できるため、インデックス登録の効率が高まり、
 
さらに、サイトの閲覧者にとっても分かり易いサイトとなります。
 
閲覧者の利便性に配慮されたサイトは、Googleだけでなく閲覧者からも評価が高まります。
 
【三番目は、不要なページのクロールをブロックすること】
 
お問い合わせやメルマガ登録ページなどは、検索結果に表示されても何のメリットもありません。
 
インデックス登録される必要のないページのクロールをブロックすることで、クロールの効率を上げることができます。
 
特定のページをインデックス登録の対象から除外するには、NO INDEX属性やrobots.txtの指定で行うことができます。

Sponsored Link


SearchConsole/クロールエラーの種類と原因


クロールエラーは、クローラがサイトをクロールするときに発生するエラーです。

クロールエラーが発生すると、サイトのクロールが行われなくなったり、一回のクロールするページが減少する要因となります。

SEOにとってはマイナス要因となりますので、適切な対処をすることが必要となります。

1.サイトエラー

サイトエラーは、Search Consoleのダッシュボードのパネルに表示されます。

緑色で☑が表示された状態が正常、赤色で!が表示された状態が異常です。

サイトエラーには、3種類のエラーがあります。

①DSNエラー

DSN(Domain name server)は、サイトのドメインが存在するサーバーです。

DSNエラーは、サーバーの場所(IPアドレス)が確認できないことが原因のエラーです。

IPアドレスは、サーバーの住所のようなもので、個々のサーバ固有のものです。

閲覧者がサイトを閲覧できない可能性が高い状態ですから、緊急の対処が必要です。

②サーバー接続エラー

サーバーにアクセスしたときに、接続エラーが起きたことが原因のエラーです。

サーバーのダウンや回線障害が原因となります。

DSNエラーと同様な状態ですから、緊急の対処が必要です。

③robots.txtの取得エラー

robots.txtは、クローラへの指示を定義するファイルです。

クロール不要なページを定義して、クロールの効率向上を目的にするものです。

前述した①、②のような深刻な障害ではありません。

2.レスポンスコード(HTTPステータスコード)

ブラウザーとWEBサーバーは、通信プロトコルという規則に従ってデータの送受信を行っています。

個々のURL(ページや画像情報)の送受信でエラーが起きると、レスポンスコードで確認することができます。

Search Consoleでは、クロールエラーのURLエラーで確認することができます。

クロールエラーの右側に表示された「>>」をクリックすると詳細情報が表示されます。

PCとスマートフォンの2種類のタブにそれぞれ「アクセスが拒否されました」と「見つかりませんでした」の2種類のタブがあります。

合計4種類のタブでクロールエラーのURLとレスポンスコードが表示されます。

レスポンスコードは3桁の数字で1桁目がエラーの種類、2、3桁目が詳細コードで構成されています。

①3xx :ページ移転

②4xx :未認証(401)、アクセス禁止(403)、ページ未検出(404)

③5xx :サーバー障害

Sponsored Link







 


SearchConsole/robots.txtの設定方法


【Robots.txt】

Robots.txtは、クローラに対して巡回するサイト要素(Webページ、画像、ファイル)に制約条件を定義するための定義です。

制約条件とはクロールする必要のない要素を定義して無駄なクロールを抑止することです。

クローラは、1度の巡回で全てのサイト要素をクロールするわけではありません。

閲覧者に有効なサイト要素にクロールを集中させるためには、無駄なクロールを排除する必要があります。

そうすることによって、有効なページの検索順位が上がっていく可能性が高くなります。

Robots.txtの定義

①User-Agent: *
 User-AgentはGoogleやYahooだけでなく多数あります。
 「*」は、全てのユーザエージェントを対象とする定義です。

②Allow:/
 使用する機会は少ないと思いますが、
 「/」は、サイトフォルダー配下の全てをクロール対象とする定義ですが、定義なしでも全て対象となります。
 クロール対象外としたフォルダー配下の一部のファイルをクロールさせる場合、以下のように定義する。
  Disallow:/test/
  Allow:/test/test.html

③Disaliow:/s/
 「/test/」は、testフォルダー配下の全てをクロール対象外とする定義です。

④1行分空行

⑤Sitemap: http://サイトアドレス/sitemap.xml.gz
 Sitemapは、サイトマップファイルのアドレスを定義します。
 クローラは、Sitemapの情報からサイトをクロールして情報収集を行います。
 サイトマップのアドレスは、以下のいずれかを定義します。
 ・「http://サイトのアドレス/saitemap.xml」
 ・「http://サイトのアドレス/saitemap.xml.gz」
 ※gzは圧縮形式のファイルです。

登録手順

①または②でRobots.txtを作成する。

①テキストエディターでRobots.txtを作成する。

②SearchConsoleの「クロール→robots.txtテスター」をクリックするとrobots.txtが表示されます。
 表示されたrobots.txtを修正して、コピーペーストしてRobots.txtを作成する。

③作成したRobots.txtをFTPでサーバーへアップロードする。
 ルートディレクトリー直下へアップロードしてください。

④テスト
 SearchConsoleの「クロール→robots.txtテスター」をクリックする。
 アップロードしたrobots.txtが表示されます。
 ページの一番下にURLと「テスト」ボタンが表示されます。
 Disallowで定義したフォルダーやファイルをのURLを入力して「テスト」ボタンをクリックする。
 入力したURLの背景色が赤色になり、「テスト」ボタンが「ブロック済」と表示されればOKです。

⑤「送信」ボタンをクリックする。
 3 Googleに更新をリクエスト 「送信」ボタンをクリックする。

これで登録手続き完了です。