四大搜尋引擎公司同意自動發現 sitemap 的規格
今天美國四個最大的搜尋引擎,Google、雅虎、微軟、以及Ask.com,同意了一個自動發現 sitemaps 的規格。只要你把 sitemap 檔案的網址放在 robots.txt 的檔案內,搜尋引擎的 spider 程式就會自動到那個網址去抓 sitemap。
要加入 sitemaps 的網址在 robots.txt 內,你只需要在 robots.txt 檔案內任何地方加入以下這一行:
Sitemap: 檔案網址
所以,如果你的 sitemap 是放在http://www.mysite.com/sitemap.xml, 你就要加入:
Sitemap: http://www.mysite.com/sitemap.xml
可能不少人對 sitemap 很陌生,所以在這裡順便介紹一下。Sitemap 是一個 XML 文字檔案,它的目的是告訴搜尋引擎這個網站裡面有哪些可供檢索的網頁。詳細介紹請看 sitemaps.org 中文版。除了有什麼網頁之外,你還可以透過 sitemap 告訴搜尋引擎每一頁最近是什麼時候被改變、改變的頻率、以及不同網頁之間的優先權。基本上這些資訊是在告訴搜尋引擎多久該送它的 spider 程式到你的網站一次。我自己用 sitemap 時只列出所有的網頁,而並不提供其他的資訊。我認為,搜尋引擎原本自己就會調整 spider 程式來訪的時間;如果實際上的改變跟 sitemap 內講的不同的話,那就反而可能會弄亂原本好好的間隔。
講了半天,sitemap 檔案到底長什麼樣子呢?以下是一個 sitemap 的例子:
<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.google.com/schemas/sitemap/0.9″>
<url>
<loc>http://www.mywonderfulsite.com/</loc>
</url>
<url>
<loc>http://www.mywonderfulsite.com/contact.html</loc>
</url>
</urlset>
在以上的例子中,這個sitemap告訴搜尋引擎這個網站有兩頁,分別是http://www.mywonderfulsite.com/ 和 http://www.mywonderfulsite.com/contact.html。
每個網站都一定要有 sitemap 嗎?未必。Sitemap 最重要的功用,就是確定搜尋引擎能夠檢索到你所有的網頁。對小型網站來說,sitemap 並沒有那麼重要,因為只要網站內部的連接沒有大問題,通常搜尋引擎都可以順利地找到所有的網頁。對大型網站來說,這則是一個必需品,因為大型網站的網頁很多,而且可能經常增加新的網頁,所以最好是有一個方式告訴搜尋引擎現在有的網頁是什麼。當然,以上講的並不是絕對的。假設你的網站只有五頁,可是過了一個月搜尋引擎還只知道你的首頁,那你就最好利用 sitemap 告訴搜尋引擎其他四頁的存在。
標籤:



No comments yet.