robots.txt 是什麼？用途有哪些？SEO必備知識一篇說明！

robots.txt就像是一份參觀指南，用來告訴搜尋引擎和其他網路機器人哪些網頁可以進入，哪些網頁不可以，有助於網站管理員控制你的網站內容的可見性。

2024/02/19

快速導覽

Kelsey Wang

什麼是robots.txt？

robots.txt檔案是一種位於網站根目錄下的純文字檔案(沒有HTML標記代碼)，它的主要作用是告知網路機器人（也就是爬蟲）該如何瀏覽網站的內容。簡單來說，這個檔案像是一份指南，告訴搜尋引擎和其他網路機器人哪些網頁可以進入，哪些網頁不可以，這有助於網站管理員控制你的網站內容的可見性。

從SEO（搜尋引擎優化）的角度來看，robots.txt檔案可以被視為網站的入口守衛，適當地設置 robots.txt 檔案能夠幫助搜尋引擎更有效地索引網站，以便顯示於搜尋結果中，進而提高網站的可見性和排名。

robots.txt檔案有何用途？

有效避免重複內容索引
引導搜尋引擎爬蟲進入重要頁面
保護網頁中的敏感資訊
優化搜尋結果的相關性

透過允許或禁止爬蟲瀏覽相關網頁，可以有針對性地操作網站的搜尋引擎表現，適當配置robots.txt檔案是提高網站在搜尋引擎中排名的重要一環，也是維護網站在搜尋結果中的可見性的關鍵步驟。

延伸閱讀：搞懂 SEO 有多難？新手也能快速理解的搜尋引擎優化全攻略！

robots.txt的工作原理：搭配簡單舉例一分鐘理解

舉個生活中的例子來解釋 robots.txt 的工作原理：

想像你擁有一座大型觀光園區，裡面有各式各樣的建築和花園，你怕遊客們可能會誤入園區內的辦公室，於是你決定在園區的入口設置公告牌，上面寫著入園的參觀規則。

爬蟲瀏覽許可：robots.txt檔案允許網站管理員指定哪些網頁或目錄可以被搜尋引擎的爬蟲瀏覽，以及哪些應該被排除。

→你在公告牌上載明參觀規定，例如員工們才可以進入園區內的辦公區，而遊客們不能。

robots.txt檔案位置：通常位於網站的根目錄下，以利搜尋引擎爬蟲在進入網站時優先讀取這個檔案。

→將公告牌位置設置於園區入口，確保人們進入園區就會看到。

設定語法規則：robots.txt使用相關語法，告訴搜尋引擎爬蟲應該如何行動。

→公告牌上寫著遊客們可以進入花園和遊樂區，但不能進入員工辦公區。

應用範圍：robots.txt主要應用於控制搜尋引擎爬蟲的訪問行為，但它不是強制性的規則，所以可想而知，有些惡意的爬蟲就不會遵循這些規則。

→遊客在入口處看到公告牌後，會遵循公告牌上的規則，當然，也有些人不會遵守。

總而言之，robots.txt檔案通過特定的語法規則告訴爬蟲這個網站的瀏覽限制，更有助於網站管理員管理網站內容。

延伸閱讀：nofollow是什麼？怎麼使用？一篇理解rel=”nofollow”語法保護網站免受垃圾連結的影響！

哪些情況robots.txt會阻擋爬蟲爬取？

使用 Disallow 指令：若robots.txt中包含 Disallow 指令，爬蟲就不會爬行指定的目錄或頁面。
語法規則有誤：如果robots.txt存在語法錯誤或不符合規範的指令，搜尋引擎爬蟲可能無法正確讀懂該文件，從而無法獲取瀏覽網站的指示。
特定User-agent的Disallow指令：針對特定的User-agent（爬蟲代理）設置 Disallow指令的話，這些爬蟲代理將受到限制，無法瀏覽指定的內容。

延伸閱讀：關鍵字排名優化這樣做才有效！6個實用技巧與常見錯誤總整理

建立robots.txt有哪些注意事項？

1. 先認識User-agent（爬蟲代理）

確保您對不同搜尋引擎爬蟲的User-agent名稱有初步的認識，常見的爬蟲代理有Googlebot、Bingbot、Baiduspider，以便為它們設置適當的規則。

2. 熟悉自家網站架構

小心不要阻止了重要的網頁或目錄，有價值的頁面反而沒有被注意到。

3. 定期檢查和更新

隨著網站內容的更新，還是需要定期檢查robots.txt文件。

4. 避免濫用Disallow指令

不要濫用robots.txt來隱藏重要內容或妨礙爬蟲的瀏覽路徑，這可能會導致搜尋引擎對網站的排名產生負面影響。

5. 注意敏感資料安全性

任何人都可以看到robots.txt的內容，所以不建議放置任何網站相關的敏感資訊。

注意以上事項，設置robots.txt就不難了！

參考資料：如何編寫及提交 robots.txt 檔案

robots.txt常見的指令參數

User-agent

user agent

先選擇你要設定規則的爬蟲代理名稱。假如你想對Google瀏覽器生效，指令就輸入User-agent: Googlebot。

Disallow

指定不讓爬蟲訪問的目錄、頁面或檔案類型，要記得加上路徑，不然該指令會被忽略。

Allow

指定可以讓爬蟲訪問的目錄、頁面或檔案類型，要記得加上路徑，不然該指令會被忽略。

Crawl-delay

可以指定爬蟲瀏覽網站的間隔時間。

Sitemap

指定網站的XML Sitemap文件的位置。這有助於搜尋引擎更有效地索引網站的內容。

robots.txt範例及說明

example robotstxt

robots.txt 測試工具

先來看看自己的網站有沒有robots.txt吧，方法很簡單，直接在網址的後面輸入robotx.txt就可以了。

以Mercedes-Benz為例：https://www.mercedes-benz.com/robots.txt

benz robotstxt

若想確認目前robots.txt內的指令是否正確，也可以透過robots.txt Validator and Testing Tool這個工具來進行簡易的檢測。

資料來源：robots.txt Validator and Testing Tool

merkle

robots.txt的補充說明

robots.txt 常見誤用案例：禁止Google索引整個網站

robots.txt是用來指定搜尋引擎不讓爬蟲訪問的目錄，但如果使用不當，也可能造成重大SEO事件。我們曾經看過有網站案例用「site:」指令查詢發現這個網站完全沒有建立任何的Google的索引資料，再沿線索反查，結果發現robots.txt 裡面有一筆 Disallow: / (意指整個網站目前都不給Google爬行)，造成這個網站幾百筆的資料都不曾被Google索引過。因此，robots.txt 的設定相當重要，如果不了解其中的設定，可以請相關工程師或網頁設計公司協助處理。

robots.txt 近期(2023年)引發的資安疑慮

近期(2023年)在執行及處理網站弱點掃描時，收到弱掃報告提到「Robots.txt 檔的內容，可能包括檔案或目錄相關的機密性資訊」，因此可能需要把Robots.txt 內所揭露的網站目錄資訊進行調整，避免成為資訊安全疑慮。

延伸閱讀：舊網站改版有哪些成敗關鍵？透過案例分析讓你一次完整掌握

認識網站行銷SEO

為什麼推薦台中網頁設計公司凱士數位？位於台中的凱士相對有機會接觸到各種不同的產業面向，擁有各種產業的網站設計經驗，幫助企業提升網路品牌形象，建立良好的使用體驗。如果您有形象網站、企業網站、客製化網頁、網站改版相關需求，歡迎聯絡我們。

您可以直接填寫諮詢表單；撥打諮詢電話 04-22210688；或加入凱士LINE由專人與您聯繫。