|
Post by account_disabled on Dec 23, 2023 5:10:32 GMT
您是否曾经想象过搜索引擎机器人如何分析网站的数据以进行索引?您拥有 WordPress 网站吗?有时您希望 Googlebot 快速为您的网站建立索引或不为特定页面建立索引?那么现在该怎么办呢?我可以立即回答您:立即为 WordPress 创建 robots.txt 文件!为了了解 robots.txt 文件以及如何创建它,我将为您带来以下有用的文章。本文将指导您: 了解什么是 robots.txt 文件的概念? robots.txt 文件的基本结构 创建WordPress robots.txt时需要注意哪些事项? 为什么您的网站需要 robots.txt? 如何为您的网站创 手机号码数据 建完整的文件 让我们开始学习吧! robots.txt 文件是什么? robots.txt 文件是一个 .txt 格式的简单文本文件。此文件是机器人排除协议 (REP) 的一部分,该协议包含一组 Web 标准,这些标准指定 Web 机器人(或搜索引擎机器人)如何抓取 Web、访问和索引内容并将其交付给用户。什么是 robots.txt 了解有关 robots.txt 为您的网站建立索引的信息REP 还包括元机器人、页面子目录、站点范围指令等命令。它指示 Google 的工具处理链接。(例如:关注或不关注链接)。事实上,创建 WordPress robots.txt 可以帮助网站管理员更加灵活和主动地允许或禁止Google 索引工具机器人出现在其页面的某些部分。robots.txt 文件的语法 该语法被视为 robots.txt 文件的本机语言。您会在 robots.txt 文件中遇到 5 个常见术语。这些包括:User-agent:这部分是爬虫的名称,访问网页数据。(例如:Googlebot、Bingbot,...)Disallow:用于通知用户代理不要收集任何特定的 URL 数据。 每个 URL 只能使用 1 个 Disallow 行。Allow(仅适用于 Googlebot 搜索机器人):告诉 Googlebot 将访问页面或子文件夹的命令。尽管页面或其子文件夹可能不允许。Crawl-delay:通知网络爬虫在加载和爬网页面内容之前必须等待多少秒。但请注意,Googlebot 搜索引擎不接受此命令。您可以在 Google Search Console 中设置抓取速度。Sitemap:用于提供与此 URL 关联的任何XML 站点地图的位置。请注意,此命令仅受 Google、Ask、Bing 和 Yahoo 工具支持。模式匹配 事实上,WordPress robots.txt 文件阻止或允许机器人相当复杂,因为它们允许使用模式匹配来覆盖广泛的 URL 选项。所有 Google 和 Bing 工具都允许使用 2 个正则表达式来识别 SEO 想要排除的页面或子文件夹。这两个字符是星号 (*) 和美元符号 ($)。*是任意字符串的通配符 - 这意味着它适用于 Google 工具的所有类型的机器人。$是与 URL 结尾匹配的字符。
|
|