什么是 Google 上的抓取和索引?
搜索完成后,Google 会根据其索引(数据库)显示 海外数据 最相关的结果来回答您的搜索。
网络爬虫或机器人(例如:Googlebot)会浏览万维网以进行索引。如果您的网站不在 Google 的索引中,则不会出现在其搜索结果中。
抓取是查找链接(网站上的新页面或更新页面)的过程。Google 的网络抓取工具通常会先抓取您的网站,然后再将其添加到索引中。
Google 索引是指 Google 的网络爬虫首次发现某个网页并将其添加到 Google 索引中。详细了解 Google 如何爬行和索引工作。
检查您网站上的哪些页面已被 Google 编入索引的最简单方法是使用站点搜索运算符。
网站搜索 谷歌
如何让 Google 索引您的网站?
Google 会尝试查找并抓取网络上可以找到的每个页面。如果您的网站页面尚未被 Google 编入索引,则可能需要一些时间才能更新到 Google 的搜索索引中。
在某些情况下,它可能会在 robots.txt 文件上被阻止。稍后会详细介绍。
检查 Google 对您网站的索引的最佳方法之一是使用 Google 搜索控制台。
作为网站所有者,您可以为您的域名创建一个 Google 搜索控制台帐户。您还可以将其链接到 Google Analytics。
索引覆盖率报告显示 Google 在您的网站上找到的所有 URL 的索引状态。
索引覆盖率报告控制台
要求 Google 抓取你的网页并请求索引
当您发布了新的博客文章时,这是一种帮助加快索引过程的简单方法。
步骤 1:转到 Google Search Console
第 2 步:点击您的网站属性
步骤 3:点击 URL 检查
步骤 4:将你希望 Google 索引的 URL 粘贴到搜索栏中
步骤 5:等待 Google 检查 URL
第 6 步:点击“请求索引”按钮
请求索引 – 谷歌
Google 需要多长时间来索引新内容或更新内容?
谷歌的约翰·穆勒 (John Mueller) 表示,谷歌可能需要“几个小时到几周的时间”来索引新内容或更新内容。
如果 Googlebot 忙于执行其他任务(例如索引更重要的网站),则索引过程可能需要更长时间。或者,如果您的网站存在技术问题,导致抓取和索引变得困难。
确保您的网站已优化,以便 Google 优先对最重要的内容 什么是高质量反向链接?如何评估 2023 年 SEO 链接价值 进行索引。
索引状态 URL
内部链接
页面未被索引的可能原因之一是 Googlebot 在抓取过程中无法找到它们。
不良的内部链接结构往往是造成这一问题的原因。
加快 Google 索引速度的一个好方法是添加内部链接。例如从主页链接到新发布的博客文章或页面。
Google 是否优先考虑新鲜内容?
谷歌曾表示这里它希望为用户提供更加新鲜、更加最新的搜索结果。
这是 Caffeine 网络索引算法的更新,允许 Googlebot 快速大规模地抓取和索引网络上的新鲜内容。
在 Caffeine 的推动下,今天我们对排名算法进行了重大改进,该算法影响了大约 35% 的搜索,并能更好地确定何时针对不同新鲜度为您提供更多最新的相关结果。
咖啡因算法更新
来源:Google 博客
所以是的!更新内容是一种很好的做法。因为 Google 会优先查找和索引更新的内容。
最新发布、重写或更新的内容更受欢迎,因为它们更有可能是准确的——从而为用户带来更好的结果。
此外,最后更新或发布日期可能会出现在 Google 搜索中。此信息在搜索结果中与元描述一起排名,从而影响点击率。
搜索中心上次更新日期来源:Google 搜索中心
Robots.txt 文件
robots.txt 文件告诉搜索引擎网络爬虫可以访问 BY 列表 您网站上的哪些页面。
它主要用于管理您网站的网络爬虫流量。例如,如果您认为您的服务器将因爬虫的请求而超负荷或不堪重负。详细了解Googlebot 抓取率。
它还可以用于优化抓取。因此,如果您的网站上有一些不重要的页面,而您不想让抓取工具找到它们,您可以指示抓取工具不要抓取它们。
例如,如果您想阻止某些网络文档(例如 PDF)或内容类型(例如图像、视频或音频文件)出现在 Google 的搜索结果中。
您需要 robots.txt 文件吗?
Google 表示不需要!如果您没有,Googlebot 会正常抓取您的网站并编制索引。
robotstxt 常见问题解答
如何阻止爬虫访问你网站的部分内容
您可以在 robots.txt 文件中指定特定的抓取阻止规则。以下是来自谷歌:
爬虫程序阻止 robots txt 示例
这实际上告诉了哪些爬虫不允许爬取“includes”文件夹,但 Googlebot 可以。哈哈!
如果您想阻止特定页面出现在搜索结果中,您可以使用noindex。