谷歌搜索引擎抓取网页的原理跟注意事项

发布时间:2022-01-29 点击:313
一、抓取:google搜索引擎可以找到您的网站吗?
首先您可以使用 “site: yourdomain.com”(一种google搜索运算符)来查看google为您的网站编制了多少页面和哪些页面。
前往google并在搜索栏中输入“site:yourdomain.com”。这将返回google在其指定网站的索引中的结果:
google显示的结果数量并不准确,但它确实可以让您充分了解在您的网站上编制索引的网页以及它们当前在搜索结果中的显示方式。
要获得更准确的结果,请在google search console中监控并使用“索引覆盖率”报告。 如果您目前没有google帐户,可以注册免费的google search console帐户。 使用此工具,您可以为您的网站提交站点地图,并监控实际添加到google索引的已提交页面的数量等。
二、如果您没有在google搜索结果中的任何位置显示,则可能有以下几种原因:
1、您的网站是全新的,尚未抓取。
2、您的网站未链接到任何外部网站。
3、您的网站导航使谷歌机器人难以有效地抓取它。
4、您的站点包含一些称为爬虫指令的基本代码,阻止搜索引擎。
5、您的网站因垃圾邮件策略而受到google的处罚。
如果您的网站没有链接到其中的任何其他网站,您仍然可以通过在google search console中提交xml站点地图或手动向google提交单个网址来将其编入索引。 不能保证他们会在google索引中包含提交的url,但值得一试!
三、google搜索引擎可以看到您的整个网站吗?
有时,google搜索引擎可以通过抓取来查找您网站的某些部分,但其他页面或部分可能会因某种原因而模糊不清。 确保google搜索引擎能够发现您想要编入索引的所有内容,而不仅仅是您的主页,这一点非常重要。
1、您的内容隐藏在登录表单后面吗?
如果您要求用户在访问某些内容之前登录,填写表单或回答调查,搜索引擎将无法看到这些受保护的页面。 爬虫绝对不会登录。
2、您是否依赖搜索表单?
机器人无法使用搜索表单。 有些人认为,如果他们在自己的网站上放置搜索框,搜索引擎就能找到访问者搜索的所有内容。
3、文本是否隐藏在非文本内容中?
非文本媒体表单(图像,视频,gif等)不应用于显示您希望编入索引的文本。 虽然搜索引擎在识别图像方面越来越好,但仍无法保证他们能够阅读和理解图像。 最好在网页的标记中添加文本。
四、google搜索引擎可以关注您的网站导航吗?
正如google爬虫需要通过其他网站的链接发现您的网站一样,它需要您自己网站上的链接路径,以便在页面之间引导它。 如果你有一个页面,你希望搜索引擎找到它,但它没有链接到任何其他页面,它就像看不见一样好。 许多网站都在以搜索引擎无法访问的方式构建导航,从而阻碍了他们在搜索结果中列出的能力。
五、常见的导航错误可能会使抓取工具无法看到您的所有网站:
1、使移动导航显示桌面导航不同
2、任何类型的导航,其中菜单项不在html中,例如启用javascript的导航。 谷歌在抓取和理解javascript方面做得更好,但它仍然不是一个完美的过程。 为了确保确保google发现,理解和索引某些内容的更加可靠的方法是将其放入html中。
3、个性化,或显示特定类型的访问者与其他访问者的独特导航,似乎隐藏在搜索引擎爬虫中
4、忘记通过导航链接到您网站上的主页 - 请记住,抓取工具是跟随爬虫进入新页面的!
这就是为什么您的网站必须具有清晰的导航和有用的url文件夹结构。
以上就是《谷歌搜索引擎抓取网页的原理跟注意事项》的全部内容,仅供站长朋友们互动交流学习,谷歌优化是一个需要坚持的过程,希望大家一起共同进步。