搜索引擎只能抓取HTML 文件，不能抓取其它类型的文件。

判断题搜索引擎只能抓取HTML 文件，不能抓取其它类型的文件。

1.判断题如果网站中存在robots.txt 文件，那么网络爬虫会按照该文件的内容确定访问的范围。

2.判断题任何一条Disallow 记录为空，都说明该网站的所有部分都允许被访问。

3.判断题只要将User-agent 设为知名的用户代理，爬虫就能够成功地伪装成浏览器。

4.判断题搜素引擎爬取到的网页数据与浏览器得到的HTML 数据一定是不同的。

5.判断题已抓取URL 队列记载了爬虫系统已经下载过的网页URL ，能够避免网页的重复抓取。

6.判断题网站通过robots.txt 文件可以限定网络爬虫的访问范围。

7.判断题网络爬虫程序只能使用python 语言进行开发。

8.判断题通用网路爬虫会访问与预定主题相关的网页。

9.判断题网络爬虫是一个模拟真人浏览互联网行为的程序。

10.判断题Robots.txt协议可以限制爬虫程序采集某些网页的数据。