请简述聚焦爬虫抓取网页的流程。

问答题请简述聚焦爬虫抓取网页的流程。

1.问答题为什么选择Python 作为爬虫的实现语言？

2.多项选择题按照使用场景，可以将爬虫划分为哪几种？（）

A.表层爬虫
B.聚焦网络爬虫
C.通用网络爬虫
D.深层爬虫

3.多项选择题下列选项中，属于应对反爬虫策略的是（）

A.降低访问频率
B.使用代理ip
C.识别验证码
D.伪装User-agent

4.多项选择题下列选项中，属于URL 的组成元素的是（）

A.IP地址
B.服务器
C.路径
D.协议头

5.多项选择题关于聚焦爬虫的工作原理，下列描述正确的是（）

A.根据一定的搜索策略，从URL 队列中选择下一步要抓取的网页URL
B.我们需要根据爬取需求定义聚焦爬虫的爬取目标，并进行相关的描述
C.聚焦爬虫会根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接
D.有用的链接会放入等待抓取的URL 队列

6.单项选择题下列选项中，用于在robots.txt 文件中描述搜索引擎名字的是（）

A.Disallow
B.Allow
C.accept
D.User-agent

7.单项选择题用于robots.txt 文件中，标记不允许的是（）

A.disallow
B.User-agent
C.allow

8.单项选择题下列选项中，被称为主题网络爬虫的是（）

A.聚焦网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.增量式网络爬虫

9.单项选择题下列数据中，能够被网络爬虫抓取的是（）

A.互联网非公开信息
B.网站后台信息
C.互联网公开的且可访问到的信息
D.用户的注册信息

10.判断题网络爬虫一旦在访问过程中遇到一些网络问题（如DNS 故障、拒绝连接等），不会导致程序引发异常并停止运行。