标题概括 2024年6月19日爬虫项目一个分布式采集客户端需要开发并且配合服务端输出对应数据可以Excel可以json格式 具体开发内容分布式客户端:国内的客户端标识一般放在国内的vps上面,国外客户端标识一般都在国外的vps上面。 程序每次运行的时候通过向后台请求到代理信息,保存到本地,当采集数据遇到百度搜狗360谷歌等各大搜索引擎的安全拦截的时候,就开始通过http代理去访问获取数据。如果期间还出来安全拦截,就在换代理ip,换了3个还是拦截就把这个任务分配给其他的客户端去执行。 代理ip默认有有效时间一般是30分钟,时间到期后自动启用停止代理,如果拦截就在执行上面的挂代理逻辑。 上面说的运行不是每次执行任务的时候就去后台请求代理信息,而是双击打开程序的时候。如果需要更新代理的话,重启程序就可以。客户端标识分为1和2,其中1为境内的客户端标识获取后台的国内境内代理信息,标识为2为谷歌等境外搜索引擎的,获取后台的国外代理信息。 标识为1境内的客户端,采集:
百度总收录,日收录,周收录,年收录,是否收录,Sogou总收录,是否收录,Sogou快照时间,360总收录,必应总收录,头条收录 标识为2的境外客户端:
google总收录,google是否收录,google月收录,google周收录,google日收录,雅虎收录 开发方向提示:1,输入网址查询,查询后的内容采集并且输出数据,可以是输出Excel文档,也可以是输出json格式,服务端同事会需要这个数据并且存入数据库然后再通过服务端输出api接口,再让前端同事请求 2,偏向于采用python高会好点,其次语言不限,这个客户端只要做出来可用即可,能够给后端输出信息即可。 3,用什么端也无所谓,可以是桌面客户端,WEB都可以,实现即可,然后需要有能配置代理ip的,因为诸如google 国内ip无法查询,详情还可以和后端沟通一下。
* 具体开发周期5个工作日 具体价格范围区间预算: 1000-2000元 联系方式优雅草科技·技术联系QQ: 422108995
|