分布式是如何体现的？ #25

lywhlao · 2016-04-17T13:45:43Z

hi：
您好，
我看了一下这个工程，想问一下这个工程的分布式是如何体现的？
“要想尝试分布式，可以在另外一个目录运行此工程”。对句话我不是很理解。
我猜测是：同时运行多个实例，进行抓取。在这种情况下，是否会存在重复抓取的情况（如果在数据库中进行查重判断效率是否会低）？
我的思路是：1个master，n个Slave，媒介为redis。
master：负责url管理：分发url给slave，url的增加（1.自己获取的url）。 slave：通过url去下载资源。

shangshanshi · 2016-04-18T02:20:48Z

思路是对的，但其实不用那么复杂，各个爬虫直接去redis吃url就好，这个实现我具体也没看，不过推荐你看下scrapy-redis这个，这个就直接吃的，我觉得这个实现应该也是这个套路。我是小菜，github也用的不熟，希望能帮到你吧:)

yaochao · 2016-07-28T18:47:25Z

我要去看 scrapy-redis，话说这个scrapy怎么读啊，四个瑞派？

marcolin · 2016-07-29T17:23:50Z

@lywhlao 差不多就是你所描述的这样吧，在此项目的实现，就是将scheduler的队列（主要是request请求队列）放到redis服务器中，slave中的spider实例只管从队列取出请求去消费，本质便是将请求队列放到redis服务器中用于共享。由于调用简单，所以可以直接使用redis客户端操作来取代其它分布式系统中需要自己实现的RPC调用。

yaochao · 2016-08-03T02:07:13Z

谢谢^^ @marcolin

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分布式是如何体现的？ #25

分布式是如何体现的？ #25

lywhlao commented Apr 17, 2016

shangshanshi commented Apr 18, 2016

yaochao commented Jul 28, 2016

marcolin commented Jul 29, 2016

yaochao commented Aug 3, 2016

分布式是如何体现的？ #25

分布式是如何体现的？ #25

Comments

lywhlao commented Apr 17, 2016

shangshanshi commented Apr 18, 2016

yaochao commented Jul 28, 2016

marcolin commented Jul 29, 2016

yaochao commented Aug 3, 2016