https://github.com/blurHY/HorizonSpider

实际上现在已经是第三次重写了😂,但这次重写用nodejs。

为啥不写个P2P全覆盖的搜索引擎呢,因为IPFS已经有搜索引擎了。

开源世界还是不重复造轮子为好。

具体实现

主要是一个循环,定期调取siteList,并遍历,找出新下载下来的站点,进行爬取。

那怎么爬的呢?

主要是两个方面

  • 抓取链接,提交到下载队列
  • 将网站内容缓存到数据库

爬虫不需要下载队列,只不过是通过siteAdd添加到零网内置的队列。

嗯,就这么简单。

网站

  • 分布式版,只提供元数据,如站点标题的搜索。
  • 中心化版,全功能支持。

这是没办法的。但还有第三个选项,用于抗封锁,类似于把零网当cdn。

  • 将查询和结果反馈都放在零网或其他P2P网络