• 11选5走势图分析技巧 2019-09-30
  • 北京11选5胆拖计算器 2019-09-24
  • 11选5组选前三技巧 2019-09-23
  • 11选5摇奖模拟器 2019-09-16
  • 微信上广东11选5正规吗 2019-09-15
  • 11选5胆拖玩法对照表 2019-09-14
  • 体彩11选5前三组多少钱 2019-09-13
  • 11选5任选7软件 2019-09-12
  • 黑龙江新11选5开奖 2019-09-11
  • 广东11选5购彩网站 2019-09-10
  • 11选5拖计算器 2019-09-09
  • 北京体彩11选5开奖结果查询 2019-09-08
  • 11选5任6技巧集锦 2019-09-07
  • 福建11选5开奖结果112期 2019-09-06
  • 河北11选5遗漏数据 2019-09-05
  • 景安微信
    右侧QQ联系不上,可以加我微信
    您好,欢迎来到景安网络!
    加盟景安
    主页 >服务器软件 >分享一款好用的URL采集工具(Superl-url)

    分享一款好用的URL采集工具(Superl-url)


    来源:景安网络发表日期:2019-05-29浏览次数:Tags:Superl-url,采集工具
    景安网络专业的数据中心服务商,长期提供数据中心托管服务,私有云,互联网解决方案,互联网增值服务。针对工信委大力实施“万企业上云”计划,景安以我所能,为你而+,推出上云特惠,核心云计算产品降幅达50%!!也欢迎来聊右侧qq

    澳门国际赌场 www.qilebang.com superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集。  

    程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~

    本来几年前就写好了,没什么技术含量,没想到小伙伴的使用需求还蛮大的,不敢私藏~~  

    立了flag,git的star过200就一定抽时间去升级,这个flag已经实现,目前已经是4.0版本~~  更新后就在这里发出来了。

    优势介绍

    1.支持多搜索引擎,很方便添加集成。(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。

    2.开源,跨平台,使用python开发;

    3.做了兼容性优化,同时支持python2和python3;

    4.支持自动过滤重复内容,支持过滤标题中存在指定关键词的内容,支持过滤域名;

    5.保存方式同时支持本地txt和mysql数据库;

    6.从搜索引擎采集到的地址,是真实网站地址,不是像百度快照那样的三方地址;

    7.多进程同时采集。每个搜索引擎都单独一个进程;

    8.可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。

    9.可自定义每页采集时间间隔,防止被屏蔽;

    运行效果

     

     



    使用说明

    1.安装python2或者python3运行环境;

    2.如果提示没有找到库,则需要安装依赖:

    如果是python3,则:

     

    
    

    pip install ConfigParser

    pip install tldextract

     

    如果是Python2,则:

     

    
    

    pip install tldextract

    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser

     

    3.根据自己的需要,修改根目录下的config.cfg配置文件。 


    如果保存方式为Mysql,还需要执行以下sql创建表:

     

    
    

        CREATE TABLE `search_data` (

          `id` int(11) unsigned NOT NULL AUTO_INCREMENT,

          `engine` varchar(20) NOT NULL DEFAULT '',

          `keyword` varchar(100) NOT NULL DEFAULT '',

          `baseurl` varchar(255) NOT NULL DEFAULT '',

          `realurl` varchar(255) NOT NULL DEFAULT '',

          `urlparam` varchar(255) NOT NULL DEFAULT '',

          `webtitle` varchar(255) NOT NULL DEFAULT '',

          `create_time` int(10) NOT NULL,

          PRIMARY KEY (`id`)

        ) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;

    项目地址:【GitHub传送门

    至于要不要再开发一个JAVA GUI版本的或者php写WEB版本的,先观望观望~~

    *本文作者:superl,转载请注明来自FreeBuf.COM

    0(好文)
    0(太水)
    版权声明:部分文章源于网络,如侵权请联系我们删除
    买购快云Plus,云服务器折上折

    专题页