README.md 1.5 KB

qc-dgp

介绍

Data grabbing platform(DGP)数据采集平台

文档结构

  • dgp为代码目录,gpd/tests为测试代码目录
  • docs为文档目录

安装教程

  • 确保已安装Python3
  • 安装项目依赖,执行 ``

特性

  • 数据库使用dbutils连接池,并独立配置mysql的配置文件db_config.ini
  • 平台订单数据爬取采用线程池子线程爬取,大大提升爬取速度
  • 平台账号配置(conf/account)使用csv配置文件存储,方便修改同步,并支持直接修改后,下次获取即可生效,无需重启脚本

后续优化点

  • 数据库连接需要单独配置
  • 业务报警,钉钉提醒,邮件?
  • 异常处理
  • 日志输出
  • 全局常量配置

使用说明

  • 代码在crontab 中调度,输入crontab -e

特别说明

  • 掌中云 订单保存时提示是实际入库记录,因为要去重,另外可能存在重复的数据(掌中云有多个账号有同一条订单数据)
  • 阅文 查询有整点订单查询不到,结束时间多加5秒可以查询,这个是阅文的bug
  • 花生 订单查询结果是按天查询的,没有按小时查询,所以每小时获取的都是小时当天的所有数据
  • 悠书阁 订单查询结果是按天查询的,没有按小时查询,且每小时查询的时候要判断结束时间要比开始时间大一天,否则查询不到数据

待做

  • 订单拉取合并为一个代码 小时调度