教育论文网

面向多场景的大数据集成存储与治理系统的设计与实现

论文目录
摘要第1-6页
ABSTRACT第6-8页
中英文缩略词对照表第8-12页
第一章 绪论第12-19页
 1.1 研究背景及意义第12-13页
 1.2 国内外研究现状分析第13-15页
  1.2.1 网络爬虫技术发展现状第13页
  1.2.2 数据集成技术发展现状第13-14页
  1.2.3 数据治理技术发展现状第14-15页
  1.2.4 研究现状中存在的问题第15页
 1.3 论文目标及主要研究内容第15-17页
  1.3.1 定制化网络爬虫子系统的研究与实现第16页
  1.3.2 面向多场景的统一数据集成子系统的研究与实现第16-17页
  1.3.3 统一数据治理子系统的研究与实现第17页
 1.4 论文组织结构第17-19页
第二章 相关技术和系统方案研究第19-25页
 2.1 网络爬虫相关技术和系统方案研究第19-21页
  2.1.1 WebMagic爬虫框架第19-20页
  2.1.2 Connector插件开发第20页
  2.1.3 XPath语言第20-21页
  2.1.4 系统技术方案及可行性分析第21页
 2.2 数据集成相关技术和系统方案研究第21-23页
  2.2.1 数据源变化捕获技术第21-22页
  2.2.2 Kafka Connect第22-23页
  2.2.3 系统技术方案及可行性分析第23页
 2.3 数据治理相关技术和系统方案研究第23-25页
  2.3.1 数据湖和数据仓库第23-24页
  2.3.2 大数据仓库Hive第24页
  2.3.3 图数据库Neo4j第24页
  2.3.4 系统技术方案及可行性分析第24-25页
第三章 可定制的分布式网络爬虫子系统的设计与实现第25-37页
 3.1 系统需求分析第25-26页
  3.1.1 可定制性需求第25页
  3.1.2 可恢复性需求第25页
  3.1.3 并行性需求第25-26页
 3.2 系统架构设计第26-32页
  3.2.1 模块化定制第26-29页
  3.2.2 全局URL调度第29-30页
  3.2.3 分布式运行第30-32页
 3.3 系统实现第32-37页
  3.3.1 kafka-connect-WebMagic插件的实现第32-35页
  3.3.2 爬虫管理服务模块的设计和实现第35-37页
第四章 面向多场景的统一数据集成子系统的研究与实现第37-51页
 4.1 系统需求分析第37-39页
  4.1.1 功能性要求第37-38页
  4.1.2 非功能要求第38-39页
 4.2 系统的模块设计第39页
 4.3 系统的模块实现第39-44页
  4.3.1 控制台模块第40页
  4.3.2 管理服务模块第40-41页
  4.3.3 数据抽取、加载模块第41-44页
  4.3.4 数据处理模块第44页
 4.4 系统的功能优化第44-51页
  4.4.1 文件实时数据抽取第44-48页
  4.4.2 语义一致性保证方法第48-51页
第五章 统一数据治理子系统的研究与实现第51-67页
 5.1 系统需求分析第51页
 5.2 系统模块设计第51-52页
 5.3 系统模块实现第52-67页
  5.3.1 数据源接入模块第52-56页
  5.3.2 数据湖管理模块第56-57页
  5.3.3 元数据管理模块第57-61页
  5.3.4 数据质量管理模块第61-62页
  5.3.5 图谱标签管理模块第62-67页
第六章 系统部署与测试第67-86页
 6.1 系统部署第67-69页
  6.1.1 系统间集成关系第67-68页
  6.1.2 系统部署环境第68-69页
 6.2 功能测试第69-85页
  6.2.1 爬虫管理服务测试第69-72页
  6.2.2 数据同步服务测试第72-74页
  6.2.3 数据治理服务测试第74-85页
 6.3 本章小结第85-86页
第七章 总结与展望第86-88页
 7.1 本文工作总结第86-87页
  7.1.1 定制化网络爬虫子系统的实现第86页
  7.1.2 统一数据集成子系统的实现第86-87页
  7.1.3 统一数据治理子系统的实现第87页
 7.2 本文的不足及展望第87-88页
参考文献第88-92页
致谢第92-93页
攻读学位期间取得的研究成果第93页

本篇论文共93页,点击 这进入下载页面

 
 
Copyright(C) All Rights Reserved
客服QQ:304386486
目录由用户 suph** 提供,作者删除入口请点击这里