网络爬虫系统详细设计说明书V0.2.1.doc:..网络爬虫系统详细设计说明书用户单位:承建单位:-7--8-3M陈跃群添加“模块关系图”,“模块描述”,修改部分类图,-8-mon模块时序图”,修改部分编号注:A-添加,M-修改,D-删除,C-审核目录第1章弓I言 41.■ 4第2章系统概述 MON模块 12第4章生成种子子系统 18第5章网页数据采集子系统 、分类器模块 40第6章预处理子系统 46第7章归类子系统 55第8章导出子系统 59第9章二级域$酮页釆集 62第10章二级域名预处理 、承建单位的相关人员说明系统总体设计的技术方案,从程序系统的设计角度出发,考虑系统中的整体架构、处理流程、模块划分、功能分配、接口设计、运行环境、数据结构设计和出错处理设计等内容,以向整个设计期提供关于程序系统的逻辑和数据功能实现方式的总体描述,从而作为程序详细设计或编码的基础。设计阶段将以本文档为核心文档。本概要设计说明书的适用读者为:客户代表、业务分析人员、系统架构师、系统开发人员、测试人员。,并按照主题对所采集的URL进行索引及归类,与移动GPRS/TD用户所访问URL进行匹配,从而发掘用户的潜在需求,以及供用户按照关键字检索网络媒体介质和匹配URLs的主题分类等功能。(具体见“网络爬虫概要没计说明书”)(十大)门户网站中的二级目录归类到各个相应主题下面。把H录划分到对应的主题的过程,在爬虫系统中称为网页分类的过程。网页分类的过程分为“种子文件生成”、“网页采集”、“预处理”、“分类”等模块,mon模块)是主线程相关的模块。网页分类子系统各个模块之间的联系如下图(图2-1)所示。>mon模块主要是主线程管理各个业务线程实例的产生、启动、停止、监视等功能;>种子生成模块:为网页分类服务的种子生成模块读入了既定格式的种子文件,把读到的种子格式化后持久化;该模块和网贞采集子系统的接门即为数据库中的链接种子表;>网页采集模块:网页采集主要是通过WAP/接内容爬取下来,并把内容持久化,以便供预处理处理;该模块还有一个任务,就是从爬取到的内容中抽取出链接,放到链接种子库中,以便二次采集;该模块和种子生成模块的数据接门是链接种子表,和T一个预处理模块的接UI是封装的链接内容(SeedContent)表;>预处理模块:预处理模块是把
网络爬虫系统详细设计说明书V0.2.1 来自淘豆网m.daumloan.com转载请标明出处.