基于Java技术的主题网络爬虫的研究与实现

基于Java技术的主题网络爬虫的研究与实现

点数论文　 2012-4-6 版权投诉上传论文复制论文网址上传用户：会员ID190953

    作者简介：林海霞，石家庄法商职业信息科学系，硕十研究生，讲师，河北石家庄050091司海峰，石家庄法商职业信息科学系，讲师，河北石家庄050091张微微，石家庄法商职业信息科学系，硕上研究生，河北石家庄050091
    ?56?
    万方数据
    MicrocomputerAppllcationsVoL
    25，No．2，2009
    技术交流
    微型电脑应用
    2009年第25卷第2期
    算法将设定一个参数d，d是网络爬虫在遇到与主题无关链接时所需爬行的最大深度。如果crawler在爬行深度d步以后仍然没有发现与丰题相关的页面，才将P1这个无关链接舍弃。但是如果crawler在经过12，l，，14，15，16，这几条路径的搜索后都能找到与主题相关的贞面，就说明pl这个链接蕴涌着很大的远期【旦l报价值。根据这种思想本文对Best．First算法做蕈新调整，目的是提高算法的“查令率”。算法利崩Java的多线程思想，采用并发机制，实现过程如下：算法实现：
    务器对请求的响应，等待时间将是对每一个网页请求等待响应时间的累加。因此网络爬虫必须采用多线程技术来减少
    等待的时洲41。
    2＿2数据库访问技术网络爬虫采用基于SQLServer数据库队列管理机制，必须要有相应的数据库访f＇口J技术。Java为我们提供了访问数据库的接口JDBC（Java
    Database
    Connectivity）。JDBC的用途
    是允许向数据库发送SOL语句，从而让你可以从指定的数据库中返回数据。在Java中，有四种类型的数据库驱动程序可以使JDBC有效的访问数据库15I。
    BF－BF（topic，mrtmg—urls）｛link＿l2fetch1i1岖startiIlg—un）＇
    While（visited＜MAX—PAGES）｛
    doc＝fetch（1inkj）；score＿rl＝sire（topic，doe）；if（socre＿rl＞r1）
    3实现过程
    3．1算法实现的关键类以及关键函数要实现该算法需要创建的关键类有：Crawler类、CrawlerInteralWorkload类、CrawlerWork类、CrawlerDone类，CrawlerSQLWorkload类，主要接Lj有：CrawlerReportable接口，1workloadStorable接口。Crawler类实现了网络爬虫的基本功能，即多线程抓取网页，监视和处理网页，提取新链接等功能。除此之外，它还担当Crawler接口，并且由Crawler对象管理线程池。CrawlerWork类创建CrawlerWork对象，CrawlerWork对象要处理Crawler必须访问的URL，当CrawlerWork对象首次启动时，它将请求URL处理。CrawlerWork对象调＿HjCrawler对象的getWorkload（）方法，getWorkload0方法会返回一个待检查的新URL。如果没有等待的URL，getWorkload0方法将会等待新任务的f｛j现。CrawlerDone类要精确地跟踪目前有多少个线程仍在运行。
    ｛enqueuel（frontier，extract＿＿links（doc），score＿r1）；｝
    else
    ．
    ｛score＿r2＝link＿score＿r2（D，links）；if（scorer2＞r2）enqueue＿l（frontier，extraetlinks（doc），score＿r2）；
    else
    enqueue＿2（1inks）；））
    ｝
    2实现的关键技术
    2．12．1．1
    CrawlerSQLWorkload类将作业完成的结果存储在SQL数据库中。1workloadStorable接口帮助Crawler存入和取出队列中的嘲页。模块中的关键函数如下：
    pubhcclass
    Java技术Java语言的特点Java语言具有多线程性、简单性、面向对象、分布式、
    解释性、强壮性、安全性、与平台无关性、可移植性等显著
    Crawler
上一页 1 2 3 下一页
下载此论文注册会员原创论文及论文定作定作程序设计网络精品一起学

 提供各类程序设计和程序下载修改等提供ASP\VFP\PB\VB\ASP.NET\DELPHI系统定作修改服务

【责编:网学网上传论文】

【设为主页】【加入收藏】【打印本文】【回到顶部】【关闭此页】
- 相关文章
  
  ·面向对象程序设计与Java
  ·面向对象程序设计(Java)1
  ·面向Java的代码混淆技术的研究
  ·针对Android的Java基础讲座
  ·针对Android的Java基础学习
  ·运动会管理系统毕业论文javaacces
  ·软件设计论文软件课程设计论文：Java程
  ·软件工程专业JAVA程序设计课程考核改革
  ·车辆定位监控公司星控高科推介JAVA手机
- 最新文件
  
  ·汉语分词在中文软件中的广泛应用
  ·现代汉语文本的词语切分技术
  ·《现代汉语语法信息词典》的开发与应用
  ·汉语文本词性标注标记集的规范
  ·小议人工智能技术在信息检索系统中应用
  ·人工智能的研究领域与应用领域
  ·我们身边的人工智能应用
  ·人工智能概述（原创）
  ·人工智能语言--PROLOG
　友情链接

特别推荐

　最新原创论文　　　　　　　　　更多

免费论文,原创论文,参考论文,论文源代码-网学

基于Java技术的主题网络爬虫的研究与实现