说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?

  1)网络爬虫高度可配置性。

  2)网络爬虫可以解析抓到的网页里的链接

  3)网络爬虫有简单的存储配置

  4)网络爬虫拥有智能的根据网页更新分析功能

  5)网络爬虫的效率相当的高

  那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?

  1)url的遍历和纪录

  这点larbin做得非常的好,其实对于url的遍历是很简单的,例如:

  cat [what you got] tr \” \\n   gawk ‘{print $2}’   pcregrep ^http://

  就可以得到一个所由的url列表

  2)多进程VS多线程

  各有优点了,现在一台普通的PC例如booso.com一天可以轻松爬下5个G的数据。大约20万网页。

  3)时间更新控制

  最傻的做法是没有时间更新权重,一通的爬,回头再一通的爬。

  通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍。

  如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

  注意,效率是取胜的关键之一。

  4)爬的深度是多少呢?

  看情况了。如果你比较牛,有几万台服务器做网络爬虫,我劝您跳过这一点。

  如果你同我一样只有一台服务器做网络爬虫,那么这样一个统计您应该知道:

   网页深度:网页个数:网页重要程度

  0 : 1 : : 10

  1 :20 : :8

  2: :600: :5

  3: :2000: :2

  4 above: 6000:一般无法计算

   好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

  5)爬虫一般不之间爬对方的网页,一般是通过一个Proxy出去,这个proxy有缓解压力的功能,因为当对方的网页没有更新的时候,只要拿到header的tag就可以了,没有必要全部传输一次了,可以大大节约网络带宽。

  apache webserver里面纪录的304一般就是被cache的了。

   6)请有空的时候照看一下robots.txt

   7)存储结构。

  这个人人见智,google用gfs系统,如果你有7/8台服务器,我劝你用NFS系统,要是你有70/80个服务器的话我建议你用afs系统,要是你只有一台服务器,那么随便。

   给一个代码片断,是我写的新闻搜索引擎是如何进行数据存储的:

   NAME=`echo $URL  perl -p -e ’s/([^\w\-\.\@])/$1 eq “\n” ? “\n”:sprintf(“%%%2.2x”,ord($1))/eg’`mkdir -p $AUTHOR

  newscrawl.pl$URL–user-agent=”news.booso.com+(+http://booso.com)”-outfile=$AUTHOR/$NAME

  特别是注意以下几句:

  1.通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

   网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。

  2.好了,爬到三级就差不多了,再深入一是数据量扩大了3/4倍,二是重要度确下降了许多,这叫做“种下的是龙种,收获的是跳蚤。

  尽量将网站保持在三级目录内,深层次的网页会给搜索引擎带来很大的压力,当然,我想Google有足够的服务器来承担这些压力,但从侧面来说,3层目录下的网页被抓取及更新的频度要低很多。前面,我说过,要想办法使网站物理结构和逻辑结构吻合,这体现于URL的良好设计,现在你可以检查下前台生成的静态网页的实际目录有几层,考虑是否可以优化。

Tags:
二月 22nd, 2010 Posted in 程序语言 | No Comments »

这些比较低级的“黑客”,通过工具扫描网站的漏洞,早点屏蔽掉吧
htaccess文件写入以下,即可


deny from all

order deny,allow
deny from 124.232.137.130 183.60.2.16 219.147.50.170 183.60.2.14 117.41.163.63 117.84.219.100 122.48.100.76 58.241.135.39 58.241.135.38 123.15.235.187 123.171.74.205 117.41.167.198 220.186.52.141 113.108.81.39 118.118.11.228 222.189.238.57 113.111.108.55 124.72.184.190 58.55.127.21 117.41.163.63 113.8.192.2 118.181.10.46 117.41.166.94 115.151.139.242 59.36.101.86 60.12.200.20 121.12.107.93 210.56.54.160 220.186.33.118 111.72.180.107 61.171.175.212 222.186.30.73 122.157.54.236 113.240.127.205 114.93.43.203 114.224.21.92 113.65.177.214 115.52.76.62 115.49.5.69 117.135.131.46 117.41.167.186 121.12.104.186 121.14.145.31 123.117.38.41 123.13.101.245 123.160.254.122 124.236.1.135 124.236.15.229 124.236.94.27 125.64.67.71 125.77.129.209 202.172.169.52 218.75.74.178 220.189.237.134 220.189.245.111 221.204.246.105 222.132.209.27 222.189.237.135 222.189.237.150 222.189.238.57 222.216.147.115 222.73.173.11 222.75.135.88 222.35.140.57 60.161.145.151 61.176.216.91

二月 21st, 2010 Posted in 默认分类 | No Comments »

 

潍坊汇泉厨业成立于己于1995年,随着业务的不短扩大在“中国不锈钢厨都”建立了自及的生产基地。企业占地面积50000多平方米,大型豪华展厅近1000多平方米。公司拥有遍布全国的营销网络,是目前国内大型厨具、制冷、环保设备制造企业。 汇泉拥有先进的数控制造和检测设备及大型生产流水线。汇泉厨业主要产品有:商用电磁炉灶系列、燃油燃气炉灶系列、油烟净化装置系列、蒸饭消毒系列、食品机械系列及家用厨具系列。汇泉冷链主要有:商用冷冻冷藏柜系列、超市风幕柜、保鲜销售系列、饮品展油烟净化装置系列、蒸饭消毒系列、食品机械系列及家用厨具系列。 公司牢固树立“质量为本,信誉第一,顾客至上”的企业宗旨,坚持“以人为本,科技创新”的经营战略,走“系统化,标准化,规范化,科学化”的经营管理之路,把“迅速反应,马上行动,协调配合,直至落实”作为企业行动指南。汇泉将以一流的产品,齐全的生产设备,多样化的产品,完善的服务质量体系保证,为顾客生产优质的产品,提供满意的服务。

 

二月 19th, 2010 Posted in 只为糊口 | No Comments »

   接触网络是从2003年开始的,那时候高考结束,想从网上得到全面的高考成绩,第一次走进网吧。进去之后老板给了牌子,写在他的本本上,几点几分,几号机跟几号牌,呵呵,我就到了分配给我的电脑前,开机还是会的,在学校没学到别的,就会这个了,只不过顺序老是弄不清(先开显示器还是先开主机)。打开电脑之后,茫然了,桌面上有两个e这怎么弄啊,随便打开一个,远程协助?记不清了,好像是这个。这也没有东西啊,怎么看,灵机一动,呵呵?招呼老板过来。老板过来把我打开那个关了,打开另一个,说:好了,别开那个!就走了,对第一次上网就这点印象了。后来一年就没有再去过网吧,整一年后(为什么我记得那么清楚啊,因为都是高考后的第一天),再次来到网吧,跟同学来到网吧,放松一下,听说网上有片,那通找啊,找了一晚上,也没找到,就看见几张图片,正欣赏呢,网管看见了,朝我们这边喊:别看乱七八糟的!呵呵,我同学还郁闷呢,谁看乱七八糟的了,o(∩_∩)o…

     几个月之后,高考成绩出来了,成绩还可以,唉,要不怎么说呢,只能说:只怪当初太年轻了,一心只想往外飞,以为外面的月亮比家里的圆,一失足成千古恨!结果—阴差阳错,到了一个垃圾学校。

    学校的日子是枯燥无味的,像很多刚入校门的大学生一样,我走在了去网吧的小路上。无意中接触了,网页制作,那个神奇啊,哈哈,当时用得是ik8免费网站的,都是静态,当然当时也没有那个概念,分什么静态动态的,添加了几个连接,就发给网友看,懂行的说,你这是静态的,我还纳闷呢,那不是动吗?那时弄了一张gif图片,就是从10数到1说你是猪那张,呵呵,现在想想都好笑。

     发现网页之后,一发而不可收,学校将来也学这方面的东西,但是等不及了,开始了猖狂的自学。原来我也是总去图书馆,但都是在现刊呆着,看看报纸,杂志什么的,自从有了这个兴趣之后,我就转移方向了,现刊对面的理科借阅处,图书馆我们刚去那会有个借阅排行榜,后来我觉得我的借书比例次数很高的时候去查这个榜,竟然没有了,哈哈,垃圾学校就是垃圾,有那么一点优点它都能给你整没了。

 到了大二?要不就是大三,开了个asp的课,那时我还是经常去网吧,一查,这东西都过时了,现在最新的是asp.net,唉!学校垃圾。净给我们些剩菜剩饭,过时的东西,还教给我们,关于这个问题,我还专门跟系主任讨论过,就是到底是asp好,还是asp.net好,讨论也没有结果,他说看怎么用,干什么用,说他用过asp.net,用了一段时间,说“封闭”(还是“包装”来着,应该是“封装”)做得不错,但是那样留给开发者的空间就小了,我是持不同意见的,照那个理论,我们似乎应该一切用01去编写程序,那样空间是大了,从哪开始啊,人类之所以能够进步,就是因为不断的总结,而不是每一次都从原始从无从零开始。o(∩_∩)o…哈哈真佩服我自己,说出这么有哲理的话来。

 自学asp.net,因为要用到mssql,就一直没扔了,现在在我们同学中,大概老师教的这个就我这还剩下了,还有就是现在的熟练程度,比考试时候都高。兴趣就是最好的老师!就这样一直坚持自学asp.net了很多年,一直到前不久。这就是我的从网经历

这中间还有一段时间,困惑于到底是学MS的asp.net呢,还是SUN的Java,后来网上一个人的一句话,帮我做了决定,那人说:跟着微软有馒头吃!不错我就爱吃馒头,不爱吃米饭,那就学.net吧

二月 19th, 2010 Posted in 经营人生 | No Comments »
方法一、在桌面上点击右键 — 排列图标 — 去掉“在桌面上锁定Web项目”上的勾。

方法二、右键点击我的电脑 — 属性 — 高级 — 点击“性能”下面的“设置”按钮,在“视觉效果”选项卡上,直接选“自定义”,然后在下面的众多选项里,在“在桌面上为图标标签使用阴影”选项前面的打勾 — 确定

方法三、对于由acktive desktop 引起的问题,用下述方法可能可以解决:
在桌面点击右键 — 属性 — 桌面 — 自定义桌面 — web — 将“网页”栏中的“当前主页”以及“http//blog.ceodiy.com”等所有各项前面的勾全部去掉(“http//”为从Internet添加网页或图片的地址,一般不需要,可将它们全部删除),并将下面“锁定桌面项目”前面的勾也去掉,单击确定,OK。

二月 19th, 2010 Posted in 程序语言 | No Comments »

我在推广潍坊汇泉这个网站,因为网站程序,内容还没完善,我也没用其他的推广手段。只是把网站域名提交到百度和谷歌,过去了大概4~5天的样子,中间基本上每天提交一次,域名www.wfhuiqua.com是新注册的,域名www.ceodiy.com是我个人的现在没用也绑定到汇泉网站上了,大概在3天左右时间,我个人的域名ceodiy.com已经被百度收录,快照更新,谷歌没有收录,但是直到现在wfhuiquan.com还没有收录,谷歌百度都是这是一;再就是二,我这个博客,开通在汇泉之后两三天,但是谷歌收录了,百度没有反应。由此我稍微总结一下,是不是百度对商用类的网站敏感一些,谷歌对学术性质的网站敏感呢,粗浅的个人感觉。今天是4月21日

二月 19th, 2010 Posted in 只为糊口 | No Comments »
asp.net的优点之一是可以把业务逻辑通过编译封装在dll中,步署更新的时候并不需要在服务器上注册,
只需要通过ftp上传到网站的bin目录下即可。使用bin中的业务逻辑类,就跟使用app_code中的类一样方便,
只需要引入相应的命命空间,就可以在页面上自由引用了。(添加引用,再用using   导入namespace.要不是.NET或COM的就用属性[dllimport("")],把这个.dll放在目录下…)
手动把asp.net的类生成dll文件的方法:
开始-》程序-》Microsoft Visual Studio 2005-》Visual Studio Tools-》Visual Studio 2005 命令提示
然后进入你你的类目录,输入如下命令:
csc /t:library /out:生成的dll文件名.dll D:\需要生成的.cs

假设【需要生成的.cs】是存放业务逻辑类的文件
如果要为你的dll附加版本等信息,应引入System.Reflaction命名空间及添加相应的assembly信息,如:
using System.Reflection;
[assembly: AssemblyTitle("")]
[assembly: AssemblyDescription("例子文件")]
[assembly: AssemblyConfiguration("")]
[assembly: AssemblyCompany("NiuDao Corporation")]
[assembly: AssemblyProduct("NiuDao Business Logic")]
[assembly: AssemblyCopyright("NiuDao Corporation. All rights reserved.")]
[assembly: AssemblyTrademark("")]
[assembly: AssemblyCulture("")]
[assembly: AssemblyVersion("1.0.*")]

二月 19th, 2010 Posted in 程序语言 | No Comments »
请插入U盾做签名交易??U盾用不了了,老提示”请插入U盾做签名交易”,还要我”联系当地工行”吓死我了,以为是重装了系统的原因,原来不是,解决问题的方法找了好久才找到,郁闷啊!工行的人很多人白吃饭啊自己都解释不清楚…

原因:用于付款信息签名的控件netsign.dll这次升级了,在有些系统中ie不能自动升级此控件。
解决办法:
请客户登入企业网银后,在地址栏直接输入:https:\\corporbank.icbc.com.cn\icbc\netsign.dll,

个人网银请输入:https:\\mybank.icbc.com.cn\icbc\netsign.dll,按回车后会出现下载文件窗口,选择

保存到\windows\system32\目录,可能提示文件已存在,请选择覆盖,下载完成后在“开始-〉运行”中输

入”regsvr32 netsign.dll”,出现netsign.dll 注册成功信息后,即可顺利付款。
我在网上已经看到有人提问了,说明很多都遇到这种情况了,但改死的工行也不对此进行解释与回答,打了热线也回答说是驱动问题!幸好在网上搜索到了答案,在这里与大家分享一下,希望大家早日能解决问题。

二月 19th, 2010 Posted in 默认分类 | No Comments »

把窗口边成让眼睛能好受点的颜色,操作如下

桌面–右键–属性–外观–高级–项目–窗口–颜色–其他

色调:85

饱和度:90

亮度:205

然后单击[添加到自定义颜色] ~~~~~~点完确定就好

调整网页指定颜色

打开浏览器 点“工具” 再点“INTERNET” 再点“辅助功能” 在“不使用网页中指定颜色” 确定 ,退出

现在打开“我的电脑” “………

二月 19th, 2010 Posted in 默认分类 | No Comments »

从网上找了以下这么多方案,一个也没用其实就是一句话的事,让大师们整那么麻烦,在web.config中的 <system.web>加上

<globalization requestEncoding=”GB2312″    responseEncoding=”GB2312″    fileEncoding=”GB2312″    culture=”zh-CN”    uiCulture=”zh-CN”/>就ok了,不信你试试,假若你的网站是utf—8的你就写<globalization requestEncoding=”utf-8″ responseEncoding=”utf-8″ fileEncoding=”GB2312″    culture=”zh-CN”    uiCulture=”zh-CN”/>就行了,不行你找我,我给你解决

以下为网上的乱七八糟的
1.若是html文件(.htm .html):
在<head></head>中加上<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″>
2.若是PHP/cgi文件(.php .php3 .php4):
在每个PHP文件第一行加上<?header(“content-Type: text/html; charset=gb2312″; ?>

3.若是asp文件(.asp .jsp):
下面言归正传,说说asp源文件在国外服务器上中文问题的解决办法:

1.首先,把您的asp源文件放在 IIS 里进行全面测试,调用每一项功能,确认它完全能够使用,并正确显示中文,并打开 *.mdb 数据库文件查看中文显示是否正常。全部通过后,做好备份文件,即可执行第二步。

2.如果,您根本不懂 asp 的话,最简单的方法是:
打开 所有 *.asp 文件,并在第一行插入 <%@ codepage=”936″ %>,

例外情况:
①,如果第一行是以 <%@ LANGUAGE=”VBSCRIPT” %> 开头,
则把第一行改为:<%@ codepage=”936″ LANGUAGE=”VBSCRIPT” %>

②,如果第一行是以 <html> 或 <SCRIPT LANGUAGE=”javascript”>开头,则不加入。

3. 第二步完成后,再用 IIS 对每一项功能进行测试,如显示 \0\conn.asp line 1, 即为错误信息,意思是: conn.asp 源文 件第一行有错,那就把 <%@ codepage=”936″ %> 删除即可,一些例外错误,请到 http: //search.microsoft.com/default.asp ;这里,输入“错误信息”查询即可,全部功能测试可行后,即可上传至国外服务器 上,进行测试。

4.方法还是:调用每一项功能,全部能正确使用并能显示中文后,再“下传”*.mdb 文件(非常重要),打开,确认能正确显示中文,大功告成。

另外在外国服务器上用ACESS2000的中文显示方法不用转化数据库ACESS2000,只需在ASP第一行加入<%@ codepage=1256 %>

怎么解决外国空间中文显示出问题的问题
非程序生成的文字可以显示。但程序生成的文字就只有E文可以显示了。中文全是?号,这是数据库乱码引起的。

方法一:
使用 Microsoft Access 2000 打开数据库,选择工具菜单>数据库实用工具>转换数据库>到早期 Access 数据库版本。OK!

方法二:

后来订阅了微软的新闻组,在微软的新闻组dotnet.framework.aspplus.general中发现有讨论这
个问题的文章,方法为添加<%@ CODEPAGE = “936″ %>到每一页的开头,有点类似于jsp中的
<%@ page contentType=”text/html;charset=gb2312″%>
赶紧测试了一下,果然OK!!!

例子如下面所示:
<%@ CODEPAGE = “936″ %>
<%@ Import Namespace=”System.Data” %>
<%@ Import Namespace=”System.Data.ADO” %>
<%@ Import Namespace=”System.Globalization” %>
<html>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″>
</head>

方法三:

在翻阅了微软NGWS文档后发现在文档的常见问题部分有提到要添加一个config.web文件到
web目录下,试了一下,中文显示果然OK了。
方法如下:

建立一个文件config.web,内容如下,放在WEB目录下
<configuration>
<globalization
requestencoding=”utf-8″
responseencoding=”utf-8″
/>
</configuration>

DISCUZ论坛对付国外空间乱码最简单的办法

DISCUZ论坛对付国外空间乱码最简单了,在它的配置文件config.php里找到这句:
$headercharset = 1;                 // 强制设置字符集, 0=否, 1=是. 乱码时使用

将等号后面修改成1就可以了,无须修改其它文件。
其实很简单,但是注意到的人不多:)

二月 19th, 2010 Posted in 程序语言 | No Comments »