火车头采集图文教程.因为有人要.所以做了下.
首先说一下我对于采集器工作的原理认识(不一定正确.但这是我自己的理解~)我认为采集器工作的原理是这样的:
一、获取采集地址
二、进行源代码分析
三、提取所需部分
四、导出所需内容到相应地方
上面就是我对于采集器的认识.大家也可以自己理解下工作原理.了解工作原理对于使用起来绝对有好处~
下面就开始进入正题.首先是火车头的下载.火车头的官方地址是: http://www.locoy.com
在那里下载最新版本吧~我使用的是最新版本 V1.2.0
下载完成后解压到任何一个文件夹.
然后打开火车头开始进行采集之路~
首先要确定目标~偶本来想用金光做为教程目标的...但是又怕被XX...所以..就不用金光了..:$:$
就俺的站吧: http://bbs.ayiy.com (也就顺便AD下啦...);P;P
首先分析一下我的站.其中有三个版块是认证版块.也就是需要登陆才可以看到.有一个版块是版主版块.那要版主
以上才可以进去~所以那个版块就不用想了.
我先说下游客可看的版块采集方法.这是最简单的采集方法.
首先打开采集器.按照我刚才分析的采集器工作原来来进行采集.
一、获取采集地址
确定要采集的版块.比如"在线电影".版块地址为: http://bbs.ayiy.com/forum-18-1.html
在火车头里填上版块地址,并设置连接参数.首先是连接地址中必须包含: 我填: thread-
不得包含: 这里不填 页面内选定区域采集网址从: 论坛主题 到: Powered by
http://pic.jgwy.net/snap121.jpg
现在来分析下参数设置.网页地址: 也就是版块地址.填上这个以后火车头就会在所填的网页中分析提取所需要采
集的地址.连接地址中必须包含: 这个是为了分析提取而定的.因为论坛里所有帖子其中都包括了thread-这段URL.
所以我填了这个.也许你会说.为为什么不填http://bbs.ayiy.com呢?原因是后面还有用户名也
包含了http://bbs.ayiy.com.不得包含中我没有填.因为没必要填.大家可以根据实际情况来填写不包含的内容.
页面内选定区域采集网址从: 这里的意思是提取区域是从哪里开始?因为我并不想提取到置顶贴子.
所以我选定区域从填为: 论坛主题 大家仔细看下就知道了.论坛主题 几个字是在置顶贴下面的.
到我填了 Powered by 也就是提取区域一直提取到 Powered by 这几个字那里.
下面点击"采集连接".接着稍等片刻就可以看到连接已经被采集到了
http://pic.jgwy.net/snap123.jpg
在右下角那里有个"保存名称".我们给这些URL取个名字.比如:"在线电影" 然后点击保存全部.
(注意: 保存的名字不可以是数字开头的.否则你保存不了.还有不要有特殊字符.否则可能会出错.)
http://pic.jgwy.net/snap124.jpg
点击保存后会告诉你保存成功
http://pic.jgwy.net/snap125.jpg
现在我们点标签页上的"全局配置"进入下一步
二、设置采集参数属性
进入"全局配置".先加一个采集规则(采集规则就是采集网页时的提取规则).
点击左边的新建规则进入规则编辑窗口.
http://pic.jgwy.net/snap126.jpg
http://pic.jgwy.net/snap127.jpg
标记标题提取参数.
鼠标选中规则编辑页中的标题编辑标签.
http://pic.jgwy.net/snap128.jpg
然后点旁边的修改标签进行标签修改.
http://pic.jgwy.net/snap129.jpg
现在我们打开任何一篇帖子.如: http://bbs.ayiy.com/thread-1710-1-1.html
查看源代码.确定帖子标题所在代码段.
<title>哎呀爱呀娱乐网 - 在线电影 - 网络红人陆风哥哥之撞鬼 - powered by Discuz!</title>
帖子标题就在这里.
回到火车头.进行如下填写:
http://pic.jgwy.net/snap130.jpg
具体意思我就不说了.大家自己分析下吧.
填好后点确定进行保存.
现在我们来测试下标题是否能够正常获取.
在右方有个页面测试.在后面输入帖子地址: http://bbs.ayiy.com/thread-1710-1-1.html 然后点开始.
结果出现在了下面
http://pic.jgwy.net/snap131.jpg
恩,不错.标题已经成功获取了.
现在来设置内容.
同样鼠标选中内容标签.然后点击修改标签.
接着打开帖子源代码.确定内容代码所在范围.
找到如下:
<span class="smalltxt"><span class="bold"> 网络红人陆风哥哥之撞鬼</span></span><br><br>
<span style="font-size: 12px"><object height="400" width="500" classid="CLSID:6BF52A52-394A-11d3-B153-00C04F79FAA6" align="center" border="0"><param name="AutoStart" value="0"><param name="Balance" value="0"><param name="enabled" value="-1"><param name="EnableContextMenu" value="-1"><param name="url" value="http://www.etownshop.com/bbs200603/0B1143355356776.wmv"><param name="PlayCount" value="1"><param name="rate" value="1"><param name="currentPosition" value="0"><param name="currentMarker" value="0"><param name="defaultFrame" value=""><param name="invokeURLs" value="0"><param name="baseURL" value=""><param name="stretchToFit" value="0"><param name="volume" value="100"><param name="mute" value="0"><param name="uiMode" value="mini"><param name="windowlessVideo" value="0"><param name="fullScreen" value="0"><param name="enableErrorDialogs" value="-1"><param name="SAMIStyle" value><param name="SAMILang" value><param name="SAMIFilename" value><param name="captioningID" value></object></span>
这就是完整的内容代码.但是..我们并不需要完整的.我们的最主要目的就是得到帖子中的视频地址.
经过分析后我就把代码范围定在了这里:
</span></span><br><br>
<span style="font-size: 12px"><object height="400" width="500" classid="CLSID:6BF52A52-394A-11d3-B153-00C04F79FAA6" align="center" border="0"><param name="AutoStart" value="0"><param name="Balance" value="0"><param name="enabled" value="-1"><param name="EnableContextMenu" value="-1"><param name="url" value="http://www.etownshop.com/bbs200603/0B1143355356776.wmv"><param name="PlayCount" value="1"><param name="rate" value="1"><param name="currentPosition" value="0"><param name="currentMarker" value="0"><param name="defaultFrame" value=""><param name="invokeURLs" value="0"><param name="baseURL" value=""><param name="stretchToFit" value="0"><param name="volume" value="100"><param name="mute" value="0"><param name="uiMode" value="mini"><param name="windowlessVideo" value="0"><param name="fullScreen" value="0"><param name="enableErrorDialogs" value="-1"><param name="SAMIStyle" value><param name="SAMILang" value><param name="SAMIFilename" value><param name="captioningID" value></object></span>
现在去修改标签里填上开始字符串为: </span></span><br><br> 结束字符串为: </span>
如果你的论坛支持HTML发贴的话.那么我想这样就可以了..但是如果不支持的话.那么就需要再设置替换及过滤等.
大家自己尝试修改了看下.我就写这种支持HTML的吧..
结果如下:
http://pic.jgwy.net/snap132.jpg
再测试.正确了~
http://pic.jgwy.net/snap133.jpg
现在我们需要的东西都取到了..可以保存规则了~~
左下角给规则取个名字.如: 在线电影 (命名规则和URL命名规则一样)
点击保存添加既可.
保存后关闭标签修改页.
回到全局配置.在规则侧点刷新列表显示出新建的规则.并选中.右侧选中刚才获取的URL列表
http://pic.jgwy.net/snap135.jpg
点击标签页上的"登陆发表"进入发贴页面.
三、发表帖子
选择发表系统类型: 在选择系统代码类型模块中选择你的论坛或者CMS的类型.
如我的是DZ(自己修改的适合我自己的DZ4.1的模块).
若没有适合自己所使用的模块.大家也可以自己制作一个.按照原模块根据需要修改下就可以了~
http://pic.jgwy.net/snap136.jpg
填上页面地址和用户名及密码
页面地址既为论坛地址.不要加任何东西.如你的论坛登陆页为http://yoursite.com/login.php
那么你填的页面地址就应该为: http://yoursite.com不要加 /
用户名和密码就填大家自己的管理员名和密码
这里有一个问题.就是有的帐号是需要用安全提问和答案才可以进入的.
我的管理号也一样.但是火车头中又没有这个功能.那么就只有修改登陆模块.
我使用的就是自己修改的~其实修改很简单.只要使用工具截取登陆的POST信息来修改下就可以了.
设置后结果如下:
http://pic.jgwy.net/snap137.jpg
设置确定没问题后就点击登陆.
若登陆正常则会出现这样的提示
http://pic.jgwy.net/snap138.jpg
若出现其他请检查设置.
登陆成功后请点击下面的刷新列表
http://pic.jgwy.net/snap139.jpg
刷新成功后可在列表中看到自己的论坛版块
http://pic.jgwy.net/snap140.jpg
若刷新不成功请检查下自己的设置.或者伪造个COOKIE试试.
成功后选择需要发表到的版块.因为我是做教程.所以我就选择版主版块来发.这样不会影响到其他用户正常看贴.
http://pic.jgwy.net/snap141.jpg
选择好后在右上角选择发贴方式.我选择UBB类型发贴.大家也可以选择HTML~按照自己的情况看啦~
如果你想让帖子倒序发表.请选择倒序发表.我选择上.
http://pic.jgwy.net/snap142.jpg
全部设置好...我们就可以点发表了~点击后会弹出一个窗口来显示进度.
http://pic.jgwy.net/snap143.jpg
发表完成后就可以关闭这个进度窗口了.
现在可以去看下自己的成果了~
还有一些其他的情况比如需要登陆才可以获取帖子地址和内容等.这些我会在以后再更新的~现在就先弄到这里~
[ 本帖最后由 伤心♂o○ 于 2006-3-29 13:11 编辑 ] 累啊.. 没有用过啊!! 看都把人看死 郁闷...老大没弄自动贴图...害我又重新编辑了一遍 不错的文章,收藏了。 写得累死我了.....哎...没几人顶...没人加分....哭呀.... 虽然我不用
给你加1分奖励 顶下 没意思,累