【院刊】-【201409期】抓取网页指定内容(资料)，获取网页里的图片 _ 学院院刊

查看: 292880\|回复: 823	[技术交流] 【院刊】-【201409期】抓取网页指定内容(资料)，获取网页里的图... [复制链接]

果果。。

组别初中一年级
UID2314582
帖子240
精华0
鲜花358 朵
铜币1358 个
银币49 个
在线时间1920
注册时间2013-12-26

1^#

字体大小: t T

发表于 2014-09-12 19:34 | |只看楼主

抓取网页指定内容(资料)，获取网页里的图片

最近有遇到同学反馈，网页里的那些没有特征值的文本元素不知道怎么获取。以及，不知道怎么获取保存网页里出现的图片。

获取网页指定文字：

目前按键支持的元素特征值有这些： frame（框架）、id（唯一标识）、tag（标签）、type（类型）、txt（文本）、value（特征）、index（索引）、name（名字）拥有这些特征值的元素才能直接使用HtmlGet命令来获取元素文本信息。

命令名称：	HtmlGet 获取网页元素的信息
命令功能：	获取网页元素指定属性的信息
命令参数：	参数1：字符串型，网页元素属性类型：text、html、 outerHtml、value、 src、 href、 offset 参数2：字符串型，网页元素特征字符串

例如下面的例子，按键精灵论坛搜索框，它有type、name、id这三个特征值。

: 您所在的用户组无法下载或查看附件

我们取它id特征值带入到HtmlGet 命令来查看下结果：

Call Plugin.Web.Bind("WQM.exe")
Call Plugin.Web.go("http://bbs.anjian.com/forum-250-1.html") //要提取信息的网站
Txt=Plugin.Web.HtmlGet("value","id:scbar_txt")
TracePrint Txt

复制代码

: 您所在的用户组无法下载或查看附件

成功获取到了搜索框的value值。

我们现在想要取下面红色区域块的帖子标题，想要把一个页面中的这些帖子名称都取出来。

该怎么办？

: 您所在的用户组无法下载或查看附件

这些文字，都没有特征值的。我们不能使用特征值的方式去找他们。

我们可以这样—— 获取到整个网页的文本之后，去找我们要取的标题，前后不变的字符。

: 您所在的用户组无法下载或查看附件

大家会发现，这个页面中，帖子标题前后不便的字符是：“]“ 和 “果果。。“ 那我们就将”]“字符前面的文本都过滤掉，“果果。。“后面的文本也过率掉，这样就能得到我们所需要的文本。

首先，我们需要复习下几个函数：

InStr函数	描述
start	可选的。规定每次搜索的起始位置。默认是搜索起始位置是第一个字符。如果已规定 compare 参数，则必须有此参数。
string1	必需的。需要被搜索的字符串。
string2	必需的。需搜索的字符串。
compare	必需的。规定要使用的字符串比较类型。默认是 0 。可采用下列值： 0= vbBinaryCompare - 执行二进制比较。 1 = vbTextCompare - 执行文本比较。

Mid函数	描述
string	必需的。从其中返回字符的字符串表达式。如果字符串包含 Null，则返回 Null。
start	必需的。规定起始位置。如果设置为大于字符串中的字符数目，则返回空字符串("")。
length	可选的。要返回的字符数目。如果省略或 length 超过文本的字符数，将返回字符串中从 start 到字符串结束的所有字符。

Len函数	描述
string	任意有效的字符串表达式。如果 string 参数包含Null，则返回 Null。
varname	任意有效的变量名。如果 varname 参数包含 Null，则返回 Null。

脚本过程：

1. 先打开一个要提取信息的网站。

2. 用 HtmlGet 命令获取整个网页的文本信息，存到Txt变量里面

3. 过滤]符号前面的文本

4. 从文本里的"]"符号后面的位置开始取字符串，这里取了一百个字符放到命名为cc的变量里。如下图，也可以设置取80个字符，60个字符，但是长度一定要把“果果。。” 给截进来，因为后面我们要通过“果果。。”作为基准，去过滤掉不要的文字。

: 您所在的用户组无法下载或查看附件

5. 在cc变量里，找果果。。出现的位置，找到之后，截取“果果。。”之前的文本，也就是我们需要接取的地方。

6. 最后，设置叠加的变量x，把每次找到的"]" 这个符号的位置放到变量x里进行累加，累加之后第二次循环，就会跳过之前找过的内容，进行新的内容的寻找。

源码：

Call Plugin.Web.Bind("WQM.exe")
Call Plugin.Web.go("http://bbs.anjian.com/forum-250-1.html") //要提取信息的网站
Delay 1000 // 如果网页打开速度慢，可适当添加延迟
Txt =Plugin.Web.HtmlGet("text","") //获取网页的文本
x=1
Do
aa = "]" //过滤]符号前面的文本
bb = InStr(x, Txt, aa) // 返回aa变量里的"["这个字符在整个网页文本txt里的位置
cc = Mid(Txt, bb + Len(aa), 100)//从文本里的"]"符号后面的位置开始取字符串，这里取了一百个字符
dd = InStr(1, cc, "果果。。")//找cc字符串里，果果。。出现的位置，果果。。的位置就是我们要接取的字符串的长度
ee = Mid(cc, 1, dd)//从文本里cc里第一个字符开始，取到果果。。文字出现的位置
If Len(ee) <> 0 Then //判断有没有取到匹配的字符
pp = Left(ee, Len(ee)-1) //如果有取到，我们还要做下处理，因为前面ee字符串是取到了果果。。出现的位置，所以果字也被取了，我们这里长度-1，去掉果字
TracePrint pp
x = InStr(x, Txt, pp) //这里做个记号，把每次找到的"]" 这个符号的位置进行累加，累加之后第二次循环，就会跳过之前找过的内容，进行新的内容的寻找。
Else
Exit Do //如果没有找到匹配的就退出
End If
Loop

复制代码

最终效果：

: 您所在的用户组无法下载或查看附件

标题后面的？…234这样的字符是帖子总回帖的页数

获取网页图片

我们截图按键精灵官网的图标：

: 您所在的用户组无法下载或查看附件

: 您所在的用户组无法下载或查看附件

我们可以查看图片的具体地址

代码如下：

Call Plugin.Web.Bind("WQM.exe")
Call Plugin.Web.Go("http://www.anjian.com") //打开按键官网地址
Call Plugin.Web.Save("http://www.anjian.com/images/logo.gif", "d:\123.gif")
Delay 3000
RunApp "mspaint.exe"&" d:\123.gif" //打开画图工具，看看保存的图片的效果

复制代码

命令名称：	Save 保存网页或图片
命令功能：	保存指定URL的文件到本地磁盘
命令参数：	参数1：字符串型，需要保存的目标Url 参数2：字符串型，本地文件名

最终效果：

: 您所在的用户组无法下载或查看附件

大家有没有注意到，这里的按键精灵官网图标，是gif格式的，可以保存。如果是一个链接呢？

例如，腾讯QQ注册页面里的这种验证图片：

: 您所在的用户组无法下载或查看附件

大家看，它的图片是保存在一个链接里的，这样就无法获取。

: 您所在的用户组无法下载或查看附件

地址是没有变化的，但是点击进去之后，生成的就是另一张验证图片了。

: 您所在的用户组无法下载或查看附件

所以，遇到这种链接方式的图片，大家还是使用查找图片的区域坐标，然后用屏幕范围截图命令来截图保存：

//下面这句在屏幕区域范围内截图保存到(内存)里，以备后面调用。
Call Plugin.ColorEx.PrintScreen(0, 0, 1024, 768)
//下面这句在屏幕区域范围内按方式0，查找颜色,返回左上角第一点颜色位置坐标
XY = Plugin.ColorEx.FindColor(0, 0, 1024, 768, "0000FF", 1, 0)
//下面这句用于分割字符串
ZB = InStr(XY, "|")
//下面这句将字符串转换成数值
X = Clng(Left(XY, ZB - 1)): Y = Clng(Right(XY, Len(XY) - ZB))
//释放屏幕截图信息时请使用以下命令
Call Plugin.ColorEx.Free()

复制代码

本文由按键学院提供技术支持

按键学院实战班（入驻最终幻想）火热招生

按键学院基础视频抢先观看

已有6评分我要评分查看所有评分

本主题由超级版主瑞祥幽冥狼于 2023/10/5 18:31:13 执行审核帖子操作

回顶部

发送短消息 UID 3887847 帖子 5 精华 0 鲜花 0 朵铜币 25 个银币 0 个性别在线时间 80 注册时间 2016-04-26 最后登录 2020-03-11 查看公共资料搜索主题搜索帖子 172822935 组别幼儿园 UID3887847 帖子5 精华0 鲜花0 朵铜币25 个银币0 个在线时间80 注册时间2016-04-26	2^# 字体大小: t T 发表于 2016-04-27 00:10 \| \|只看该用户 888888888888888888888888


	回顶部

发送短消息 UID 2711941 帖子 89 精华 0 鲜花 0 朵铜币 331 个银币 0 个性别在线时间 2340 注册时间 2014-08-30 最后登录 2017-03-10 2514458188 查看公共资料搜索主题搜索帖子临时户临时户组别小学四年级 UID2711941 帖子89 精华0 鲜花0 朵铜币331 个银币0 个在线时间2340 注册时间2014-08-30	3^# 字体大小: t T 发表于 2016-06-28 12:04 \| \|只看该用户看看


	回顶部

发送短消息 UID 3952825 帖子 3 精华 0 鲜花 0 朵铜币 13 个银币 0 个性别在线时间 140 注册时间 2016-06-04 最后登录 2016-06-30 12345 查看公共资料搜索主题搜索帖子 FL0313 FL0313 组别幼儿园 UID3952825 帖子3 精华0 鲜花0 朵铜币13 个银币0 个在线时间140 注册时间2016-06-04	4^# 字体大小: t T 发表于 2016-06-28 12:38 \| \|只看该用户


	回顶部

发送短消息 UID 1227267 帖子 290 精华 0 鲜花 10 朵铜币 712 个银币 177 个性别在线时间 3020 注册时间 2012-07-17 最后登录 2025-04-28 365157921 查看公共资料搜索主题搜索帖子 syq8049 syq8049 组别初中二年级 UID1227267 帖子290 精华0 鲜花10 朵铜币712 个银币177 个在线时间3020 注册时间2012-07-17 按键精灵开发者6级可通过提升认证等级来升级勋章：rz.anjian.com 按键卫士参与“打击山寨，维护按键”活动抗战胜利70周年勋章抗战胜利70周年活动的专属勋章	5^# 字体大小: t T 发表于 2016-06-28 16:35 \| \|只看该用户看看看看看


	回顶部

发送短消息 UID 2214650 帖子 93 精华 0 鲜花 1 朵铜币 196 个银币 0 个性别在线时间 2040 注册时间 2013-10-23 最后登录 2019-05-31 547991029 查看公共资料搜索主题搜索帖子 seagullxu seagullxu 组别小学五年级 UID2214650 帖子93 精华0 鲜花1 朵铜币196 个银币0 个在线时间2040 注册时间2013-10-23	6^# 字体大小: t T 发表于 2016-06-28 16:39 \| \|只看该用户啊啊啊啊啊啊啊


	回顶部

发送短消息 UID 3986078 帖子 76 精华 0 鲜花 2 朵铜币 279 个银币 159 个性别在线时间 2020 注册时间 2016-06-25 最后登录 2016-07-09 查看公共资料搜索主题搜索帖子 zzuzhk 组别小学四年级 UID3986078 帖子76 精华0 鲜花2 朵铜币279 个银币159 个在线时间2020 注册时间2016-06-25 按键精灵开发者4级可通过提升认证等级来升级勋章：rz.anjian.com	7^# 字体大小: t T 发表于 2016-06-29 10:15 \| \|只看该用户看看有没有获取图片的


	回顶部

发送短消息 UID 3979536 帖子 19 精华 0 鲜花 0 朵铜币 83 个银币 0 个性别在线时间 1220 注册时间 2016-06-21 最后登录 2018-01-24 12345 查看公共资料搜索主题搜索帖子 chediyunle chediyunle 组别幼儿园 UID3979536 帖子19 精华0 鲜花0 朵铜币83 个银币0 个在线时间1220 注册时间2016-06-21	8^# 字体大小: t T 发表于 2016-06-30 12:42 \| \|只看该用户看看是什么


	回顶部

发送短消息 UID 3370300 帖子 3 精华 0 鲜花 0 朵铜币 22 个银币 0 个性别在线时间 20 注册时间 2015-07-15 最后登录 2016-07-01 查看公共资料搜索主题搜索帖子 suxin868 suxin868 组别小学一年级 UID3370300 帖子3 精华0 鲜花0 朵铜币22 个银币0 个在线时间20 注册时间2015-07-15	9^# 字体大小: t T 发表于 2016-07-01 17:21 \| \|只看该用户好哎。


	回顶部

发送短消息 UID 2364606 帖子 40 精华 0 鲜花 0 朵铜币 142 个银币 0 个性别在线时间 980 注册时间 2014-02-07 最后登录 2023-06-06 134454 查看公共资料搜索主题搜索帖子 allendb allendb 组别小学二年级 UID2364606 帖子40 精华0 鲜花0 朵铜币142 个银币0 个在线时间980 注册时间2014-02-07	10^# 字体大小: t T 发表于 2016-07-04 16:35 \| \|只看该用户这是个好东西啊


	回顶部

发送短消息 UID 3993133 帖子 12 精华 0 鲜花 0 朵铜币 67 个银币 0 个性别在线时间 520 注册时间 2016-06-30 最后登录 2016-12-20 52234562 查看公共资料搜索主题搜索帖子 q52234562 q52234562 组别幼儿园 UID3993133 帖子12 精华0 鲜花0 朵铜币67 个银币0 个在线时间520 注册时间2016-06-30	11^# 字体大小: t T 发表于 2016-07-05 14:38 \| \|只看该用户等不及了


	回顶部

发送短消息 UID 3967485 帖子 3 精华 0 鲜花 0 朵铜币 22 个银币 0 个性别在线时间 140 注册时间 2016-06-13 最后登录 2016-07-06 397142323 查看公共资料搜索主题搜索帖子 CasperYP CasperYP 组别幼儿园 UID3967485 帖子3 精华0 鲜花0 朵铜币22 个银币0 个在线时间140 注册时间2016-06-13	12^# 字体大小: t T 发表于 2016-07-06 02:32 \| \|只看该用户学习一下，谢谢分享


	回顶部

发送短消息 UID 229195 帖子 219 精华 0 鲜花 1 朵铜币 242 个银币 3 个性别在线时间 4560 注册时间 2009-03-10 最后登录 2022-11-05 查看公共资料搜索主题搜索帖子 inrian inrian 组别初中一年级 UID229195 帖子219 精华0 鲜花1 朵铜币242 个银币3 个在线时间4560 注册时间2009-03-10	13^# 字体大小: t T 发表于 2016-07-06 03:38 \| \|只看该用户看一下，谢谢楼主


	回顶部

发送短消息 UID 4005448 帖子 6 精华 0 鲜花 0 朵铜币 25 个银币 0 个性别在线时间 140 注册时间 2016-07-08 最后登录 2016-07-09 528446648 查看公共资料搜索主题搜索帖子 sysgod sysgod 组别幼儿园 UID4005448 帖子6 精华0 鲜花0 朵铜币25 个银币0 个在线时间140 注册时间2016-07-08	14^# 字体大小: t T 发表于 2016-07-08 18:20 \| \|只看该用户不错看看


	回顶部

发送短消息 UID 3434313 帖子 257 精华 0 鲜花 3 朵铜币 1016 个银币 160 个性别在线时间 14760 注册时间 2015-09-04 最后登录 2022-11-08 查看公共资料搜索主题搜索帖子六哥哥六哥哥组别初中二年级 UID3434313 帖子257 精华0 鲜花3 朵铜币1016 个银币160 个在线时间14760 注册时间2015-09-04 按键精灵开发者6级可通过提升认证等级来升级勋章：rz.anjian.com	15^# 字体大小: t T 发表于 2016-07-10 15:16 \| \|只看该用户狗狗股，咯喔，n


	回顶部

发送短消息 UID 4009327 帖子 52 精华 0 鲜花 -1 朵铜币 89 个银币 -1 个性别在线时间 460 注册时间 2016-07-11 最后登录 2016-07-14 查看公共资料搜索主题搜索帖子 76815208 组别小学三年级 UID4009327 帖子52 精华0 鲜花-1 朵铜币89 个银币-1 个在线时间460 注册时间2016-07-11	16^# 字体大小: t T 发表于 2016-07-11 16:14 \| \|只看该用户好东西啊


	回顶部

发送短消息 UID 1245701 帖子 25 精华 0 鲜花 0 朵铜币 147 个银币 0 个性别在线时间 1960 注册时间 2012-07-28 最后登录 2019-03-07 8940035 查看公共资料搜索主题搜索帖子 xlddragon xlddragon 组别按键精灵会员 UID1245701 帖子25 精华0 鲜花0 朵铜币147 个银币0 个在线时间1960 注册时间2012-07-28	17^# 字体大小: t T 发表于 2016-07-11 21:17 \| \|只看该用户求指点


	回顶部

发送短消息 UID 3818636 帖子 3 精华 0 鲜花 0 朵铜币 22 个银币 0 个性别在线时间 40 注册时间 2016-03-19 最后登录 2016-07-11 查看公共资料搜索主题搜索帖子 a6719442 组别小学一年级 UID3818636 帖子3 精华0 鲜花0 朵铜币22 个银币0 个在线时间40 注册时间2016-03-19	18^# 字体大小: t T 发表于 2016-07-11 21:46 \| \|只看该用户来学习下


	回顶部

发送短消息 UID 1612391 帖子 259 精华 0 鲜花 -3 朵铜币 553 个银币 -3 个性别在线时间 12000 注册时间 2013-02-12 最后登录 2019-01-01 850781124 查看公共资料搜索主题搜索帖子 850781124 Girpex丶组别初中二年级 UID1612391 帖子259 精华0 鲜花-3 朵铜币553 个银币-3 个在线时间12000 注册时间2013-02-12	19^# 字体大小: t T 发表于 2016-07-12 08:18 \| \|只看该用户 253633


	回顶部

发送短消息 UID 107843 帖子 16 精华 0 鲜花 -1 朵铜币 25 个银币 -1 个性别在线时间 820 注册时间 2006-12-14 最后登录 2016-07-17 查看公共资料搜索主题搜索帖子 kunsing kunsing 组别小学一年级 UID107843 帖子16 精华0 鲜花-1 朵铜币25 个银币-1 个在线时间820 注册时间2006-12-14	20^# 字体大小: t T 发表于 2016-07-12 15:55 \| \|只看该用户


	回顶部

上一主题| 下一主题

[技术交流] 【院刊】-【201409期】抓取网页指定内容(资料)，获取网页里的图... [复制链接]