-
帝国CMS分页采集正则与过滤技巧
- 时间:2025-03-29 02:05:49 来源: 人气:0
网站采集对于许多站长来说是一项非常实用的技能,尤其是在使用像帝国CMS这样的强大工具时。尽管帝国CMS的采集功能相对简单易学,但仍然有不少朋友在编写采集规则时感到困惑。本文将分享一些关于帝国CMS采集正则的技巧,帮助您更高效地完成网页内容的采集。
### 从文章源代码中获取信息
以下是一些常见的采集场景及其对应的正则表达式规则:
#### 第一种场景
假设我们需要从以下HTML代码中提取分页链接:
<p align='center'><b><font color='red'>[1]</font> <a href='/Eat/RMenu/200806/38611_2.html'>[2]</a> <a href='/Eat/RMenu/200806/38611_3.html'>[3]</a> <a href='/Eat/RMenu/200806/38611_4.html'>[4]</a> <a href='/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>
编写的规则如下:
- 选全部列出式
- 区域正则:
<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页 - 链接正则:
<a href='[!--pageallzz--]'>
#### 第二种场景
如果遇到以下HTML代码:
<p align='center'><b><font color='red'>[1]</font> <a href='/lw/3/lw_31205_2.html'>[2]</a> <a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《
可以使用以下规则:
- 选用上下导航式
- 分页区域正则:<font color='red'>[!--smallpagezz--]下一页
- 分页链接正则:<a href='[!--pagezz--]'
- 新闻正文正则:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
</tr>
</table>[!--newstext--]</td>
</tr>
<tr>
<td width=5></td> - 过滤广告正则:
</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>
#### 第三种场景
当面对以下HTML结构时:
<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0" align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font> <a class=page href="094221656-2.html" target=_self>【2】</a> <a class=page href="094221656-3.html" target=_self>【3】</a> <a class=page href="094221656-4.html" target=_self>【4】</a> <a class=page href="094221656-5.html" target=_self>【5】</a> <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0" align="absbottom"></a></p>
可以采用以下规则:
- "全部列出"式正则设置:
- 分页区域正则(无)
- 分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>
#### 第四种场景
最后,考虑以下HTML代码:
<DIV class=pageContainer> <DIV class=pager><span class="nextprev"><< 前一页</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一页">后一页 >></a></DIV></DIV></DIV>
可以使用以下规则:
- 选全部列出式
- 区域正则:
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页"> - 链接正则:
<a href="[!--pageallzz--]"
通过以上规则,您可以轻松应对不同类型的网页内容采集需求。希望这些技巧能为您的工作带来便利!如果您有其他问题或需要进一步的帮助,请随时留言交流。
相关文章
-
在留言板和后台留言审核面板中显示留言者的IP地址,是增强网站安全性和管理效率的重要功能。通过记录和展示IP地址,管理员可以更方便地追踪留言来源,确保内容的真实性和合法性。本文将详细介绍如何实现这一功能,并优化搜索引擎排名(SEO)。 首先,我们需要了解如何在代码中正确插入IP地址的显示逻辑。以下是...2025-03-29
-
在网站开发中,保护用户隐私是一个重要的考虑因素。当您在分类信息内容页添加了发布人的IP显示功能时,可能会面临如何隐藏IP地址的部分数字以保护用户隐私的问题。本文将介绍一种方法,让您能够像处理评论中的IP地址一样,将IP地址的最后一位数字替换为“*”。 为了实现这一功能,您可以使用PHP代码对IP地...2025-03-29
-
创建符合SEO标准的Google Sitemap对于提高网站在搜索引擎中的可见性至关重要。以下是一篇经过改写的文章,详细介绍了如何利用栏目分别创建不同的Sitemap,并确保其符合Google的要求。 技术整理:24mp3技术支持:wm_chief, hicode 制作Google Sitema...2025-03-29
-
在构建动态网站时,使用循环结构来展示数据是一种常见的做法。例如,在EmpireCMS中,我们可以利用[e:loop]标签来实现这一功能。下面是一篇关于如何使用[e:loop]标签生成友情链接列表的文章,旨在优化搜索引擎排名(SEO),同时确保代码的可读性和功能性。 在EmpireCMS中,[e:l...2025-03-29