网络建站知识发布于分享网站

当前位置:首页>>新闻中心>>CMS教程>>帝国cms教程

帝国CMS分页采集正则与过滤技巧

时间:2025-03-29 02:05:49    来源:    人气:0

网站采集对于许多站长来说是一项非常实用的技能,尤其是在使用像帝国CMS这样的强大工具时。尽管帝国CMS的采集功能相对简单易学,但仍然有不少朋友在编写采集规则时感到困惑。本文将分享一些关于帝国CMS采集正则的技巧,帮助您更高效地完成网页内容的采集。


### 从文章源代码中获取信息

以下是一些常见的采集场景及其对应的正则表达式规则:


#### 第一种场景

假设我们需要从以下HTML代码中提取分页链接:


<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>[2]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_3.html'>[3]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_4.html'>[4]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>

编写的规则如下:

  • 选全部列出式
  • 区域正则:
    <p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页
  • 链接正则:
    <a href='[!--pageallzz--]'>


#### 第二种场景

如果遇到以下HTML代码:


<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/lw/3/lw_31205_2.html'>[2]</a>&nbsp;<a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《

可以使用以下规则:

  • 选用上下导航式
  • 分页区域正则:<font color='red'>[!--smallpagezz--]下一页
  • 分页链接正则:<a href='[!--pagezz--]'
  • 新闻正文正则:
    src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
    </script></td>
    </tr>
    </table>[!--newstext--]</td>
    </tr>
    <tr>
    <td width=5></td>
  • 过滤广告正则:
    </p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>


#### 第三种场景

当面对以下HTML结构时:


<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0"  align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font>  <a class=page href="094221656-2.html" target=_self>【2】</a>  <a class=page href="094221656-3.html" target=_self>【3】</a>  <a class=page href="094221656-4.html" target=_self>【4】</a>  <a class=page href="094221656-5.html" target=_self>【5】</a>  <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0"  align="absbottom"></a></p>

可以采用以下规则:

  • "全部列出"式正则设置:
  • 分页区域正则(无)
  • 分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>


#### 第四种场景

最后,考虑以下HTML代码:


<DIV class=pageContainer> <DIV class=pager><span class="nextprev">&lt;&lt; 前一页</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一页">后一页 &gt;&gt;</a></DIV></DIV></DIV> 

可以使用以下规则:

  • 选全部列出式
  • 区域正则:
    <DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页">
  • 链接正则:
    <a href="[!--pageallzz--]"


通过以上规则,您可以轻松应对不同类型的网页内容采集需求。希望这些技巧能为您的工作带来便利!如果您有其他问题或需要进一步的帮助,请随时留言交流。

相关文章

  • 帝国CMS留言板显示IP的方法

    帝国CMS留言板显示IP的方法

    在留言板和后台留言审核面板中显示留言者的IP地址,是增强网站安全性和管理效率的重要功能。通过记录和展示IP地址,管理员可以更方便地追踪留言来源,确保内容的真实性和合法性。本文将详细介绍如何实现这一功能,并优化搜索引擎排名(SEO)。 首先,我们需要了解如何在代码中正确插入IP地址的显示逻辑。以下是...
    2025-03-29
  • 帝国显示IP问题的解决方案

    帝国显示IP问题的解决方案

    在网站开发中,保护用户隐私是一个重要的考虑因素。当您在分类信息内容页添加了发布人的IP显示功能时,可能会面临如何隐藏IP地址的部分数字以保护用户隐私的问题。本文将介绍一种方法,让您能够像处理评论中的IP地址一样,将IP地址的最后一位数字替换为“*”。 为了实现这一功能,您可以使用PHP代码对IP地...
    2025-03-29
  • 帝国系统生成完整GOOGLE SITEMAP的方法

    帝国系统生成完整GOOGLE SITEMAP的方法

    创建符合SEO标准的Google Sitemap对于提高网站在搜索引擎中的可见性至关重要。以下是一篇经过改写的文章,详细介绍了如何利用栏目分别创建不同的Sitemap,并确保其符合Google的要求。 技术整理:24mp3技术支持:wm_chief, hicode 制作Google Sitema...
    2025-03-29
  • 帝国CMS教程:使用灵动标签制作友情连接

    帝国CMS教程:使用灵动标签制作友情连接

    在构建动态网站时,使用循环结构来展示数据是一种常见的做法。例如,在EmpireCMS中,我们可以利用[e:loop]标签来实现这一功能。下面是一篇关于如何使用[e:loop]标签生成友情链接列表的文章,旨在优化搜索引擎排名(SEO),同时确保代码的可读性和功能性。 在EmpireCMS中,[e:l...
    2025-03-29

公众号