Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 2|回復: 0

排除 功能 中包含以下

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-1-13 17:06:10 | 顯示全部樓層 |閱讀模式
站或者当某个网站太大以至于完全爬取是场噩梦时我们选择爬取特定路径或排除某些路径。为此下面我们将向您展示些有关在 等爬网工具中使用正则表达式 的示例 如果从我们的博客 中我们想抓取 路径中只包含路径 的页面使用 我们可以在顶部菜单中选择 配置 包含 并且我们在 函数中包含以下正则表达式 因此只会抓取包含此路径的 如下图所示 因此我们已经知道出现在 符号之间的所有字符将是我们指示出现在要跟踪的 路径中的字符。指定此表达式的另种方法尤其是当我们要跟踪的路径紧跟在域之后时是将其包含如下 如果我们只想选择包含特定参数的 我们可以使用以下表达式 相反如果我们。

有兴趣在抓取中丢弃组 我们从 菜单转到 并且与之前的情况样我们使用正则表达式指定我们不使用的路径想出现。那些匹配指定排除的 将不会直接出现在抓取中。些用例可以在下面找到 要从我们的博客 中排除子目录或路径 必须在 语法。要排除出现在 中东电话号码列表 先前文件夹之间的文件夹或路径我们使用以下表达式 例如在下图中我们展示了如何排除抓取属于 文件夹的所有 如果我们想从抓取中排除出现在我们网站上的所有图像则正则表达式类似于 在下图中您可以看到当图像被丢弃时尖叫中没有任何图像被跟踪 如果我们要排除在 中包含特定术语例如 开发人员的页面则正则表达。



式为 如果我们有兴趣排除包含安全协议 的 则正则表达式为 如果我们想排除所有带有 的页面则正则表达式为 举个使用更复杂的正则表达式的例子如果我们在 表格中有个属于不同域的 列表我们只想从中提取域我们可以使用以下语法 接下来我们在 表格中指定个使用此语法的示例但使用我们自己博客中的 因此您可以看到该过程的结果 正则表达式备忘单正 则表达式可能更复杂这取决于我们有兴趣提取的模式。出于这个原因在下表中您可以找到个备忘单它可以帮助您学习熟悉正则表达式中最常用的元字符并且可以让我们创建有用的表达式来节省我们的时间 实施增强型电子商务的好处 营销技术。



回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2025-4-28 09:29 , Processed in 0.070508 second(s), 18 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |