|
Post by mostafiz48n on Jan 29, 2024 22:29:07 GMT -5
在 自己的电子表格中我们可以使用 语法从 字符串中提取数据以及其他用途。些基本的正则表达式 本节再深入点我们将向您展示组在 中非常有用的正则表达式它们非常有效并为我们节省了大量工作尤其是在以下情况下我们必须从各种文档中提取特定信息个网站或者当某个网站太大以至于完全爬取是场噩梦时我们选择爬取特定路径或排除某些路径。为此 等爬网工具中使用正则表达式 的示例 如果从我们的博客 中我们想抓取 路径中只包含路径 的页面使用 我们可以在顶部菜单中选择 配置 包含 并且我们在 函数中包含以下正则表达式 因此只会抓取包含此路径的 如下图所示 因此我们已经知道出现在 符号之间的所有字符将是我们指示出现在要跟踪的 路径中的字符。 指定此表达式的另种方法尤其是当我们要跟踪的路径紧跟在域之后时是将其包含如下 如果我们只想选择包含特定参数的 我们可以使用以下表达式 相反如果我们有兴趣在抓取中丢弃组 我们从 菜单转到 并且与之前的情况样我们使用正则表达式指定我们不 WhatsApp 号码数据 使用的路径想出现。那些匹配指定排除的 将不会直接出现在抓取中。些用例可以在下面找到 要从我们的博客 中排除子目录或路径 必须在 排除 功能 中包含以下语法。要排除出现在先前文件夹之间的文件夹或路径我们使用以下表达式 例如在下图中我们展示了如何排除抓取属于 文件夹的所有 如果我们想从抓取中排除出现在我们网站上的所有图像则正则表达式类似于 在下图中您可以看到。 当图像被丢弃时尖叫中没有任何图像被跟踪 如果我们要排除在 中包含特定术语例如 开发人员的页面则正则表达式为 如果我们有兴趣排除包含安全协议 的 则正则表达式为 如果我们想排除所有带有 的页面则正则表达式为 举个使用更复杂的正则表达式的例子如果我们在 表格中有个属于不同域的 列表我们只想从中提取域我们可以使用以下语法 接下来我们在 表格中指定个使用此语法的示例但使用我们自己博客中的 因此您可以看到该过程的结果 正则表达式备忘单正 则表达式可能更复杂这取决于我们有兴趣提取的模式。出于这个原因在下表中您可以找到个备忘单它可以帮助您学习熟悉正则表达式中最常用的元字符并且可以让我们创建有用的表达式。
|
|