400 028 6601

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

python 爬虫 中的正则表达式

正则表达式虽然不是python语言,但在python爬虫中却有着普遍的应用,可以说没有正则表达式的爬虫是一个没有灵魂的爬虫,话不多说,直接上干货!

成都创新互联公司专注于企业全网营销推广、网站重做改版、方山网站定制设计、自适应品牌网站建设、H5网站设计电子商务商城网站建设、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为方山等各大城市提供网站开发制作服务。

首先介绍一个验证正则表达式的在线平台:https://regex101.com/

  高亮部分即为提取到的内容。

  1. $ 匹配字符串结尾(python$ 表示以python结尾的单词)
    1. 可以出现也可以不出现(colou?r 可以同时匹配color、colour)
    2. 转换为非贪婪模式(\d{8,9}? 默认会匹配8和9位的数字,加上?后,只匹配8位的数字)
  2. . 除了换行符以外的任意内容
  3. {数字} 指定匹配次数(\d{9}指匹配9位数的数字)
  4. {数字,数字} 指定匹配区间(\d{4, }指匹配4位以上的数字)
  1. 加括号就可分组(提取号码:0731-的区号和正真的电话号码  结果:\d{4}-\d{7})
  2. eg:
    holle
    (.*?)
    不加括号是提取不出来的
  3. | 或则条件 (.jpg|.gif|.jpeg|.png)表示匹配这几种后缀的图片格式
  4. 非捕获分组 (?:表达式)
  1. 提取标签中的文字 提示ge1:破坏标签,将改为
    结果:<(\w+)>(.*?) \1 就为了保证和第一个分组一致
  2. eg2:编写代码匹配符合ab ba 结果:(\w)(\w)\2\1
  3. 环视/欲搜索

eg:在 我喜欢你 我喜欢 我喜欢我 喜欢 喜欢你

正向先行断言(?=表达式) 取出喜欢,喜欢的后面必须有”你“

反向先行断言 喜欢(?!你) 即喜欢后面没有”你“

正向后行断言(?<=我)喜欢(?=你) 喜欢的前面右”我“,后面有”你“

反向后行断言(?

本文均自己整理,时间也比较赶,可能有的地方会存在问题,可以评论留言,看到了就会改。


文章标题:python 爬虫 中的正则表达式
文章路径:http://mbwzsj.com/article/dsojddh.html

其他资讯

让你的专属顾问为你服务