Python正则表达式（re）：从文本中提取信息的强大工具-深圳飞扬众

在数据处理、文本挖掘、自然语言处理等领域，我们经常需要从大量文本中提取出有用的信息，例如找出所有符合某种规律的字符串、提取出网页中的链接、清理掉一些无用的字符等等。而Python正则表达式（re）就是一种强大的工具，能够帮助我们高效地完成这些任务。

Python正则表达式（re）：从文本中提取信息的强大工具

Python中的正则表达式引擎是在re模块中实现的。在这篇文章中，我们将介绍Python正则表达式的基本语法和用法，以及其中一些高级特性和技巧。在学习过程中，我们将借助一些实际例子来说明正则表达式的强大之处。

正则表达式的基本语法

正则表达式由一系列字符和特殊符号组成，用于匹配文本中的模式。在Python中，我们使用re模块来调用正则表达式引擎，并使用一些特殊的字符来表示模式。下面是一些常用的特殊符号和它们的含义：

1. "."：任意一个字符。

2. "^"：匹配字符串的开头。

3. "$"：匹配字符串的结尾。

4. "*"：匹配前面的字符0次或多次。

5. "+"：匹配前面的字符1次或多次。

6. "?"：匹配前面的字符0次或1次。

7. "{m,n}"：匹配前面的字符至少m次，至多n次。

8. "|"：匹配两种模式中的任意一个。

9. "[]"：匹配中括号内的任意一个字符。

10. "\d"：匹配任意一个数字字符，等同于[0-9]。

11. "\D"：匹配任意一个非数字字符，等同于[^0-9]。

12. "\w"：匹配任意一个字母数字字符，等同于[a-zA-Z0-9_]。

13. "\W"：匹配任意一个非字母数字字符，等同于[^a-zA-Z0-9_]。

14. "\s"：匹配任意一个空白字符，包括空格、制表符、换行符等。

15. "\S"：匹配任意一个非空白字符。

了解了这些基本的特殊符号后，我们就可以来看看如何在Python中使用正则表达式了。

正则表达式的基本用法

在Python中，我们使用re模块中的函数来进行正则表达式的匹配和替换。下面是一些常用的函数和它们的用法：

1. re.search(pattern, string, flags=0)：在字符串string中搜索匹配正则表达式pattern的第一个位置，并返回一个Match对象。

2. re.match(pattern, string, flags=0)：在字符串string的开头匹配正则表达式pattern，并返回一个Match对象。

3. re.findall(pattern, string, flags=0)：搜索字符串string中所有匹配正则表达式pattern的字符串，并返回一个字符串列表。

4. re.sub(pattern, repl, string, count=0, flags=0)：使用repl替换字符串string中所有匹配正则表达式pattern的部分，并返回替换后的字符串。

下面我们来看一个具体的例子，假设我们有一个字符串列表，其中包含了一些日期，我们需要将其中的日期格式转换为YYYY-MM-DD的形式。这时我们就可以使用re.sub来完成替换操作，代码如下：

```

import re

dates = ["20211223", "20211224", "20211225", "20211226"]

for i in range(len(dates)):

dates[i] = re.sub(r'(\d{4})(\d{2})(\d{2})', r'\1-\2-\3', dates[i])

print(dates)

```

输出结果为：

```

['2021-12-23', '2021-12-24', '2021-12-25', '2021-12-26']

```

在上面的代码中，我们使用了正则表达式`\d{4}\d{2}\d{2}`来匹配日期格式，其中`\d`表示任意一个数字字符，`\d{4}`表示匹配4个数字字符。括号`()`表示分组，`\1`表示第一组，即年份，`\2`表示第二组，即月份，`\3`表示第三组，即日期。使用`\1-\2-\3`来替换匹配的部分，即将年月日用短横线连接起来，即得到了我们想要的结果。

当然，这只是最基本的例子，正则表达式还有很多高级特性和技巧，下面我们就来仔细地学习一下。

正则表达式的高级特性和技巧

1.非贪婪匹配

在默认情况下，正则表达式是贪婪的，即尽可能匹配更多的字符。例如，正则表达式`.*`将匹配字符串中的任意字符，直到字符串结束为止。但是，在处理一些特殊情况时，我们需要使用非贪婪匹配，即尽可能匹配尽量少的字符。

我们可以使用`?`来实现非贪婪匹配，即在某个特定的模式后面加上`?`。例如，正则表达式`.*?`将尽可能匹配尽量少的字符。下面是一个例子，假设我们有一个HTML文本，需要提取出其中所有的链接：

```

import re

html = '百度谷歌'

urls = re.findall(r'', html)

print(urls)

```

输出结果为：