你好,欢迎来到电脑编程技巧与维护杂志社! 杂志社简介广告服务读者反馈编程社区  
合订本订阅
 
 
您的位置:杂志经典 / 网络与通信
Boost.Regex网页信息抽取(二)
 

3)设置VC系统环境变量:在“开始”→“运行”中输入cmd命令,切换到文件夹C:\Program Files\Microsoft Visual Studio\VC98\Bin下,将VCVARS32.bat文件拖动到MS-DOS环境中,按Enter键,添加完成VC系统环境变量的设置。

4)源码编译:在E:\boost\libs\regex\build\目录下执行命令nmake -f  vc6. mak,编译Boost库中的正则表达式库。Boost下正则表达式库Regex是以源码形式提供的,需要单独编译才能在Windows 下使用,所以需要先安装好VC6.0,使用它的编译工具来编译。

5)安装:执行命令nmake -fvc6.mak install,将libdll文件分别拷贝到在VClibbin目录下。

6)清除临时文件:执行命令nmake -fvc6.mak clean,删除生成过程中所有的临时文件。

7)配置头文件:最好在VC6.0工作界面的Tool--Options--Directories页面下,将E:\boost 目录添加到VC6.0的“include files”列表中。

2.2 Regex基本语法

正则表达式由普通字符集和元字符组成,描述了待搜索字符串的匹配模式。元字符指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。Regex中量词表和元义字符如表1和表2 所示。

 

1  量词表

代码

描述

?

匹配0次或一次

*

匹配0次或多次

+

匹配1次或多次

{m}

匹配刚好是m 个的字符串

{m,n}

匹配在m个以上n个以下的字符串

{m,}

匹配m个以上的字符串

*?

重复任意次,但尽可能少重复

+?

重复1次或更多次,但尽可能少重复

??

重复0次或1次,但尽可能少重复

{n,m}?

重复nm次,但尽可能少重复

{n,}?

重复n次以上,但尽可能少重复

 

2  元义字符

代码

描述

.

匹配除换行符以外的所有字符一次

^

匹配字符开头的字符

$

匹配字符结尾的字符

[]

匹配符合[]内的字符

[^]

匹配不符合[]内的字符

[0-9]

匹配所有数字字符

[a-z]

匹配所有小写字母字符

[^0-9]

匹配所有非数字字符

[^a-z]

匹配所有非小写字母字符

\b

匹配以英文字母,数字为边界的字符串

\d

匹配一个数字的字符,和[0-9]语法一样

\w

英文字母或数字的字符串,和[a-zA-Z0-9]语法一样

\s

空格,和[\n\t\r\f] 语法一样

\B

匹配不以英文字母,数值为边界的字符串

\D

非数字,其他同\d

\S

非空格,和 [^\n\t\r\f] 语法一样

\W

非英文字母或数字的字符串,和[^a-zA-Z0-9]语法一样

a|b|c

匹配符合a字符或是b字符或是c字符的字符串

abc

匹配含有abc的字符串

\

使用\来取消元字符的特殊意义。

  推荐精品文章

·2024年12月目录 
·2024年11月目录 
·2024年10月目录 
·2024年9月目录 
·2024年8月目录 
·2024年7月目录 
·2024年6月目录 
·2024年5月目录 
·2024年4月目录 
·2024年3月目录 
·2024年2月目录 
·2024年1月目录
·2023年12月目录
·2023年11月目录

  联系方式
TEL:010-82561037
Fax: 010-82561614
QQ: 100164630
Mail:gaojian@comprg.com.cn

  友情链接
 
Copyright 2001-2010, www.comprg.com.cn, All Rights Reserved
京ICP备14022230号-1,电话/传真:010-82561037 82561614 ,Mail:gaojian@comprg.com.cn
地址:北京市海淀区远大路20号宝蓝大厦E座704,邮编:100089