正则表达式采集数据的方法 自动抓取数据的方法

发布时间:2023-12-01 04:48:39
发布者:网友

其实正则表达式采集数据的方法的问题并不复杂,但是又很多的朋友都不太了解自动抓取数据的方法,因此呢,今天小编就来为大家分享正则表达式采集数据的方法的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!

一、如何使用正则表达式

QTP使用正则表达式有2种方式,一种是在“常量值选项”对话框或“参数选项”对话框的“值”框中输入字符串的正则表达式语法,可以定义正则表达式。选中“正则表达式”复选框,以指示QuickTest将该值作为正则表达式处理。另一种是使用描述性编程,所有编程描述属性值都均自动作为正则表达式处理。注意:您可以只将正则表达式应用于字符串类型的值。默认情况下,除了句点(.)、连字符(-)、星号(*)、插字号(^)、方括号([])、圆括号(())、货币符号($)、垂直线(|)、加号(+)、问号(?)和反斜杠(\)以外,QuickTest将正则表达式中的所有字符作为文字处理。当一个特殊字符前面带有反斜杠(\)时,QuickTest将其作为文字字符处理。如果在“常量值选项”或“参数选项”对话框的“值”框中输入一个特殊字符,QuickTest会询问您是否要在每个特殊字符前面添加一个反斜杠(\)。如果单击“是”,则相应的特殊字符前面就会加上一个反斜杠(\),以指示QuickTest将该字符作为文字处理。如果单击“否”,QuickTest将该特殊字符作为正则表达式字符处理。本节描述某些更常用的选项,可用于创建正则表达式:?使用反斜杠字符(\)?匹配任意单个字符(.)?匹配列表中的任意单个字符([xy])?匹配不在列表中的任意单个字符([^xy])?匹配某个范围内的任意单个字符([x-y])?特定字符的零次或多次匹配(*)?特定字符的一次或多次匹配(+)?特定字符的零次或一次匹配(?)?对正则表达式进行分组(())?匹配几个正则表达式中的一个表达式(|)?在一行的开始进行匹配(^)?在一行的结尾进行匹配($)?匹配包括下划线在内的任一字母数字字符(\w)?匹配任意非字母数字字符(\W)?组合正则表达式操作符正则表达式的语法规则和标记字符描述:^符号匹配字符串的开头。例如:^abc与“abcxyz”匹配,而不与“xyzabc”匹配$符号匹配字符串的结尾。例如:abc$与“xyzabc”匹配,而不与“abcxyz”匹配。注意:如果同时使用^符号和$符号,将进行精确匹配。例如:^abc$只与“abc”匹配*符号匹配0个或多个前面的字符。例如:ab*可以匹配“ab”、“abb”、“abbb”等+符号匹配至少一个前面的字符。例如:ab+可以匹配“abb”、“abbb”等,但不匹配“ab”。?符号匹配0个或1个前面的字符。例如:ab?c?可以且只能匹配“abc”、“abbc”、“abcc”和“abbcc”.符号匹配除换行符以外的任何字符。例如:(.)+匹配除换行符以外的所有字符串x|y匹配“x”或“y”。例如:abc|xyz可匹配“abc”或“xyz”,而“ab(c|x)yz”匹配“abcyz”和“abxyz”{n}匹配恰好n次(n为非负整数)前面的字符。例如:a{2}可以匹配“aa“,但不匹配“a”{n,}匹配至少n次(n为非负整数)前面的字符。例如:a{3,}匹配“aaa”、“aaaa”等,但不匹配“a”和“aa”。注意:a{1,}等价于a+a{0,}等价于a*{m,n}匹配至少m个,至多n个前面的字符。例如:a{1,3}只匹配“a”、“aa”和“aaa”。注意:a{0,1}等价于a?[xyz]表示一个字符集,匹配括号中字符的其中之一。

二、自动抓取数据的方法

有许多方法可以自动抓取数据,以下是其中几种常见的方法:

1.网络爬虫(WebScraping):使用编程语言和库(如Python的BeautifulSoup、Scrapy等)来从网页中提取数据。通过发送HTTP请求获取网页内容,并使用DOM解析器或正则表达式来提取所需的数据。

2.API调用:许多网站和服务提供API(应用程序编程接口),允许开发者按照一定的规则和权限访问和获取数据。开发者可以使用API密钥和HTTP请求来获取数据,通常以JSON或XML格式返回。

3.RSS订阅:通过订阅网站的RSS(ReallySimpleSyndication)提供的数据源,可以定期获取更新的内容。RSS是一种标准的XML格式,提供了新闻、博客等内容的摘要和链接。

4.数据库查询:如果数据储存在数据库中,可以使用SQL查询语言来提取所需的数据。

5.数据采集工具:许多数据采集工具(如Octoparse、ParseHub等)提供了可视化的界面和自动化配置功能,用户可以通过拖拽选择页面元素等方式,无需编程即可完成数据的抓取。

无论使用哪种方法,都需要确保遵守相关网站的使用条款和隐私政策,尊重数据所有者的权益和隐私。

三、MySQL正则表达式入门教程

MySQL一直以来都支持正则匹配,不过对于正则替换则一直到MySQL8.0才支持。对于这类场景,以前要么在MySQL端处理,要么把数据拿出来在应用端处理。

比如我想把表y1的列str1的出现第3个action的子串替换成dble,怎么实现?

1.自己写SQL层的存储函数。代码如下写死了3个,没有优化,仅仅作为演示,MySQL里非常不建议写这样的函数。

DROPFUNCTIONIFEXISTS`func_instr_simple_ytt`$$

CREATEDEFINER=`root`@`localhost`FUNCTION`func_instr_simple_ytt`(

f_strVARCHAR(1000),--Parameter1

f_substrVARCHAR(100),--Parameter2

f_timesint--timescounter.onlysupport3.

declarev_resultvarchar(1000)default'ytt';--result.

declarev_substr_lenintdefault0;--searchstringlength.

setv_substr_len=length(f_substr);

selectinstr(f_str,f_substr)into@p1;--Firstrealposition.

selectinstr(substr(f_str,@p1+v_substr_len),f_substr)into@p2;Secondaryvirtualposition.

selectinstr(substr(f_str,@p2+@p1+2*v_substr_len-1),f_substr)into@p3;--Thirdvirtualposition.

if@p1>0&&@p2>0&&@p3>0then--Fine.

concat(substr(f_str,1,@p1+@p2+@p3+(f_times-1)*v_substr_len-f_times)

substr(f_str,@p1+@p2+@p3+f_times*v_substr_len-2))intov_result;

setv_result=f_str;--Neverchanged.

mysql>updatey1setstr1=func_instr_simple_ytt(str1,'action','dble',3);

QueryOK,20rowsaffected(0.12sec)

Rowsmatched:20Changed:20Warnings:0

2.导出来用sed之类的工具替换掉在导入,步骤如下:(推荐使用)1)导出表y1的记录。

mysqlmysql>select*fromy1intooutfile'/var/lib/mysql-files/y1.csv';QueryOK,20rowsaffected(0.00sec)

shellroot@ytt-Aspire-V5-471G:/var/lib/mysql-files#sed-i's/action/dble/3'y1.csv

3)再次导入处理好的数据,完成。

QueryOK,0rowsaffected(0.99sec)

mysql>loaddatainfile'/var/lib/mysql-files/y1.csv'intotabley1;

QueryOK,20rowsaffected(0.14sec)

Records:20Deleted:0Skipped:0Warnings:0

以上两种还是推荐导出来处理好了再重新导入,性能来的高些,而且还不用自己费劲写函数代码。那MySQL8.0对于以上的场景实现就非常简单了,一个函数就搞定了。

mysqlmysql>updatey1setstr1=regexp_replace(str1,'action','dble',1,3);QueryOK,20rowsaffected(0.13sec)Rowsmatched:20Changed:20Warnings:0

还有一个regexp_instr也非常有用,特别是这种特指出现第几次的场景。比如定义SESSION变量@a。

mysqlmysql>set@a='aabbcceefilucy111bs234523556119101020301040';QueryOK,0rowsaffected(0.04sec)

拿到至少两次的数字出现的第二次子串的位置。

mysqlmysql>selectregexp_instr(@a,'[:digit:]{2,}',1,2);+--------------------------------------+|regexp_instr(@a,'[:digit:]{2,}',1,2)|+--------------------------------------+|50|+--------------------------------------+1rowinset(0.00sec)

那我们在看看对多字节字符支持如何。

mysql>set@a='中国美国俄罗斯日本中国北京上海深圳广州北京上海武汉东莞北京青岛北京';

QueryOK,0rowsaffected(0.00sec)

mysql>selectregexp_instr(@a,'北京',1,1);

+-------------------------------+

+-------------------------------+

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,2);

+-------------------------------+

+-------------------------------+

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,3);

+-------------------------------+

+-------------------------------+

+-------------------------------+

那总结下,这里我提到了MySQL8.0的两个最有用的正则匹配函数regexp_replace和regexp_instr。针对以前类似的场景算是有一个完美的解决方案。

四、vba正则表达式实例详解

1、VBA正则表达式是处理文本的常用工具,使用正则表达式可以轻易处理字符串中的数据,VBA中的正则表达式引擎是一个被称为MicrosoftVBS的接口。下面是一些VBA正则表达式实例:

2、使用函数Match()获取正则表达式匹配数据。

3、Match(pattern,输入文本或字符串)

4、Setregex=CreateObject(“VBScript.RegExp”)

5、regex.pattern=“[A-Z]”,输入文本或字符串

6、Msgboxregex.Match(“HelloWorld”).Value

7、使用函数Replace()将正则表达式匹配的数据替换为指定字符。

8、Replace(输入文本或字符串,pattern,replacement)

9、Setregex=CreateObject(“VBScript.RegExp”)

10、regex.pattern=“cat”,输入文本或字符串

11、Msgboxregex.Replace(“Thecatisplayingwithaball”,“dog”)

12、以上代码将匹配“cat”并将其替换为“dog”,输出结果为“Thedogisplayingwithaball”。

13、第一次匹配可以使用函数Execute()。

14、Setregex=CreateObject(“VBScript.RegExp”)

15、regex.pattern=“[A-Z]”,输入文本或字符串

16、SetmyMatch=regex.Execute(“HelloWorld”)

17、匹配“任意字符”的正则表达式可以使用通配符“.”。

18、Setregex=CreateObject(“VBScript.RegExp”)

19、regex.pattern=“a.”,输入文本或字符串

20、Msgboxregex.test(“apple”)'匹配成功

21、Msgboxregex.test(“ant”)'匹配失败

22、以上代码匹配所有以“a”开头,长度为两位的字符串。

23、总之,VBA正则表达式非常强大而且灵活,可以应用于各种文本处理,如字符串匹配、替换、提取等等。以上只是几个示例,使用正则表达式能够大大提高数据处理效率。

关于正则表达式采集数据的方法的内容到此结束,希望对大家有所帮助。

——————————————小炎智能写作工具可以帮您快速高效的创作原创优质内容,提高网站收录量和各大自媒体原创并获得推荐量,点击右上角即可注册使用

小炎智能写作