正则表达式采集数据怎么用？爬虫代码怎么用

发布时间：2023-12-01 04:46:41

发布者：网友

大家好，关于正则表达式采集数据怎么用很多朋友都还不太明白，不过没关系，因为今天小编就来为大家分享关于爬虫代码怎么用的知识点，相信应该可以解决大家的一些困惑和问题，如果碰巧可以解决您的问题，还望关注下本站哦，希望对各位有所帮助！

一、火车头采集器怎么采集一个内容页的两个内容

1、这就需要你的经验了，寻找内容2和内容7与其它内容不一样的地方，然后根据这个不同点进行规则采集。

2、比如内容2和内容7的开头和结尾都有一个符号x、y，而其他内容没有，那么你就可以对内容标签编辑规则，采集从x开头到y结尾的内容，这样就可以把内容2和内容7采集到了。

3、还有就是用正则表达式来采集，这个需要你对正则表达式有一定的了解和要求。

二、如何使用正则表达式

QTP使用正则表达式有2种方式，一种是在“常量值选项”对话框或“参数选项”对话框的“值”框中输入字符串的正则表达式语法，可以定义正则表达式。选中“正则表达式”复选框，以指示QuickTest将该值作为正则表达式处理。另一种是使用描述性编程，所有编程描述属性值都均自动作为正则表达式处理。注意：您可以只将正则表达式应用于字符串类型的值。默认情况下，除了句点(.)、连字符(-)、星号(*)、插字号(^)、方括号([])、圆括号(())、货币符号($)、垂直线(|)、加号(+)、问号(?)和反斜杠(\)以外，QuickTest将正则表达式中的所有字符作为文字处理。当一个特殊字符前面带有反斜杠(\)时，QuickTest将其作为文字字符处理。如果在“常量值选项”或“参数选项”对话框的“值”框中输入一个特殊字符，QuickTest会询问您是否要在每个特殊字符前面添加一个反斜杠(\)。如果单击“是”，则相应的特殊字符前面就会加上一个反斜杠(\)，以指示QuickTest将该字符作为文字处理。如果单击“否”，QuickTest将该特殊字符作为正则表达式字符处理。本节描述某些更常用的选项，可用于创建正则表达式：?使用反斜杠字符(\)?匹配任意单个字符(.)?匹配列表中的任意单个字符([xy])?匹配不在列表中的任意单个字符([^xy])?匹配某个范围内的任意单个字符([x-y])?特定字符的零次或多次匹配(*)?特定字符的一次或多次匹配(+)?特定字符的零次或一次匹配(?)?对正则表达式进行分组(())?匹配几个正则表达式中的一个表达式(|)?在一行的开始进行匹配(^)?在一行的结尾进行匹配($)?匹配包括下划线在内的任一字母数字字符(\w)?匹配任意非字母数字字符(\W)?组合正则表达式操作符正则表达式的语法规则和标记字符描述：^符号匹配字符串的开头。例如：^abc与“abcxyz”匹配，而不与“xyzabc”匹配$符号匹配字符串的结尾。例如：abc$与“xyzabc”匹配，而不与“abcxyz”匹配。注意：如果同时使用^符号和$符号，将进行精确匹配。例如：^abc$只与“abc”匹配*符号匹配0个或多个前面的字符。例如：ab*可以匹配“ab”、“abb”、“abbb”等+符号匹配至少一个前面的字符。例如：ab+可以匹配“abb”、“abbb”等，但不匹配“ab”。?符号匹配0个或1个前面的字符。例如：ab?c?可以且只能匹配“abc”、“abbc”、“abcc”和“abbcc”.符号匹配除换行符以外的任何字符。例如：(.)+匹配除换行符以外的所有字符串x|y匹配“x”或“y”。例如：abc|xyz可匹配“abc”或“xyz”，而“ab(c|x)yz”匹配“abcyz”和“abxyz”{n}匹配恰好n次（n为非负整数）前面的字符。例如：a{2}可以匹配“aa“，但不匹配“a”{n,}匹配至少n次（n为非负整数）前面的字符。例如：a{3,}匹配“aaa”、“aaaa”等，但不匹配“a”和“aa”。注意：a{1,}等价于a+a{0,}等价于a*{m,n}匹配至少m个，至多n个前面的字符。例如：a{1,3}只匹配“a”、“aa”和“aaa”。注意：a{0,1}等价于a?[xyz]表示一个字符集，匹配括号中字符的其中之一。

三、MySQL正则表达式入门教程

MySQL一直以来都支持正则匹配，不过对于正则替换则一直到MySQL8.0才支持。对于这类场景，以前要么在MySQL端处理，要么把数据拿出来在应用端处理。

比如我想把表y1的列str1的出现第3个action的子串替换成dble，怎么实现？

1.自己写SQL层的存储函数。代码如下写死了3个，没有优化，仅仅作为演示，MySQL里非常不建议写这样的函数。

DROPFUNCTIONIFEXISTS`func_instr_simple_ytt`$$

CREATEDEFINER=`root`@`localhost`FUNCTION`func_instr_simple_ytt`(

f_strVARCHAR(1000),--Parameter1

f_substrVARCHAR(100),--Parameter2

f_timesint--timescounter.onlysupport3.

declarev_resultvarchar(1000)default'ytt';--result.

declarev_substr_lenintdefault0;--searchstringlength.

setv_substr_len=length(f_substr);

selectinstr(f_str,f_substr)into@p1;--Firstrealposition.

selectinstr(substr(f_str,@p1+v_substr_len),f_substr)into@p2;Secondaryvirtualposition.

selectinstr(substr(f_str,@p2+@p1+2*v_substr_len-1),f_substr)into@p3;--Thirdvirtualposition.

if@p1>0&&@p2>0&&@p3>0then--Fine.

concat(substr(f_str,1,@p1+@p2+@p3+(f_times-1)*v_substr_len-f_times)

substr(f_str,@p1+@p2+@p3+f_times*v_substr_len-2))intov_result;

setv_result=f_str;--Neverchanged.

mysql>updatey1setstr1=func_instr_simple_ytt(str1,'action','dble',3);

QueryOK,20rowsaffected(0.12sec)

Rowsmatched:20Changed:20Warnings:0

2.导出来用sed之类的工具替换掉在导入，步骤如下：（推荐使用）1）导出表y1的记录。

mysqlmysql>select*fromy1intooutfile'/var/lib/mysql-files/y1.csv';QueryOK,20rowsaffected(0.00sec)

shellroot@ytt-Aspire-V5-471G:/var/lib/mysql-files#sed-i's/action/dble/3'y1.csv

3）再次导入处理好的数据，完成。

QueryOK,0rowsaffected(0.99sec)

mysql>loaddatainfile'/var/lib/mysql-files/y1.csv'intotabley1;

QueryOK,20rowsaffected(0.14sec)

Records:20Deleted:0Skipped:0Warnings:0

以上两种还是推荐导出来处理好了再重新导入，性能来的高些，而且还不用自己费劲写函数代码。那MySQL8.0对于以上的场景实现就非常简单了，一个函数就搞定了。

mysqlmysql>updatey1setstr1=regexp_replace(str1,'action','dble',1,3);QueryOK,20rowsaffected(0.13sec)Rowsmatched:20Changed:20Warnings:0

还有一个regexp_instr也非常有用，特别是这种特指出现第几次的场景。比如定义SESSION变量@a。

mysqlmysql>set@a='aabbcceefilucy111bs234523556119101020301040';QueryOK,0rowsaffected(0.04sec)

拿到至少两次的数字出现的第二次子串的位置。

mysqlmysql>selectregexp_instr(@a,'[:digit:]{2,}',1,2);+--------------------------------------+|regexp_instr(@a,'[:digit:]{2,}',1,2)|+--------------------------------------+|50|+--------------------------------------+1rowinset(0.00sec)

那我们在看看对多字节字符支持如何。

mysql>set@a='中国美国俄罗斯日本中国北京上海深圳广州北京上海武汉东莞北京青岛北京';

QueryOK,0rowsaffected(0.00sec)

mysql>selectregexp_instr(@a,'北京',1,1);

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,2);

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,3);

+-------------------------------+

那总结下，这里我提到了MySQL8.0的两个最有用的正则匹配函数regexp_replace和regexp_instr。针对以前类似的场景算是有一个完美的解决方案。

四、怎样可以在表格中摘取想要的数据

1、在表格中摘取想要的数据，有多种方法。以下提供两种常见的方式：

2、使用Excel的内置函数。例如，对于日期数据，可以使用YEAR、MONTH、DAY等函数；对于文本数据，可以使用LEFT、MID、RIGHT等函数。具体使用哪个函数，取决于你需要提取的数据类型和位置。

3、使用快捷键Ctrl+E。在Excel中，选中需要提取数据的单元格区域，然后按下Ctrl+E键，Excel会自动识别出有规律的数据并提取出来。这种方法适用于有规律的数据提取，如果数据没有规律，可能需要使用其他方法。

4、如果需要提取的数据比较复杂，可能需要使用正则表达式等更高级的方法来提取。

五、爬虫代码怎么用

1、首先，您需要确定您要爬取的网站，并了解该网站的网页结构和数据格式。

2、然后，您需要选择一种编程语言和相应的爬虫框架，例如Python和Scrapy

3、首先，您需要定义爬虫的起始URL和要爬取的数据。

4、然后，您需要编写代码来解析网页并提取所需的数据。

5、您可以使用XPt或正则表式来定位和提取数据。

6、在编代码时，您需要注意反爬虫机。

7、一些网能会使用验证码、IP封锁或其他术来防止爬虫。

8、您需要写代码来处理这些问题，例如使用代理IP或拟人类行为。

9、最后，您需要运行您的爬虫代码并保存数据。

10、您可以将据保到本地文件或数据库中，以便后续分和使用。

11、需要注的是，爬虫行为可能违反某些网站的服务条款或法。

12、在使爬虫前，请确保您了解相关法律法规并遵守相关规定。

好了，文章到此结束，希望可以帮助到大家。

——————————————小炎智能写作工具可以帮您快速高效的创作原创优质内容，提高网站收录量和各大自媒体原创并获得推荐量，点击右上角即可注册使用