利用正则表达式做数据处理，notepad正则表达式技巧

发布时间：2023-11-29 21:16:30

发布者：网友

大家好,今天小编来为大家解答以下的问题，关于利用正则表达式做数据处理，notepad正则表达式技巧这个很多人还不知道，现在让我们一起来看看吧！

一、excelvba正则表达式怎么用

1、第一步，安装ExcelAPI网络函数库

2、第二步，使用函数RegexString(Text,Rule,【Advance】)，可使用正则表达式提取特定字符串。参数说明，Text指待处理的字符串文本。Rule指正在表达式，支持常用的正则表达式，为了简化操作，可使用诸如“数字”、“字母”、“小写字母”、“大写字母”、“汉字”等名词代替正则表达式。Advance指正则表达式Rule的书写模式，默认是0，表示使用简单模式，如果设置成1表示高级模式，即Rule是C#正则表达式，比如匹配数字应书写成([\d]{0,})

3、还有两个正则相关的函数。使用函数RegexReplace(Text,Rule,Replacement,【Advance】)进行字符串替换，使用函数RegexExists(Text,Rule,【Advance】)使用正则表达式检查指定字符串是否匹配

二、notepad正则表达式技巧

回答如下：1.匹配任意字符：使用"."符号来匹配任意字符，如"a.b"可以匹配"acb"、"aeb"等。

2.匹配重复字符：使用"*"符号来匹配重复字符，如"a*b"可以匹配"ab"、"aab"、"aaaab"等。

3.匹配一组字符：使用"[]"符号来匹配一组字符，如"[abc]"可以匹配"a"、"b"、"c"中的任意一个。

4.匹配字符范围：使用"-"符号来匹配字符范围，如"[a-z]"可以匹配任意小写字母。

5.匹配非字符：使用"^"符号来匹配非字符，如"[^abc]"可以匹配除了"a"、"b"、"c"以外的任意字符。

6.匹配固定长度字符：使用"{}"符号来匹配固定长度字符，如"a{3}"可以匹配"aaa"。

7.匹配可选字符：使用"?"符号来匹配可选字符，如"ab?"可以匹配"ab"、"a"。

8.匹配单词边界：使用"\b"符号来匹配单词边界，如"\bhello\b"可以匹配"hello"，但不匹配"hellos"或"ahello"。

9.匹配数字：使用"\d"符号来匹配数字，如"\d+"可以匹配任意数字串。

10.匹配空格：使用"\s"符号来匹配空格，如"\s+"可以匹配任意空格串。

三、如何使用正则表达式

QTP使用正则表达式有2种方式，一种是在“常量值选项”对话框或“参数选项”对话框的“值”框中输入字符串的正则表达式语法，可以定义正则表达式。选中“正则表达式”复选框，以指示QuickTest将该值作为正则表达式处理。另一种是使用描述性编程，所有编程描述属性值都均自动作为正则表达式处理。注意：您可以只将正则表达式应用于字符串类型的值。默认情况下，除了句点(.)、连字符(-)、星号(*)、插字号(^)、方括号([])、圆括号(())、货币符号($)、垂直线(|)、加号(+)、问号(?)和反斜杠(\)以外，QuickTest将正则表达式中的所有字符作为文字处理。当一个特殊字符前面带有反斜杠(\)时，QuickTest将其作为文字字符处理。如果在“常量值选项”或“参数选项”对话框的“值”框中输入一个特殊字符，QuickTest会询问您是否要在每个特殊字符前面添加一个反斜杠(\)。如果单击“是”，则相应的特殊字符前面就会加上一个反斜杠(\)，以指示QuickTest将该字符作为文字处理。如果单击“否”，QuickTest将该特殊字符作为正则表达式字符处理。本节描述某些更常用的选项，可用于创建正则表达式：?使用反斜杠字符(\)?匹配任意单个字符(.)?匹配列表中的任意单个字符([xy])?匹配不在列表中的任意单个字符([^xy])?匹配某个范围内的任意单个字符([x-y])?特定字符的零次或多次匹配(*)?特定字符的一次或多次匹配(+)?特定字符的零次或一次匹配(?)?对正则表达式进行分组(())?匹配几个正则表达式中的一个表达式(|)?在一行的开始进行匹配(^)?在一行的结尾进行匹配($)?匹配包括下划线在内的任一字母数字字符(\w)?匹配任意非字母数字字符(\W)?组合正则表达式操作符正则表达式的语法规则和标记字符描述：^符号匹配字符串的开头。例如：^abc与“abcxyz”匹配，而不与“xyzabc”匹配$符号匹配字符串的结尾。例如：abc$与“xyzabc”匹配，而不与“abcxyz”匹配。注意：如果同时使用^符号和$符号，将进行精确匹配。例如：^abc$只与“abc”匹配*符号匹配0个或多个前面的字符。例如：ab*可以匹配“ab”、“abb”、“abbb”等+符号匹配至少一个前面的字符。例如：ab+可以匹配“abb”、“abbb”等，但不匹配“ab”。?符号匹配0个或1个前面的字符。例如：ab?c?可以且只能匹配“abc”、“abbc”、“abcc”和“abbcc”.符号匹配除换行符以外的任何字符。例如：(.)+匹配除换行符以外的所有字符串x|y匹配“x”或“y”。例如：abc|xyz可匹配“abc”或“xyz”，而“ab(c|x)yz”匹配“abcyz”和“abxyz”{n}匹配恰好n次（n为非负整数）前面的字符。例如：a{2}可以匹配“aa“，但不匹配“a”{n,}匹配至少n次（n为非负整数）前面的字符。例如：a{3,}匹配“aaa”、“aaaa”等，但不匹配“a”和“aa”。注意：a{1,}等价于a+a{0,}等价于a*{m,n}匹配至少m个，至多n个前面的字符。例如：a{1,3}只匹配“a”、“aa”和“aaa”。注意：a{0,1}等价于a?[xyz]表示一个字符集，匹配括号中字符的其中之一。

四、MySQL正则表达式入门教程

MySQL一直以来都支持正则匹配，不过对于正则替换则一直到MySQL8.0才支持。对于这类场景，以前要么在MySQL端处理，要么把数据拿出来在应用端处理。

比如我想把表y1的列str1的出现第3个action的子串替换成dble，怎么实现？

1.自己写SQL层的存储函数。代码如下写死了3个，没有优化，仅仅作为演示，MySQL里非常不建议写这样的函数。

DROPFUNCTIONIFEXISTS`func_instr_simple_ytt`$$

CREATEDEFINER=`root`@`localhost`FUNCTION`func_instr_simple_ytt`(

f_strVARCHAR(1000),--Parameter1

f_substrVARCHAR(100),--Parameter2

f_timesint--timescounter.onlysupport3.

declarev_resultvarchar(1000)default'ytt';--result.

declarev_substr_lenintdefault0;--searchstringlength.

setv_substr_len=length(f_substr);

selectinstr(f_str,f_substr)into@p1;--Firstrealposition.

selectinstr(substr(f_str,@p1+v_substr_len),f_substr)into@p2;Secondaryvirtualposition.

selectinstr(substr(f_str,@p2+@p1+2*v_substr_len-1),f_substr)into@p3;--Thirdvirtualposition.

if@p1>0&&@p2>0&&@p3>0then--Fine.

concat(substr(f_str,1,@p1+@p2+@p3+(f_times-1)*v_substr_len-f_times)

substr(f_str,@p1+@p2+@p3+f_times*v_substr_len-2))intov_result;

setv_result=f_str;--Neverchanged.

mysql>updatey1setstr1=func_instr_simple_ytt(str1,'action','dble',3);

QueryOK,20rowsaffected(0.12sec)

Rowsmatched:20Changed:20Warnings:0

2.导出来用sed之类的工具替换掉在导入，步骤如下：（推荐使用）1）导出表y1的记录。

mysqlmysql>select*fromy1intooutfile'/var/lib/mysql-files/y1.csv';QueryOK,20rowsaffected(0.00sec)

shellroot@ytt-Aspire-V5-471G:/var/lib/mysql-files#sed-i's/action/dble/3'y1.csv

3）再次导入处理好的数据，完成。

QueryOK,0rowsaffected(0.99sec)

mysql>loaddatainfile'/var/lib/mysql-files/y1.csv'intotabley1;

QueryOK,20rowsaffected(0.14sec)

Records:20Deleted:0Skipped:0Warnings:0

以上两种还是推荐导出来处理好了再重新导入，性能来的高些，而且还不用自己费劲写函数代码。那MySQL8.0对于以上的场景实现就非常简单了，一个函数就搞定了。

mysqlmysql>updatey1setstr1=regexp_replace(str1,'action','dble',1,3);QueryOK,20rowsaffected(0.13sec)Rowsmatched:20Changed:20Warnings:0

还有一个regexp_instr也非常有用，特别是这种特指出现第几次的场景。比如定义SESSION变量@a。

mysqlmysql>set@a='aabbcceefilucy111bs234523556119101020301040';QueryOK,0rowsaffected(0.04sec)

拿到至少两次的数字出现的第二次子串的位置。

mysqlmysql>selectregexp_instr(@a,'[:digit:]{2,}',1,2);+--------------------------------------+|regexp_instr(@a,'[:digit:]{2,}',1,2)|+--------------------------------------+|50|+--------------------------------------+1rowinset(0.00sec)

那我们在看看对多字节字符支持如何。

mysql>set@a='中国美国俄罗斯日本中国北京上海深圳广州北京上海武汉东莞北京青岛北京';

QueryOK,0rowsaffected(0.00sec)

mysql>selectregexp_instr(@a,'北京',1,1);

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,2);

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,3);

+-------------------------------+

那总结下，这里我提到了MySQL8.0的两个最有用的正则匹配函数regexp_replace和regexp_instr。针对以前类似的场景算是有一个完美的解决方案。

OK，关于利用正则表达式做数据处理和notepad正则表达式技巧的内容到此结束了，希望对大家有所帮助。

——————————————小炎智能写作工具可以帮您快速高效的创作原创优质内容，提高网站收录量和各大自媒体原创并获得推荐量，点击右上角即可注册使用