求满足正则表达式的sql语句,sparksql字符串匹配

发布时间:2023-12-01 06:01:15
发布者:网友

大家好,今天来为大家分享求满足正则表达式的sql语句的一些知识点,和sparksql字符串匹配的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!

一、MySQL正则表达式入门教程

MySQL一直以来都支持正则匹配,不过对于正则替换则一直到MySQL8.0才支持。对于这类场景,以前要么在MySQL端处理,要么把数据拿出来在应用端处理。

比如我想把表y1的列str1的出现第3个action的子串替换成dble,怎么实现?

1.自己写SQL层的存储函数。代码如下写死了3个,没有优化,仅仅作为演示,MySQL里非常不建议写这样的函数。

DROPFUNCTIONIFEXISTS`func_instr_simple_ytt`$$

CREATEDEFINER=`root`@`localhost`FUNCTION`func_instr_simple_ytt`(

f_strVARCHAR(1000),--Parameter1

f_substrVARCHAR(100),--Parameter2

f_timesint--timescounter.onlysupport3.

declarev_resultvarchar(1000)default'ytt';--result.

declarev_substr_lenintdefault0;--searchstringlength.

setv_substr_len=length(f_substr);

selectinstr(f_str,f_substr)into@p1;--Firstrealposition.

selectinstr(substr(f_str,@p1+v_substr_len),f_substr)into@p2;Secondaryvirtualposition.

selectinstr(substr(f_str,@p2+@p1+2*v_substr_len-1),f_substr)into@p3;--Thirdvirtualposition.

if@p1>0&&@p2>0&&@p3>0then--Fine.

concat(substr(f_str,1,@p1+@p2+@p3+(f_times-1)*v_substr_len-f_times)

substr(f_str,@p1+@p2+@p3+f_times*v_substr_len-2))intov_result;

setv_result=f_str;--Neverchanged.

mysql>updatey1setstr1=func_instr_simple_ytt(str1,'action','dble',3);

QueryOK,20rowsaffected(0.12sec)

Rowsmatched:20Changed:20Warnings:0

2.导出来用sed之类的工具替换掉在导入,步骤如下:(推荐使用)1)导出表y1的记录。

mysqlmysql>select*fromy1intooutfile'/var/lib/mysql-files/y1.csv';QueryOK,20rowsaffected(0.00sec)

shellroot@ytt-Aspire-V5-471G:/var/lib/mysql-files#sed-i's/action/dble/3'y1.csv

3)再次导入处理好的数据,完成。

QueryOK,0rowsaffected(0.99sec)

mysql>loaddatainfile'/var/lib/mysql-files/y1.csv'intotabley1;

QueryOK,20rowsaffected(0.14sec)

Records:20Deleted:0Skipped:0Warnings:0

以上两种还是推荐导出来处理好了再重新导入,性能来的高些,而且还不用自己费劲写函数代码。那MySQL8.0对于以上的场景实现就非常简单了,一个函数就搞定了。

mysqlmysql>updatey1setstr1=regexp_replace(str1,'action','dble',1,3);QueryOK,20rowsaffected(0.13sec)Rowsmatched:20Changed:20Warnings:0

还有一个regexp_instr也非常有用,特别是这种特指出现第几次的场景。比如定义SESSION变量@a。

mysqlmysql>set@a='aabbcceefilucy111bs234523556119101020301040';QueryOK,0rowsaffected(0.04sec)

拿到至少两次的数字出现的第二次子串的位置。

mysqlmysql>selectregexp_instr(@a,'[:digit:]{2,}',1,2);+--------------------------------------+|regexp_instr(@a,'[:digit:]{2,}',1,2)|+--------------------------------------+|50|+--------------------------------------+1rowinset(0.00sec)

那我们在看看对多字节字符支持如何。

mysql>set@a='中国美国俄罗斯日本中国北京上海深圳广州北京上海武汉东莞北京青岛北京';

QueryOK,0rowsaffected(0.00sec)

mysql>selectregexp_instr(@a,'北京',1,1);

+-------------------------------+

+-------------------------------+

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,2);

+-------------------------------+

+-------------------------------+

+-------------------------------+

mysql>selectregexp_instr(@a,'北京',1,3);

+-------------------------------+

+-------------------------------+

+-------------------------------+

那总结下,这里我提到了MySQL8.0的两个最有用的正则匹配函数regexp_replace和regexp_instr。针对以前类似的场景算是有一个完美的解决方案。

二、sparksql字符串匹配

这里对sql常用的一些正则匹配作一些匹配,都是来源别人博客,此处稍作整理和总结。mark一下

1、sql中有like和rlike,具体区别

ESCAPE关键字定义转义符WHEREColumnALIKE'%5/%%'ESCAPE'/'

rlike是正则,正则的写法与java一样。'\'需要使用'\\',例如'\w'需要使用'\\w'

Arlike'\\d+'匹配一个或多个数字,notArlike'\\d+'匹配非数字

selectcount(*)fromolap_b_dw_hotelorder_fwherecreate_date_widregexp'\\d{8}'

selectcount(*)fromolap_b_dw_hotelorder_fwherecreate_date_widrlike'\\d{8}'

regexp_extract(stringsubject,stringpattern,intindex)将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符

selectregexp_extract('IloveYou','(I)(.*?)(You)',1)fromtest1limit1//1匹配I,2匹配love,3匹配You

regexp_replace(stringA,stringB,stringC)将字符串A中的符合Java正则表达式B的部分替换为C

selectregexp_replace("IloveYou","You","")fromtest1//Ilove

这里几个函数类似oracle的5个正则函数,具体可参考oracle的正则匹配函数

三、java如何防sql攻击

1、java防SQL注入,最简单的办法是杜绝SQL拼接,SQL注入攻击能得逞是因为在原有SQL语句中加入了新的逻辑,如果使用PreparedStatement来代替Statement来执行SQL语句,其后只是输入参数,SQL注入攻击手段将无效,这是因为PreparedStatement不允许在不同的插入时间改变查询的逻辑结构,大部分的SQL注入已经挡住了,在WEB层我们可以过滤用户的输入来防止SQL注入比如用Filter来过滤全局的表单参数。下面就举三个例子来说明一下:

2、采用预编译语句集,它内置了处理SQL注入的能力,只要使用它的setString方法传值即可,如下所示:

3、Stringsql="select*fromuserswhereusername=?andpassword=?;PreparedStatementpreState=conn.prepareStatement(sql);preState.setString(1,userName);preState.setString(2,password);ResultSetrs=preState.executeQuery();...

4、采用正则表达式将包含有单引号('),分号(;)和注释符号(--)的语句给替换掉来防止SQL注入,如下所示:

5、publicstaticStringTransactSQLInjection(Stringstr)

6、returnstr.replaceAll(".*([';]+|(--)+).*","");

7、userName=TransactSQLInjection(userName);

8、password=TransactSQLInjection(password);

9、Stringsql="select*fromuserswhereusername='"+userName+"'andpassword='"+password+"'"

10、Statementsta=conn.createStatement();

11、ResultSetrs=sta.executeQuery(sql);

12、使用Hibernate框架的SQL注入防范Hibernate是目前使用最多的ORM框架,在JavaWeb开发中,很多时候不直接使用JDBC,而使用Hibernate来提高开发效率。

13、在Hibernate中,仍然不应该通过拼接HQL的方式,而应使用参数化的方式来防范SQL注入。有两种方式,一种仍然是使用JDBC一样的占位符“?”,但更好的方式是使用Hibernate的命名参数,例如检测用户名和密码是否正确,使用Hibernate可以写成如下:

14、StringqueryStr=“fromuserwhereusername=:username”+”password=:password”;

15、Listresult=session.createQuery(queryStr).setString("username",username).setString("password",password).list();

四、sql中只查一个字母怎么查

1、在SQL中,只需要在查询语句中使用通配符“%”来代表任意字符,即可查询一个字母。

2、例如,如果要查询所有以字母“a”开头的单词,可以使用以下语句:

3、SELECT*FROMtable_nameWHEREcolumn_nameLIKE'a%';这里的“%”表示任意字符,所以查询结果会包括所有以“a”开头的单词。

4、当然,也可以使用其他通配符如“_”代表一个字符,或者使用正则表达式等方式实现更复杂的查询。总之,SQL提供了丰富的语法和功能,能够帮助我们精确地查询数据。

关于求满足正则表达式的sql语句的内容到此结束,希望对大家有所帮助。

——————————————小炎智能写作工具可以帮您快速高效的创作原创优质内容,提高网站收录量和各大自媒体原创并获得推荐量,点击右上角即可注册使用

小炎智能写作