OpenHarmony中使用正则表达式

描述

本文主要介绍笔者在做开源鸿蒙应用开发时,ArkTs 中使用正则表达式处理像 string 等字符串对象。

主要内容如下:

一些 ArkTs 使用正则表达式示例,以及一些可能比较常用的小技巧。

正则表达式的一些应用技巧,涉及到匹配模式。

正则表达式在开源鸿蒙应用开发中,可以起到怎样的一个应用。

黄同学最近在做 OpenHarmony 应用开发的时候,遇到了一些场景,我需要从像 string 这样的字符串数据中,获取我需要的特定信息。

传统的解决方式:相信我的读者可能都有一些 DS 的基础,知道这种其实就是字符串匹配问题,针对这种问题,常见的解法是使用:暴力匹配、KMP、AC 自动机等方式,但是在实际应用当中如果这样做,可能比较蠢。

我此前有过在 Python 中使用过具有正则表达(式)匹配功能的 re 模块的经历。但是 ArkTs 并没有类似的集成 API。

但是在 ArkTs 的相关文档以及文章中,对这一块的描述都比较少。从官方的描述来看,我们可以知道 ArkTs 是 TypeScript 和 JavaScript 的超集,兼容了JS/TS的语言生态。

所以我在写这篇文章的时候,看了不少 JS 和 TS 关于正则表达式的使用的文档。

MindMap:


 

 

正则表达式在ArkTs的使用

①变量 RegExp

在 ArkTs 中,正则表达式的变量类型是 RegExp,这一点基本上兼容了 JS。有两种表达方式。

可以用斜杠来包住正则表达式,里边就是正则表达式的内容:

let rep: RegExp = /aS+b/;

 

也可以用 RegExp 的构造函数来构造,需要传入 string 作为参数:

let rep = new RegExp("aS+b");

 

②使用

正则表达式的变量使用较多,主要有:

match,这个是黄同学使用的最多的,在字符串中执行查找匹配的 string 方法,会返回一个数组。

let rep: RegExp = /acfun1+/;
let s: string = "bkacfun1112";
console.log(s.match(rep)[0]);            // acfun111
test,在一个字符串中测试,判断正则表达式是否能够和字符串匹配。
let rep: RegExp = /acfun1+/;
let s: string = "bkacfun1112";
console.log('' + rep.test(string) ? 'yes' : 'no');            // yes

 

match 查到的是一个第一个,但如果想匹配所有符合正则表达式的,可以使用 matchAll,这个返回的是一个迭代器,这个就不给出用例了,感兴趣的朋友可以自行去 js 的相关文档。

search,在字符串中查找匹配的位置(第一个),成功时返回匹配的位置,失败返回 -1。

replace,即用字符串替换匹配到的字符子串。

③贪婪模式与懒惰模式

我在 ArkTs 中使用正则表达式做匹配的时候,发现和使用 Python 的 re 模块有所不同。

在 Python 中,使用 re.match 的时候,会先匹配到最短满足的字符串子串。而在 ArkTs 中,使用正则表达式和 match 的时候,会匹配到最长满足的字符串子串。

上面的文字描述可能会比较抽象,下面用示例来表示:注释中即为输出内容

Python:

import re
s = 'sttstts'
pat = re.compile(r's.*s')
print(pat.match(pat).group(0))        # stts
ArkTs:
let rep: RegExp = /s.*s/
let s: string = 'sttstts'
console.log(s.match(rep)[0])        // sttstts

 

以上这两种情况其实就是,在正则表达式的相关概念中,其实就是关于匹配模式中的贪婪模式与懒惰模式。

关于这两种的详细概念,如果朋友们想要了解,不妨去看看正则表达式的文档。

我在这里将用比较简单、浅显的文字表述来解释这两种模式:这两种模式,具体的运作其实就和名字一样。

贪婪模式其实就是尽可能匹配比较长的字符串,如上面的例子 2 中的输出,匹配过程很贪婪,和贪心算法思想类似,尽可能使匹配的结果长;而懒惰模式类似,就是匹配尽可能少的字符串,匹配到满足的即可。

这两种模式,其实就是为了让开发者能更加灵活的使用正则表达式。这种两种模式的区别主要体现在匹配多个字符的特殊正则表达式字符,比如正则表达式中 +, * 等。

④ArkTs 正则表达式懒惰模式

那么,如果你是 ArkTs 开发者,你要用懒惰模式,但是在 ArkTs 中,正则表达式默认是贪婪的。如何切换到懒惰模式呢?

这里和 Js 一样,可以用 ? 来切换到懒惰模式,我们将上面的代码修改后:

let rep: RegExp = /s.*?s/
let s: string = 'sttstts'
console.log(s.match(rep)[0])        // stts

 

上述的用 ? 后,就匹配最少的字符。

正则表达式应用

相信通过上文的了解,我们已经可以对正则表达式的已经有了简单的认知,尤其是通过这些使用的示例,很容易知道,从直接角度,正则表达式的应用是对字符串这种类型的数据处理。这种处理是查询匹配,替换。

通过上述的直接角度,我们可以对字符串数据,即文本数据,可以用于做字符串过滤,在很多有查找,替换功能的应用(比如大家常用的编辑器 vscode,记事本),这些功能其实就有正则表达式影子。

ArkTs 应用:网络数据过滤

这个是我在编写 OpenHarmony 应用时,遇到的一个场景:使用 @ohos.net.http 库中相关 api 向服务器发送 http 请求,会收到 http 报文。

这种报文并不只是数据,还会有其他的部分。而我需要提取数据部分,且要分别提取出数据部分的某些字段。

因此,需要使用正则表达式来进行对网络数据的过滤:

Code(ArKTs)

 

  审核编辑:汤梓红
 
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分