如何实现正则表达式的JavaScript的代码高亮__code_document_function_navigator_undefined_

当前位置: 编程技术>其它

如何实现正则表达式的JavaScript的代码高亮

来源: 互联网发布时间：2014-10-18

本文导语: 今天想改一下JS的高亮的配色，憋了一下午憋出了这个这个正则表达式。　　下面这老长老长了的玩意儿是个正则表达式，看到了别吓坏了。代码如下:/(//.*|/*[Ss]+?*/)|((["'])(?:\.|[^\n])*?3)|b(break|continue|do|for|in|function|if|else|return|swit...

今天想改一下JS的高亮的配色，憋了一下午憋出了这个这个正则表达式。
　　下面这老长老长了的玩意儿是个正则表达式，看到了别吓坏了。

代码如下:

/(//.*|/*[Ss]+?*/)|((["'])(?:\.|[^\n])*?3)|b(break|continue|do|for|in|function|if|else|return|switch|this|throw|try|catch|finally|var|while|with|case|new|typeof|instance|delete|void)b|b(Object|Array|String|Number|Boolean|Function|RegExp|Date|Math|window|document|navigator|location)b|b(true|false)b|b(null|undefined|NaN)b|(?:[^Wd]|$)[$w]*|(0[xX][0-9a-fA-F]+|d+(?:.d+)?(?:[eE]d+)?)|(?:[^)]}]|^)(/(?!*)(?:\.|[^\/n])+?/[gim]*)|[Ss]/g 

　　现在，我们可以来慢慢分析它。仔细看这个正则表达式你会发现，它们是很多个正则表达式用|连接起来的。现在，我们把它用|分割，逐个分析。

代码如下:

(//.*|/*[Ss]+?*/)

　　这是第二个，这个正则表达式是用来匹配字符串的。字符串可以在单引号和双引号中，所以我们匹配这两个的任意一个。这里需要用一个括号把它括起来表示它是一个获取匹配（“获取匹配”的“获取”是名词），因为在结束的地方还需要匹配这个字符。在匹配字符串结束的地方可以用后向引用3来匹配字符串开始的字符，也就是开始时的引号种类。如果你从这整个正则表达式的开头开始数，你就会发现["']外面的括号是整个正则表达式中的第三个获取匹配。这就是字符串的头尾部分，中间的部分由于字符串是可以包含转义的，所以我们一旦遇到反斜杠就直接跳过它后面那个字符，因为反斜杠后面包含的是转义。但是这仅仅是匹配转义，所以我们要用或运算|连接一个匹配非转义的表达式，那就是[^\]。可是这个是匹配非反斜杠的任何字符，它可以包含换行，而JS中的字符串是不允许写成换行的。所以我们需要加个n让它不匹配换行。由于我们使用了或来连接，而或的优先级非常低，所以需要在旁边加上括号来修正优先级。如果使用普通的括号就会占用一个获取匹配，所以我们要使用(?:)来完成一个非获取匹配。

代码如下:

b(break|continue|do|for|in|function|if|else|return|switch|this|throw|try|catch|finally|var|while|with|case|new|typeof|instance|delete|void)b|b(Object|Array|String|Number|Boolean|Function|RegExp|Date|Math|window|document|navigator|location)b|b(true|false)b|b(null|undefined|NaN)b 

　　这是第3、4、5、6个，这些只是匹配一些关键字，由于需要的颜色不同所以被分组了。这没什么好说的，跳过。

代码如下:

(?:[^Wd]|$)[$w]*

　　这是第七个，它的作用是匹配普通的变量名。如果变量名的字符不消耗掉，后面匹配数字的就有可能会把变量名中的数字匹配输出来。所以这一步是必须的。你会发现这一步没有任何获取匹配，因为变量名的颜色是默认颜色，我们不获取它。根据JS的命名规则，变量名是不能以数字开头的，所以我们用[^Wd]|$匹配一个变量的开头。后面则可以匹配数字、字母、下划线、美元符号，任意次。这样变量名就被消耗掉了。

代码如下:

(0[xX][0-9a-fA-F]+|d+(?:.d+)?(?:[eE]d+)?)

　　这是第八个，匹配数字的。由于数字的表达方式有两种，所以我们要分开写。|的左边是16进制的数字写法。右边是普通的数字写法，这个可以包含小数和科学计数法。由于小数和科学计数法都是可选存在的，所以我们把它括号起来，后面加上问号作为可选匹配。

代码如下:

(?:[^)]}]|^)(/(?!*)(?:\.|[^\/n])+?/[gim]*)

　　这是第九个，匹配正则表达式的。前面有个非获取匹配，匹配非括号的结束。因为如果存在括号，那么斜杆就有可能表示的是除号而不是正则表达式了。后面就是正则表达式的匹配，和字符串的匹配类似，只不过最后多了一个[gim]*。这是正则表达式的三种匹配模式，也是属于正则表达式的范畴，所以我们要匹配并获取它。

代码如下:

[Ss]

　　最后一个是匹配所有上面没有匹配到的字符，我们必须匹配到每一个字符。因为它们都需要做一次HTML转义。
　　这样，这个长长的正则就分析完了。下面是实现的例子。

代码如下:

body {font:14px/18px Consolas;}

//读入当前代码
var code=document.getElementById("code").innerHTML;
//修正换行的浏览器差异，去掉头尾的换行和空格
code=code.replace(/rn|[rn]/g,"n").replace(/^s+|s+$/g,"");
//开始主匹配
code=code.replace(/(//.*|/*[.s]+?*/)|((["'])(?:\.|[^\n])*?3)|b(break|continue|do|for|in|function|if|else|return|switch|this|throw|try|catch|finally|var|while|with|case|new|typeof|instance|delete|void)b|b(Object|Array|String|Number|Boolean|Function|RegExp|Date|Math|window|document|navigator|location)b|b(true|false)b|b(null|undefined|NaN)b|(?:[^Wd]|$)[$w]*|(0[xX][0-9a-fA-F]+|d+(?:.d+)?(?:[eE]d+)?)|(?:[^)]}]|^)(/(?!*)(?:\.|[^\/n])+?/[gim]*)|[.s]/g,function(){
  var a,l,i,s;
  a=arguments;
  //循环匹配到的位置
  for(i=1;i