AST解析基础: 如何写一个复杂的html语法剖析库(2)

时间：2017-08-21 21:54 来源：网络整理作者：网络浏览：次收藏挑错推荐打印

quote: '\'' | '"' | void; // 引号类型, 能够是', ", 或许没有

}

Token解析

AST解析首先需求解析原始文本失掉符号列表, 然后再经过上下文语境剖析失掉最终的语法树.

相关于JSON, html虽然看起来复杂, 但是上下文是必需的, 所以虽然JSON可以直接经过token剖析失掉最终的结果, 但是html却不能, token剖析是第一步, 这是必需的. (JSON解析可以参考我的另一篇文章: 徒手写一个JSON解析器(Golang) ).

token解析时, 需求依据以后的形状来剖析token的含义, 然后得出一个token列表.

首先定义token的结构:

export interface IToken {

start: number; // 起始位置

end: number; // 完毕位置

value: string; // token

type: TokenKind; // 类型

}

Token类型一共有以下几种:

export enum TokenKind {

Literal = 'Literal', // 文本

OpenTag = 'OpenTag', // 标签称号

OpenTagEnd = 'OpenTagEnd', // 末尾标签完毕符, 能够是 '/', 或许 '', '--'

CloseTag = 'CloseTag', // 封锁标签

Whitespace = 'Whitespace', // 末尾标签类属性值之间的空白

AttrValueEq = 'AttrValueEq', // 属性中的=

AttrValueNq = 'AttrValueNq', // 属性中没有引号的值

AttrValueSq = 'AttrValueSq', // 被单引号包起来的属性值

AttrValueDq = 'AttrValueDq', // 被双引号包起来的属性值

}

Token剖析时并没有思索属性的键/值关系, 均一致视为属性中的一个片段, 同时, 视 = 为一个

特殊的独立段片段, 然后交给下层的 parser 去剖析键值关系. 这么做的缘由是为了在token剖析

时避免上下文处置, 并简化形状机形状表. 形状列表如下:

enum State {

Literal = 'Literal',

BeforeOpenTag = 'BeforeOpenTag',

OpeningTag = 'OpeningTag',

AfterOpenTag = 'AfterOpenTag',

InValueNq = 'InValueNq',

InValueSq = 'InValueSq',

InValueDq = 'InValueDq',

ClosingOpenTag = 'ClosingOpenTag',

OpeningSpecial = 'OpeningSpecial',

OpeningDoctype = 'OpeningDoctype',

OpeningNormalComment = 'OpeningNormalComment',

InNormalComment = 'InNormalComment',

InShortComment = 'InShortComment',

ClosingNormalComment = 'ClosingNormalComment',

ClosingTag = 'ClosingTag',

}

整个解析采用函数式编程, 没有运用OO, 为了简化在函数间传递形状参数, 由于是一个同步操作,

这里应用了JavaScript的事情模型, 采用全局变量来保存形状. Token剖析时所需求的全局变量列表如下:

let state: State // 以后的形状

let buffer: string // 输入的字符串

let bufSize: number // 输入字符串长度

let sectionStart: number // 正在解析的Token的起始位置

let index: number // 以后解析的字符的位置

let tokens: IToken[] // 已解析的token列表

let char: number // 以后解析的位置的字符的UnicodePoint

在末尾解析前, 需求初始化全局变量:

function init(input: string) {

state = State.Literal

buffer = input

bufSize = input.length

sectionStart = 0

index = 0

tokens = []

}

然后末尾解析, 解析时需求遍历输入字符串中的一切字符, 并依据以后形状停止相应的处置

(改动形状, 输入token等), 解析完成后, 清空全局变量, 前往完毕.

export function tokenize(input: string): IToken[] {

init(input)

while (index < bufSize) {

char = buffer.charCodeAt(index)

switch (state) {

// ...依据不同的形状停止相应的处置

// 文章疏忽了对各个形状的处置, 详细了解可以查看源代码

}

index++

}

const _nodes = nodes

// 清空形状

init('')

return _nodes

}

语法树解析

在获取到token列表之后, 需求依据上下文解析失掉最终的节点树, 方式与tokenize相似，均采用全局变量保存传递形状, 遍历一切的token, 不同之处在于这里没有一个全局的形状机。

由于形状完全可以经过正在解析的节点的类型来判别。

export function parse(input: string): INode[] {

init(input)

while (index < count) {

token = tokens[index]

switch (token.type) {

case TokenKind.Literal:

if (!node) {

node = createLiteral()

pushNode(node)

} else {

appendLiteral(node)

}

break

case TokenKind.OpenTag:

node = void 0

parseOpenTag()

break

case TokenKind.CloseTag:

node = void 0

parseCloseTag()

break

default:

unexpected()

break

}

index++

}

const _nodes = nodes

init()

return _nodes

}

不太多解释, 可以到GitHub查看源代码.

结语

项目已开源, 称号是 html5parser , 可以经过npm/yarn安装:

npm install html5parser -S

# OR

yarn add html5parser

或许到GitHub查看源代码: acrazing/html5parser 。

目前对正常的HTML解析已完全经过测试, 已知的BUG包括对注释的解析, 以及未正常完毕的

输入的解析处置(均在语法剖析层面, token剖析已经过测试).

【编辑引荐】

立足当下共享未来第四届HTML5移动生态大会浩荡召开

白鹭时代产品线片面退化携手行业抓住HTML5游戏拐点机遇

HTML5游戏开发难点之效率、功用和加载量

HTML5音频API Web Audio

HTML5中手势原理剖析与数学知识的实际

(责任编辑：admin)

标签：12图资源库 HTML5 语法树 AST解析器

从零末尾了解Docker

甲骨文谷歌版权之战，你最常用的软件或许被

微软发布 Visual Studio 开展路途图，少量

科技行业薪酬最高的15种职位看看你在哪一

StackOverflow 调查：富有国度盛行 Python

WebAssembly 再添一员猛将：将支持运用 Go

Java案虽已尘埃落定，但软件界的连锁反响才

倾听顺序员的心声真的很重要

Git 12岁了，为你送上12个Git 的运用技巧！

扎克伯格13年前写的Facebook网站代码，你见

颜值、才华和教育很重要，顺序员择偶不在乎

优秀的开发习气，我有几点小建议

猜你也喜欢看这些 ······: [WEB开发] 微软 GitHub 发布 Android Beta; [WEB开发] Kotlin 1.4 和未来值得等候的中; [WEB开发] 2019年这些美国公司为软件工程师; [WEB开发] 290家公司都在用的义务调度系统; [WEB开发] Paxos算法为什么说是Raft,Zab协; [WEB开发] JetBrains推出编程字体Mono：更; [WEB开发] SQL优化技巧总结，及案例剖析; [WEB开发] 很可怕！NSA、GitHub 被恶搞：Wi; [WEB开发] 少儿编程，编不动了？; [WEB开发] 清华博士一作，165页论文破解困; [WEB开发] GraphQL vs REST API 架构，谁更; [WEB开发] 内存用量1/20，速度加快80倍，QQ

其他类型的网站教程 ······: [SEO教程] 斗鱼tv阿怡直播代打视频再爆铁证; [HTML教程] Get Informed About Hvac By Usi; [PHP教程] Ostatni przekaz dzisiaj panie; [JSON教程] Fakt nazwa skrupulatnego prze&; [JS教程] “6;wie&0;e notki po pierw; [JSON教程] Garden The Organic and natural; [FLASH教程] oryginalna viagra cena; [SEO教程] Helpful Advice For That Soccer; [JS教程] Protecting Your State Of Healt; [dede教程] Co ustosunkowana pope&#322; [FLASH教程] Adore Hockey But Will need Tip; [网页设计] Bezstronni rysunek na ciele pr

关键词标签查找 ······: 站长之家网站优化网站源码网页特效下载矢量图片素材 dedecms 全国地图热点字体矢量素材地方门户网站地图生成器蚂蚁分类系统齐博3.5 安卓网站源码红旗安乐业房产源码齐博分类1.51 栏目嵌套顶部公告特效导航竖列菜单 128x128png图标 dede插件汽车源码站长工具箱