tokenize 相关问题

我有一个简单的 EBNF： ::= ::= int ( ) { } ::= 返回 ; ::= 我有一个简单的 EBNF： <program> ::= <function> <function> ::= int <id> ( ) { <statement> } <statement> ::= return <expr> ; <expr> ::= <int> 我正在编写纯 C 语言并针对 Linux（目前）。答案不必用 C 语言编写。我有一个 Lexer，它只是索引源文件并创建 token 结构的链接列表。 token 仅携带 char* 和 size_t 以及引用下一个标记。这就是它的全部了。 struct Token { char *ndx; size_t length; struct Token *next; } Lexer仅用两个基本条件对源进行索引，遵循这两个基本条件来辨别 - 或区分 - 一个标记与另一个标记：空格分隔标记符号是记号 - ( ) [ ] { } ; ...等等我开始使用的源文件如下所示： int main() { return 2; } 我正在尝试弄清楚如何从 EBNF 到与成员的 ProgramExpr - FunctionExpr 和 StatementExpr。由于我有代表源文件的标记，因此解析器需要解析这些标记 - 即发现它们是什么。根据产生式规则，解析器将构建一个抽象语法树（我也称之为ExpressionNode。）如何从 EBNF 转到 Expression Node？我想我会有一个类似的结构： struct ExprNode { enum ExprType { PROG, FUNC, IDNT, STMT, EXPR, INT_LIT } type; char *term; int pos; int line; struct ExprNode* left; struct ExprNode* right; }; 解析的程序顺序是什么？由于我的 EBNF 以 <program> 开头，我的第一个解析函数是在寻找程序 - 即 <function> 吗？如果我们还没有 function，解析器是否会陷入寻找函数？当我问时，每个人都只是说“使用 ANTLR”。但我有一个问题，我想在开始使用别人的黑匣子之前了解如何解决它。我读过 Nora Sandler 的文章，编写编译器。虽然一篇好文章，但似乎跳过了一些内容，我只是不明白。我还意识到我可能会混淆 Parser Generator 和 Parser Combinator。附注- 有人推荐了龙书...它在我的必读清单上。由于我的 EBNF 以 <program> 开头，这是我寻找程序的第一个解析函数 - 即 <function>？是的，所以你可能有一个函数 look_for_a_program() 调用 look_for_a_function()。如果我们还没有该函数，解析器是否会陷入寻找函数的过程？ look_for_a_function()会更有趣。首先，它会期望关键字 int（即指向输入中文本“int”的 Token）。如果成功，它需要一个 <id>（指向输入中类似单词的文本的 Token）。依此类推，反映 EBNF 中 <function> 规则的结构。（当它到达<statement>部分时，它不会寻找令牌，而是调用look_for_a_statement。）如果您可以成功识别规则末尾的右大括号，那么您可以创建一个 ExprNode 代表您刚刚识别的 <function>。（处理错误是另一回事。）这是一种特殊类型的解析器，称为“递归下降解析器”，您可以在网络上找到吨的帮助。（非常粗略地说，ANTLR 是一个解析器生成器，它将采用您的 EBNF 并为您创建类似上述代码的内容。）一些想法：您可能希望向 Token 结构添加一个字段来传达词法分析器已识别的标记类型。（例如，整数文字与类似单词的东西与标点符号）这并不是绝对必要的，但它会让解析器变得更容易。 left结构的right和ExprNode字段表明你的AST将是一个二叉树。这可能一开始会起作用，但最终（当您扩大 EBNF 时）您可能会希望允许任意数量的“子节点”。

parsing tokenize lexer ebnf

回答 1 投票 0

为什么 BERT 的默认词汇量设置为 30522？

我一直在尝试为特定领域构建 BERT 模型。但是，我的模型是针对非英语文本进行训练的，因此我担心默认标记大小 30522 不适合我的模型。有没有人...

tokenize bert-language-model

回答 2 投票 0

从输出 llama 3.1 模型中删除奇怪/特殊字符

背景：我正在使用 Hugging Face 的 Transformers 包和 Llama 3.1 8B（指导）。问题：我通过以下方式一次生成一个单词的提示响应（请注意，我选择了

huggingface-transformers tokenize large-language-model transformer-model llama

回答 1 投票 0

将表示比较条件的字符串分成三部分

我想将字符串拆分为不同的字符，并且我想知道“拆分器”是什么。该字符串可以是例如： “地址=测试” “数量>20” “年龄<=55" In

php regex split conditional-statements tokenize

回答 6 投票 0

Matlab 分割字符串多个分隔符

我有一个像这样的字符串单元格列表：单元格Arr = '文件夹名称_文件名称_编号.jpg', '文件夹名称2_文件名称2_no2.jpg' 我想像这样得到它 {文件夹名，文件名，否}， {文件夹名称2,

regex string matlab split tokenize

回答 4 投票 0

Mistral-Nemo-Instruct-2407 分词器模型的准确词汇量是多少？

从文档来看，它是词汇量：2**17 ~= 128k 但 Mistral-Nemo-Instruct-2407 分词器模型的准确词汇量是多少？

huggingface-transformers tokenize large-language-model mistral-ai

回答 1 投票 0

使用正则表达式进行 XSLT 标记化，仅在分号后面不跟空格和数字时进行标记化

我试图标记这个字符串，为每个书目引文创建单独的条目。问题是，有时分号分隔书目条目，有时它分隔...

regex xslt tokenize

回答 1 投票 0

具有特定语言和复杂缩写的PunktSentenceTokenizer

我尝试改编来自Configure PunktSentenceTokenizer 的解决方案，并为包含点的缩写指定语言（例如“i.d.F.”）。因此，我期望以下内容能够发挥作用：我...

python nltk tokenize

回答 1 投票 0

ValueError：TextEncodeInput 必须是 Union[TextInputSequence，Tuple[InputSequence，InputSequence]] - 标记 BERT / Distilbert 错误

def split_data（路径）： df = pd.read_csv(路径) 返回train_test_split（df，test_size = 0.1，random_state = 100）训练，测试 = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(),

tokenize bert-language-model huggingface-transformers huggingface-tokenizers distilbert

回答 6 投票 0

无法抑制来自transformers/src/transformers/modeling_utils.py的警告

我对 AutoModel AutoTokenizer 类的实现相当简单：从 Transformer 导入 AutoModel、AutoTokenizer 将 numpy 导入为 np 从rank_bm25导入BM25Okapi 来自 sklearn.neighb...

python machine-learning pytorch huggingface-transformers tokenize

回答 1 投票 0

在编程语言中标记省略号以避免浮点

我正在设计一种语言，我想使用 .. 来定义整数范围。问题是 0..10 被标记为浮点数 0. 和 .10。我如何允许 Flex 支持这种语法？是吗

floating-point lex tokenize ellipsis

回答 3 投票 0

计算对 ChatGPT 的 API 请求（包括函数）的总令牌

您好 Stack Overflow 社区，我一直致力于将 ChatGPT 的 API 集成到我的项目中，但在计算 API 请求的令牌总数时遇到了一些问题。具体来说，...

python tokenize openai-api

回答 2 投票 0

G获取潜在嵌套大括号内的所有子字符串

我正在尝试用 PHP 解析以下格式： // 这是一条评论 { 这是一个条目 } { 这是另一个条目 } { 入口 {条目中的条目} {条目中的条目} } 也许只是缺少

php string tokenize text-parsing

回答 2 投票 0

tokenize 相关问题

最新问题