tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

ANTLR 4 令牌规则匹配任何字符,直到遇到 XYZ

我想要一个标记规则,它会吞噬所有字符,直到到达字符 XYZ。 因此,如果输入是这样的: 你好XYZ 那么令牌规则应该返回这个令牌: 你好 如果输入我...

回答 3 投票 0

词法分析器的标记粒度

我想自己构建一个小词法分析器和解析器。我希望词法分析器生成一个标记向量,稍后将其输入到解析器中。现在我想什么属于哪个阶段。 让我们看看...

回答 1 投票 0

了解希腊字符的字节对编码标记化

我正在尝试使用希腊文本训练一个新的标记生成器,以便稍后使用以下命令将新标记添加到 Llama 3.1 标记生成器中 tokenizer.add_tokens(列表(new_tokens))。 然而,在训练字节对编码后...

回答 1 投票 0

何时在 Huggingface Transformers tokenizer 中设置 `add_special_tokens=False`?

这是在 Hugging Face“transformers”库中设置 tokenizer 的默认方式: 从转换器导入 BertForSequenceClassification,BertTokenizer tokenizer=BertTokenizer.

回答 1 投票 0

在 PL/SQL 中将逗号分隔的字符串转换为数组

如何将逗号分隔的字符串转换为数组? 我有输入 '1,2,3' ,我需要将其转换为数组。

回答 17 投票 0

OpenAI GPT API 预标记化?

我正在尝试制作一个“个人助理”聊天机器人(使用 GPT AI API),当别人问它问题时,它可以回答有关我自己的问题。为了做到这一点,我必须给它很多信息......

回答 1 投票 0

TapAndPay sdk 显示错误消息“出现问题,参数无效”

我正在使用 Visa 应用内配置来获取一些测试卡信息和 Google Pay 的 OPC(不透明支付卡)(沙盒数据)。 然后,我将检索到的 OPC 编码为 Base64,并在

回答 1 投票 0

如何使用EBNF驱动Parser?

我有一个简单的 EBNF: ::= ::= int ( ) { } ::= 返回 ; ::= 我有一个简单的 EBNF: <program> ::= <function> <function> ::= int <id> ( ) { <statement> } <statement> ::= return <expr> ; <expr> ::= <int> 我正在编写纯 C 语言并针对 Linux(目前)。答案不必用 C 语言编写。 我有一个 Lexer,它只是索引源文件并创建 token 结构的链接列表。 token 仅携带 char* 和 size_t 以及引用下一个标记。这就是它的全部了。 struct Token { char *ndx; size_t length; struct Token *next; } Lexer仅用两个基本条件对源进行索引,遵循这两个基本条件来辨别 - 或区分 - 一个标记与另一个标记: 空格分隔标记 符号是记号 - ( ) [ ] { } ; ...等等 我开始使用的源文件如下所示: int main() { return 2; } 我正在尝试弄清楚如何从 EBNF 到与成员的 ProgramExpr - FunctionExpr 和 StatementExpr。由于我有代表源文件的标记,因此解析器需要解析这些标记 - 即发现它们是什么。根据产生式规则,解析器将构建一个抽象语法树(我也称之为ExpressionNode。) 如何从 EBNF 转到 Expression Node? 我想我会有一个类似的结构: struct ExprNode { enum ExprType { PROG, FUNC, IDNT, STMT, EXPR, INT_LIT } type; char *term; int pos; int line; struct ExprNode* left; struct ExprNode* right; }; 解析的程序顺序是什么?由于我的 EBNF 以 <program> 开头,我的第一个解析函数是在寻找 程序 - 即 <function> 吗?如果我们还没有 function,解析器是否会陷入寻找 函数? 当我问时,每个人都只是说“使用 ANTLR”。但我有一个问题,我想在开始使用别人的黑匣子之前了解如何解决它。 我读过 Nora Sandler 的文章,编写编译器。虽然一篇好文章,但似乎跳过了一些内容,我只是不明白。我还意识到我可能会混淆 Parser Generator 和 Parser Combinator。 附注- 有人推荐了龙书...它在我的必读清单上。 由于我的 EBNF 以 <program> 开头,这是我寻找程序的第一个解析函数 - 即 <function>? 是的,所以你可能有一个函数 look_for_a_program() 调用 look_for_a_function()。 如果我们还没有该函数,解析器是否会陷入寻找函数的过程? look_for_a_function()会更有趣。首先,它会期望关键字 int(即指向输入中文本“int”的 Token)。如果成功,它需要一个 <id>(指向输入中类似单词的文本的 Token)。依此类推,反映 EBNF 中 <function> 规则的结构。 (当它到达<statement>部分时,它不会寻找令牌,而是调用look_for_a_statement。)如果您可以成功识别规则末尾的右大括号,那么您可以创建一个 ExprNode 代表您刚刚识别的 <function>。 (处理错误是另一回事。) 这是一种特殊类型的解析器,称为“递归下降解析器”,您可以在网络上找到吨的帮助。 (非常粗略地说,ANTLR 是一个解析器生成器,它将采用您的 EBNF 并为您创建类似上述代码的内容。) 一些想法: 您可能希望向 Token 结构添加一个字段来传达词法分析器已识别的标记类型。 (例如,整数文字与类似单词的东西与标点符号)这并不是绝对必要的,但它会让解析器变得更容易。 left结构的right和ExprNode字段表明你的AST将是一个二叉树。这可能一开始会起作用,但最终(当您扩大 EBNF 时)您可能会希望允许任意数量的“子节点”。

回答 1 投票 0

为什么 BERT 的默认词汇量设置为 30522?

我一直在尝试为特定领域构建 BERT 模型。但是,我的模型是针对非英语文本进行训练的,因此我担心默认标记大小 30522 不适合我的模型。 有没有人...

回答 2 投票 0

从输出 llama 3.1 模型中删除奇怪/特殊字符

背景:我正在使用 Hugging Face 的 Transformers 包和 Llama 3.1 8B(指导)。 问题:我通过以下方式一次生成一个单词的提示响应(请注意,我选择了

回答 1 投票 0

将表示比较条件的字符串分成三部分

我想将字符串拆分为不同的字符,并且我想知道“拆分器”是什么。 该字符串可以是例如: “地址=测试” “数量>20” “年龄<=55" In

回答 6 投票 0

Matlab 分割字符串多个分隔符

我有一个像这样的字符串单元格列表: 单元格Arr = '文件夹名称_文件名称_编号.jpg', '文件夹名称2_文件名称2_no2.jpg' 我想像这样得到它 {文件夹名,文件名,否}, {文件夹名称2,

回答 4 投票 0

Mistral-Nemo-Instruct-2407 分词器模型的准确词汇量是多少?

从文档来看,它是 词汇量:2**17 ~= 128k 但 Mistral-Nemo-Instruct-2407 分词器模型的准确词汇量是多少?

回答 1 投票 0

使用正则表达式进行 XSLT 标记化,仅在分号后面不跟空格和数字时进行标记化

我试图标记这个字符串,为每个书目引文创建单独的条目。问题是,有时分号分隔书目条目,有时它分隔...

回答 1 投票 0

具有特定语言和复杂缩写的PunktSentenceTokenizer

我尝试改编来自Configure PunktSentenceTokenizer 的解决方案,并为包含点的缩写指定语言(例如“i.d.F.”)。因此,我期望以下内容能够发挥作用: 我...

回答 1 投票 0

ValueError:TextEncodeInput 必须是 Union[TextInputSequence,Tuple[InputSequence,InputSequence]] - 标记 BERT / Distilbert 错误

def split_data(路径): df = pd.read_csv(路径) 返回train_test_split(df,test_size = 0.1,random_state = 100) 训练,测试 = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(),

回答 6 投票 0

无法抑制来自transformers/src/transformers/modeling_utils.py的警告

我对 AutoModel AutoTokenizer 类的实现相当简单: 从 Transformer 导入 AutoModel、AutoTokenizer 将 numpy 导入为 np 从rank_bm25导入BM25Okapi 来自 sklearn.neighb...

回答 1 投票 0

在编程语言中标记省略号以避免浮点

我正在设计一种语言,我想使用 .. 来定义整数范围。问题是 0..10 被标记为浮点数 0. 和 .10。 我如何允许 Flex 支持这种语法?是吗

回答 3 投票 0

计算对 ChatGPT 的 API 请求(包括函数)的总令牌

您好 Stack Overflow 社区, 我一直致力于将 ChatGPT 的 API 集成到我的项目中,但在计算 API 请求的令牌总数时遇到了一些问题。具体来说,...

回答 2 投票 0

G获取潜在嵌套大括号内的所有子字符串

我正在尝试用 PHP 解析以下格式: // 这是一条评论 { 这是一个条目 } { 这是另一个条目 } { 入口 {条目中的条目} {条目中的条目} } 也许只是缺少

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.