如何将 HTML 转换为适合矢量嵌入模型的文本

问题描述 投票:0回答:1

我想以一种保留 html 标题逻辑结构的方式将 html 文件转换为纯文本

<h1> 
字幕
<h2>
子子标题
<h3>
并且我们不要忘记到其他页面的链接
 <code>
块。 我见过一些旧的库,如 html2text,但它们真的能以最佳形式呈现 html 吗?特别是矢量化的最佳形式?一些建议是使用 ** 标题 ** 和 *** 副标题 *** 段落之间的间距等。但我需要知道矢量嵌入的最佳格式是什么以及什么库支持这种转换?

html2text python 库、html-to-text nodejs 库等我已经尝试过,但是,我期望 一切 都被翻译成保留每个 html 标签的含义和语义相关性的形式。

我希望获得用于此目的的最佳库的建议,或者至少希望 html 数据用于矢量化的最佳格式是什么。

html markdown word-embedding llama
1个回答
0
投票

为了在保留语义结构的同时实现 HTML 内容的最佳矢量化,请考虑使用 Beautiful Soup (Python) 或 html-to-text (Node.js) 等库。这些工具提供可配置的选项,用于将 HTML 转换为纯文本,保留标题、段落和其他结构元素。预处理 HTML 以适当处理代码块和链接等特殊情况。尝试设置以找到适当的平衡。对于矢量化,维持逻辑结构的纯文本表示通常就足够了,可以用于标记化和词嵌入等技术。

© www.soinside.com 2019 - 2024. All rights reserved.