我们使用
sentence transformers
对大文本进行批量编码
model = SentenceTransformer('/app/resources/all-MiniLM-L6-v2')
embeddings = []
for obj in data:
text = obj['text']
row = {'id': obj['id'],'embedding' : np.ndarray.tolist(model.encode(text)}
embeddings.append(row)
在幕后使用
tqdm
来记录并生成这些垃圾邮件批量日志
由于我们不直接与 tqdm 交互,因此我们正在寻找一种全局方法来禁用这些功能。 从相关线程建议可以通过环境来完成。变量
export TQDM_DISABLE=1/False/None
此页面确认这应该是有效的。 事实上,我可以通过以下方式更改进度条上的颜色:
export TQDM_COLOUR='red'
然而
TQDM_DISABLE
不起作用。 我已经尝试了其他答案中的许多技巧 - 但唯一有效的方法是将日志记录完全抑制到 warning
级别,这是我不想做的。 有什么方法可以完全可靠地关闭tqdm
日志吗?
Sentence Transformers 提供了这个选项。 你可以这样实现:
model.encode(text, show_progress_bar = False)
您可以在此处找到有关此选项的更多信息:Sentence Transformer Documentation。
查看encode() 方法。