有没有一种方法可以将 Hugging Face Transformer 嵌入转换回文本?
假设我使用 Hugging Face 的 ClipTextModel 使用以下方法创建了文本嵌入:
import torch
from transformers import CLIPTokenizer, CLIPTextModel
class_list = [
"i love going home and playing with my wife and kids",
"i love going home",
"playing with my wife and kids",
"family",
"war",
"writing",
]
model = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14")
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14")
inputs = tokenizer(class_list, padding=True, return_tensors="pt")
outputs = model(**inputs)
hidden_state = outputs.last_hidden_state
embeddings = outputs.pooler_output
我的嵌入位于变量“embeddings”中。问题:
如果您进行波束搜索,那么使用 LLM 的贪婪搜索可能会起作用,但在每个叶节点,您会为每个分支到目前为止生成的内容生成一个嵌入,然后将该分支的距离与您搜索的嵌入进行比较。 ..现在我把它写出来了,它让我觉得有点像 A* 算法!当您处于某个距离阈值内或开始距目标更远时您会停下来吗?我认为如果它是由法学硕士指导的话,它会符合语法吗?
当我有空的时候可能会尝试一下......