计算图像变化向量:Vimg=CLIPfeat(It)−CLIPfeat(Is) 计算文本变化向量:Vtext=CLIPfeat(Tt)−CLIPfeat(Ts) 计算这两个变化向量之间的余弦相似度。