語意搜尋的核心:向量表示(Vector Representation)
.作者:Jollen/
.日期:Fri Nov 07 2025 08:00:00 GMT+0800 (台北標準時間)
向量表示(Vector Representation)的觀念
語意搜尋的關鍵在於「讓語言變成可運算的 Expression(運算式)」,例如:x = 10 就是一個運算式,y = 20 是一個運算式,result = x + y 也是一個運算式。
怎麼讓語言變成運算式呢?這個關鍵技術,就稱為「Text Embedding」。Text Embedding 模型將文字轉換為數值向量,並將每個句子或段落映射為一個「向量空間」,也稱為「語意空間」。在這個空間裡,語意相近的句子距離較近,而語意不同的句子距離較遠。
這就是 RAG 實作語意搜尋的核心概念。當句子與落段「向量化」後,語言便能成為運算式。透過運算式的結果,來取得句子之間的距離,找到附近距離最近的句子,就能得到與目前語意最有關聯性的其它句子。這就是語意搜尋的結果,找到「關聯性」最高的文字。
以下是一個語意空間的概念性圖:
(退貨政策)
●
/ \
/ \
●退款 送貨延遲●
(語意相似) (語意遠)
當使用者的提問是「退貨政策」時,Node.js 可以利用 RAG 找到距離最近的句子,如圖所示,即「退款」。接著,再把使用者問題,以及「退款」一併送進 LLM 進行文字生成。
語意空間讓電腦「以距離代表語意」。換句話說,語意搜尋不再依賴「關鍵字」,而是依懶「向量距離(Vector Distance)」來衡量語意的關聯性。如此一來,就可以把「語意」量化,語意便得以運算。
Also read
Tags: rag, llm