語意搜尋的核心：向量表示（Vector Representation）

．作者：Jollen／
．日期：Fri Nov 07 2025 08:00:00 GMT+0800 (台北標準時間)

向量表示（Vector Representation）的觀念

語意搜尋的關鍵在於「讓語言變成可運算的 Expression（運算式）」，例如：x = 10 就是一個運算式，y = 20 是一個運算式，result = x + y 也是一個運算式。

怎麼讓語言變成運算式呢？這個關鍵技術，就稱為「Text Embedding」。Text Embedding 模型將文字轉換為數值向量，並將每個句子或段落映射為一個「向量空間」，也稱為「語意空間」。在這個空間裡，語意相近的句子距離較近，而語意不同的句子距離較遠。

這就是 RAG 實作語意搜尋的核心概念。當句子與落段「向量化」後，語言便能成為運算式。透過運算式的結果，來取得句子之間的距離，找到附近距離最近的句子，就能得到與目前語意最有關聯性的其它句子。這就是語意搜尋的結果，找到「關聯性」最高的文字。

以下是一個語意空間的概念性圖：

       (退貨政策)
           ●
          / \
         /   \
     ●退款   送貨延遲●
   (語意相似)    (語意遠)

當使用者的提問是「退貨政策」時，Node.js 可以利用 RAG 找到距離最近的句子，如圖所示，即「退款」。接著，再把使用者問題，以及「退款」一併送進 LLM 進行文字生成。

語意空間讓電腦「以距離代表語意」。換句話說，語意搜尋不再依賴「關鍵字」，而是依懶「向量距離（Vector Distance）」來衡量語意的關聯性。如此一來，就可以把「語意」量化，語意便得以運算。

Tags: rag, llm