數據分析

數據分析的第一課：一篇搞懂結構化、半結構化與非結構化資料

數據分析的第一步是什麼？不是學工具，而是辨識資料的樣貌。本文將透過一個新帳篷的上市故事，帶你從顧客的 IG 開箱文到系統的訂單紀錄，一次搞懂結構化、半結構化與非結構化資料的核心差異，並理解為何這是所有高效分析的基礎。

Kiro

05 Aug 2025 — 17 min read

你好，我是 Kiro

在這個數據驅動的時代，我們每天都在創造數據：一次點擊、一則留言、一筆訂單。但這些「數據」並非生而平等。它們有著不同的形態、脾氣和用途。

在我們學習如何分析數據之前，必須先學會辨識它們的「樣貌」。這不僅僅是理論，它會直接決定你後續分析的難易度與深度。

這篇文章，就是我為你準備的「數據形態辨識課」。它是我「人生算法」中 L-Engine (底層邏輯引擎) 的第一塊基石。理解了它，你才能真正明白，為什麼我們總是在分析前，花費大量時間進行「資料清理與轉換」。

如果你已經對數據分析的流程有概念，想直接了解 Power BI 這個強大的工具，我建議你閱讀這篇 《Power BI 是什麼？2025 年終極指南》。如果沒有，讓我們跟隨一款新帳篷的上市旅程，從頭開始。

一款新帳篷的上市旅程：數據的三種形態

讓我們聚焦在一個真實的商業場景：一家名為「Apex Gear」的戶外用品公司，上個月剛發布了一款名為「探索家 Pro」的新帳篷。從顧客在 IG 上的開箱分享，到系統後台的訂單處理，再到季度銷售會議的分析報告，這個過程完美地展示了數據的三種核心形態：

非結構化資料 (Unstructured Data)： 顧客在 IG 上的「#探索家Pro開箱」圖文分享。
半結構化資料 (Semi-Structured Data)： 官網電商系統生成的「訂單紀錄 JSON」。
結構化資料 (Structured Data)： 公司內部 ERP 系統的「銷售資料庫」。

現在，讓我們跟隨這款帳篷的旅程，逐一解析這三種形態。

1. 非結構化資料 (Unstructured Data)：顧客的「IG 開箱文」

一句話定義： 數據的原始形態，充滿潛力也充滿混亂。

旅程的開始，是一位名叫 Emily 的忠實顧客，她收到「探索家 Pro」後，在 IG 上發佈了一篇熱情洋溢的開箱文。

「#探索家Pro開箱！Apex Gear 這次的新帳篷太神了，週末在陽明山遇到大雨，裡面完全乾爽，防水性一流！空間也比想像中大。唯一的小缺點是附的營釘有點軟，建議自己升級。整體來說絕對是五星推薦！🏕️」

這篇包含了主題標籤、文字、表情符號和圖片等元素的完整貼文，就是最典型的非結構化資料。

核心特徵：

沒有格式： 它是自由流動的內容集合，沒有固定的欄位或規則。
蘊含豐富資訊：
- 文字裡包含了對「防水性」的讚美、對「空間」的肯定，以及對「營釘」的具體建議。
- Emoji 表達了強烈的情緒。
- 圖片則提供了真實的使用場景和視覺證明。
分析難度大： 電腦無法直接理解這一切。我們需要不同的 AI 技術來解析：用自然語言處理 (NLP) 來分析文字情感與主題，用影像辨識 (Image Recognition) 來分析圖片內容。

Kiro 的見解： Emily 的這篇 IG 貼文對 Apex Gear 來說是座金礦，但它是一塊包含多種礦物的「複合原礦」。能同時從文字和圖像中提煉出洞見（例如：發現多數好評都提到了『防水性』，而少數負評則集中在『營釘』），是頂尖分析師的價值所在。

2. 半結構化資料 (Semi-Structured Data)：系統的「訂單紀錄 JSON」

一句話定義： 資料自帶說明書，但格式可變。

現在，讓我們把時間倒回 Emily 在 Apex Gear 官網點下「確認購買」的那一刻。在後台，電商系統需要將訂單資訊打包傳送給倉儲與財務系統。為了展示其靈活性，讓我們看看兩筆連續的訂單，它們的「數位包裹」可能長得像這樣（使用 JSON 格式）：

訂單 ORD-2024-1001 (Emily 的訂單):

{
  "order_id": "ORD-2024-1001",
  "customer_id": "CUST-456",
  "items": [
    {
      "product_sku": "TP-EXP-PRO-GRN",
      "product_name": "探索家 Pro 帳篷 (森林綠)",
      "quantity": 1
    }
  ],
  "shipping_option": "express_delivery" 
}

訂單 ORD-2024-1002 (David 的訂單):

{
  "order_id": "ORD-2024-1002",
  "customer_id": "CUST-123",
  "items": [
    {
      "product_sku": "BP-ADV-50L-BLK",
      "product_name": "冒險家背包 50L (黑色)",
      "quantity": 1
    },
    {
      "product_sku": "WB-INS-1L-BLU",
      "product_name": "保溫水瓶 1L (藍色)",
      "quantity": 2
    }
  ],
  "discount_code": "SUMMER20"
}

這就是半結構化資料。請注意它們的差異：第一筆訂單只有一個商品，並有 shipping_option 欄位；而第二筆訂單的 items 陣列中包含了兩個商品，且沒有 shipping_option，反而多了一個 discount_code 欄位。它不像 IG 貼文那樣完全自由，而是用「標籤: 值」的方式，為自己附上了說明書。

核心特徵：

格式靈活： 如上所示，每筆資料的欄位和結構都可以不同，這讓它非常有彈性。
具層級性： items 裡面又包了多個商品物件，像樹狀結構一樣。
系統溝通的語言： 它是現代網路世界中，不同系統之間交換資料的標準語言。

Kiro 的見解： 半結構化資料是系統間溝通的「通用語」。分析師的角色就像一位「翻譯官」，我們的工作就是讀懂這些系統的語言，並將其翻譯成商業世界能理解的語言。

3. 結構化資料 (Structured Data)：公司的「銷售資料庫」

一句話定義： 先有規矩，再有資料。

最後，當帳篷順利出貨、款項收訖，這筆交易的最終歸宿，就是公司用來做分析的 ERP 銷售資料庫。它會長得像一張你非常熟悉的 Excel 表格：

OrderID	CustomerID	OrderDate	ProductID	Quantity	Revenue
ORD-2024-1001	CUST-456	2024-10-26	TP-EXP-PRO	1	8000
ORD-2024-1002	CUST-123	2024-10-26	HK-STD-001	2	1500

這就是結構化資料，數據分析的「理想國」。

核心特徵：

格式固定： 在存入任何資料前，就已嚴格規定好所有欄位（OrderID、CustomerID...）和它們的資料類型（文字、日期、數字）。
高度組織化： 每一筆資料都完美地填入預設好的格子裡，極度規整，便於電腦快速查詢、篩選和計算。
擴展性較差： 如果要新增一個「運送方式」的欄位，就需要對整個資料庫的「規矩」進行修改。

Kiro 的見解： 結構化資料是我們的「最終帳本」，是所有分析和決策的「單一事實來源 (Single Source of Truth)」。我們所有的儀表板、報表，都是建立在這個堅實、可靠的基礎之上。

分析師的困境：為什麼我們不能直接「分析」原始資料？

看到這裡，你腦中可能會浮現一個最自然的問題：「聽起來非結構化（如 IG 貼文）和半結構化（如訂單 JSON）的資訊更豐富，我們為什麼不直接分析它們，反而要費力地把它們變成規整的結構化表格呢？」

這個問題直擊核心。簡短的答案是：因為在商業分析的世界裡，我們最常被要求的不是「觀察」，而是「衡量」與「關聯」，而這兩件事極度依賴結構。

讓我們回到「探索家 Pro」新帳篷的場景。作為數據分析師，Apex Gear 的 CEO 向你提出了兩個非常合理的業務問題：

我們的錢花對了嗎？哪個廣告渠道帶來的『廣告投資報酬率 (ROAS)』最高？顧客到底喜不喜歡它？他們給 5 星或 1 星評價的主要原因分別是什麼？」

現在，你手上有三份來自不同部門的原始資料：

財務部的銷售資料（結構化）： 公司 ERP 系統裡的標準銷售表，包含 訂單日期、產品ID、銷售金額。
行銷部的廣告資料（半結構化）： 從 Facebook 和 Google Ads API 下載的每日廣告成效報告，是一堆 JSON 檔案。
客服部的顧客回饋（非結構化）： 從 IG 和官網上抓取的所有關於「探索家 Pro」的原始文字評論。

面對 CEO 的問題，如果你試圖直接用這些原始資料來分析，你會立刻碰壁：

如何計算 ROAS？ ROAS 的公式是 銷售收入 / 廣告花費。你的「收入」在結構化的 ERP 表格裡，而「花費」則深埋在一堆半結構化的 JSON 檔案中。你不可能直接用一個 SQL 欄位，去除以一堆 JSON 檔案裡的某個值。 這兩種不同形態的資料就像水和油，無法直接混合運算。
如何分析顧客評價？ 你面對的是一堆非結構化的 IG 貼文。你無法把「文字」本身放到長條圖的 Y 軸上進行加總或平均。你無法對圖表下指令說：「請幫我篩選出所有提到『營釘』的負面評論」。電腦根本不理解這些文字的意義。

這就是為什麼，在進行任何有意義的商業分析之前，「結構化」是不可逾越的一步。

為了回答 CEO 的問題，你必須先扮演「數據工程師」的角色，進行以下“翻譯”工作：

翻譯「半結構化」資料： 你需要寫一段腳本（或使用 Power Query），去解析所有的 JSON 檔案，將裡面的 日期、渠道名稱、花費金額 提取出來，整理成一個新的、結構化的「廣告花費表」。
翻譯「非結構化」資料： 你需要使用 AI 工具（例如自然語言處理 NLP 模型），去讀取每一則評論，並為它們打上標籤。比如，將 Emily 的評論標記為 {主題: "防水性", 情緒: "正面"} 和 {主題: "配件(營釘)", 情緒: "負面建議"}。這個過程，就是在混亂中創造結構，最終產出一張新的、結構化的「評論分析表」。

當這兩步完成後，魔法發生了。 你現在擁有三張結構清晰、彼此相容的表格。現在，你終於可以把它們全部載入到 Power BI 中，建立關聯，並自信地回答 CEO 的問題了。

總而言之，不是非結構化資料不能分析，而是我們必須先透過一個「結構化」的過程，將其中有商業價值的資訊提取出來，放到規整的表格中，後續的比較、計算和關聯分析才能高效、準確地進行。

而在實務中，最常見的「非結構化」挑戰之一，就是你從同事或客戶手中收到的 Excel 報表。它們為了方便人類閱讀，常常被設計成寬表格 (Wide Format)，但這種格式卻是分析工具的惡夢。理解如何將其轉化為機器易於分析的長表格 (Long Format)，是資料清理中最核心的技能。如果你想深入了解這個過程，我強烈建議你閱讀這篇實戰教學：長表格 vs. 寬表格：一篇搞懂資料清理的核心，附 Power Query 實戰教學。

不只是理論：理解資料形態如何改變你的工作方式

掌握了這三種資料形態的差異，你獲得的不僅是理論知識，更是一套能在職場中高效溝通與協作的「共同語言」。這將在你的工作中帶來三個立竿見影的改變：

1. 你能與 IT/工程部門更順暢地溝通

以前的你可能會說： 「我想要顧客評論的資料，可以幫我撈一下嗎？」這是一個模糊的需求，IT 工程師可能需要花很多時間來回確認你要什麼。
現在的你會說： 「為了分析顧客情緒，我需要過去一個月所有關於『探索家 Pro』的非結構化評論文本。另外，能否請你們提供一下行銷部門廣告投放的 API？我會自己解析那些半結構化的 JSON 資料。最終，我會將它們與 ERP 裡的結構化銷售資料進行關聯分析。」

看到區別了嗎？當你能夠準確地使用這些術語時，你不僅展現了你的專業性，更極大地降低了溝通成本，讓跨部門協作變得前所未有的高效。IT 工程師會把你視為一個真正懂資料的專業夥伴。

2. 你能更準確地評估分析任務的複雜度

當你接到一個分析需求時，你腦中會立刻浮現出資料形態的藍圖。

如果需求是「分析各區域的銷售額」，你會知道這主要依賴結構化資料，任務相對直接，可能半天就能完成。
如果需求是「找出影響顧客滿意度的關鍵因素」，你會立刻意識到這需要處理大量的非結構化評論，涉及到 NLP 模型和複雜的資料清理，這是一個需要投入更多時間和資源的大型專案。

這種能力，能幫助你更精準地管理老闆和同事的期望，並合理規劃你的工作排程。

3. 你能更清晰地規劃你的分析專案

面對任何商業問題，你的第一反應將不再是“我該用哪個圖表”，而是“我需要將哪幾種形態的資料，最終『結構化』成一張什麼樣的分析表？”

這個思維轉變，會讓你從一個被動的“拉圖表”執行者，轉變為一個主動的“分析架構師”。你知道所有分析的起點，都源於將混亂的現實世界，轉譯為清晰有序的結構化表格。

這跟 Power BI 有什麼關係？「數據精煉廠」的角色

現在我們明白了，為什麼「結構化」是我們進行商業分析的終極目標。 這也讓你更能理解 Power BI 的核心價值。

你可以把 Power BI 的核心模組之一 Power Query，理解為一台強大的「數據精煉廠」。

它的核心任務就是：

導入原礦： 它可以連接到網路，一次性讀取數萬則包含文字和圖片連結的非結構化「IG 貼文」（通常需要搭配 AI 服務進行預處理）。
解析包裹： 它可以讀取並解析成千上萬個半結構化的「訂單 JSON」，並精準地提取出每一個標籤下的值。
產出金條： 最終，它會透過一系列的清理、轉換、合併操作，將所有原始、混亂的數據，全部轉化為 Power BI 最擅長分析的、整齊劃一的結構化「銷售帳本」。

不理解數據的原始形態，你就不會明白為什麼數據分析的第一步永遠是「轉換資料」。這一步，正是所有數據魔法開始的地方，是將在不同系統、不同形態中流動的商業事實，統一為清晰洞見的必經之路。

結論：你已完成分析的第一課

恭喜你！透過跟隨一款新帳篷的上市旅程，你已經掌握了數據分析最底層的認知框架，並理解了它在真實工作中的應用價值。

非結構化資料（IG 貼文） 是價值的源頭，但需要先精煉。
半結構化資料（訂單 JSON） 是過程的語言，需要被翻譯。
結構化資料（銷售資料庫） 是分析的基石，是我們高效決策的最終目標。

理解了數據的本質，只是成為專業分析師的第一步。如果你想看到完整的藍圖，從心法到實戰，我強烈建議你閱讀我的核心指南：《數據分析師的養成心法：從零到專家，建構你的完整分析思維 (2025終極指南)》。

🚀 準備好親手打造你的數據精煉廠了嗎？

如果你已經準備好，想將理論轉化為可以放進作品集的亮眼專案，我誠摯地邀請你加入我在 Hahow 的線上課程。

【Power BI x AI 終極實戰：打造高效數據分析工作流】

在這門超過 9 小時的課程中，我們將直接帶你處理真實世界的資料，打造出令人驚豔的儀表板！

🎁 想持續升級你的數據決策系統嗎？

覺得這篇文章對你有幫助嗎？這只是個開始。

免費加入，立即解鎖『會員資源中心』 (內含完整電子書、練習檔案與更多專屬內容)！

你將不僅能立即下載排版精美的 【數據分析師的養成心法 (2025 終極指南)】 完整版電子書 (PDF) ，更重要的是，你將開始每週收到我的獨家框架、實踐案例與工具推薦。

讓我們一起，將數據轉化為智慧，打造屬於自己的理想人生。

數據分析的第一課：一篇搞懂結構化、半結構化與非結構化資料

Kiro

一款新帳篷的上市旅程：數據的三種形態

1. 非結構化資料 (Unstructured Data)：顧客的「IG 開箱文」