數據分析的第一課:一篇搞懂結構化、半結構化與非結構化資料

數據分析的第一步是什麼?不是學工具,而是辨識資料的樣貌。本文將透過一個新帳篷的上市故事,帶你從顧客的 IG 開箱文到系統的訂單紀錄,一次搞懂結構化、半結構化與非結構化資料的核心差異,並理解為何這是所有高效分析的基礎。

數據分析的第一課:一篇搞懂結構化、半結構化與非結構化資料

你好,我是 Kiro。

在這個數據驅動的時代,我們每天都在創造數據:一次點擊、一則留言、一筆訂單。但這些「數據」並非生而平等。它們有著不同的形態、脾氣和用途。

在我們學習如何分析數據之前,必須先學會辨識它們的「樣貌」。這不僅僅是理論,它會直接決定你後續分析的難易度與深度。

這篇文章,就是我為你準備的「數據形態辨識課」。它是我「人生算法」中 L-Engine (底層邏輯引擎) 的第一塊基石。理解了它,你才能真正明白,為什麼我們總是在分析前,花費大量時間進行「資料清理與轉換」。

如果你已經對數據分析的流程有概念,想直接了解 Power BI 這個強大的工具,我建議你閱讀這篇 《Power BI 是什麼?2025 年終極指南》。如果沒有,讓我們跟隨一款新帳篷的上市旅程,從頭開始。


一款新帳篷的上市旅程:數據的三種形態

讓我們聚焦在一個真實的商業場景:一家名為「Apex Gear」的戶外用品公司,上個月剛發布了一款名為「探索家 Pro」的新帳篷。從顧客在 IG 上的開箱分享,到系統後台的訂單處理,再到季度銷售會議的分析報告,這個過程完美地展示了數據的三種核心形態:

  1. 非結構化資料 (Unstructured Data): 顧客在 IG 上的「#探索家Pro開箱」圖文分享。
  2. 半結構化資料 (Semi-Structured Data): 官網電商系統生成的「訂單紀錄 JSON」。
  3. 結構化資料 (Structured Data): 公司內部 ERP 系統的「銷售資料庫」。

現在,讓我們跟隨這款帳篷的旅程,逐一解析這三種形態。

1. 非結構化資料 (Unstructured Data):顧客的「IG 開箱文」

一句話定義: 數據的原始形態,充滿潛力也充滿混亂。

旅程的開始,是一位名叫 Emily 的忠實顧客,她收到「探索家 Pro」後,在 IG 上發佈了一篇熱情洋溢的開箱文。

「#探索家Pro開箱!Apex Gear 這次的新帳篷太神了,週末在陽明山遇到大雨,裡面完全乾爽,防水性一流!空間也比想像中大。唯一的小缺點是附的營釘有點軟,建議自己升級。整體來說絕對是五星推薦!🏕️」

這篇包含了主題標籤、文字、表情符號和圖片等元素的完整貼文,就是最典型的非結構化資料。

核心特徵:

  • 沒有格式: 它是自由流動的內容集合,沒有固定的欄位或規則。
  • 蘊含豐富資訊:
    • 文字 裡包含了對「防水性」的讚美、對「空間」的肯定,以及對「營釘」的具體建議。
    • Emoji 表達了強烈的情緒。
    • 圖片 則提供了真實的使用場景和視覺證明。
  • 分析難度大: 電腦無法直接理解這一切。我們需要不同的 AI 技術來解析:用自然語言處理 (NLP) 來分析文字情感與主題,用影像辨識 (Image Recognition) 來分析圖片內容。
Kiro 的見解: Emily 的這篇 IG 貼文對 Apex Gear 來說是座金礦,但它是一塊包含多種礦物的「複合原礦」。能同時從文字和圖像中提煉出洞見(例如:發現多數好評都提到了『防水性』,而少數負評則集中在『營釘』),是頂尖分析師的價值所在。

2. 半結構化資料 (Semi-Structured Data):系統的「訂單紀錄 JSON」

一句話定義: 資料自帶說明書,但格式可變。

現在,讓我們把時間倒回 Emily 在 Apex Gear 官網點下「確認購買」的那一刻。在後台,電商系統需要將訂單資訊打包傳送給倉儲與財務系統。為了展示其靈活性,讓我們看看兩筆連續的訂單,它們的「數位包裹」可能長得像這樣(使用 JSON 格式):

訂單 ORD-2024-1001 (Emily 的訂單):

{
  "order_id": "ORD-2024-1001",
  "customer_id": "CUST-456",
  "items": [
    {
      "product_sku": "TP-EXP-PRO-GRN",
      "product_name": "探索家 Pro 帳篷 (森林綠)",
      "quantity": 1
    }
  ],
  "shipping_option": "express_delivery" 
}

訂單 ORD-2024-1002 (David 的訂單):

{
  "order_id": "ORD-2024-1002",
  "customer_id": "CUST-123",
  "items": [
    {
      "product_sku": "BP-ADV-50L-BLK",
      "product_name": "冒險家背包 50L (黑色)",
      "quantity": 1
    },
    {
      "product_sku": "WB-INS-1L-BLU",
      "product_name": "保溫水瓶 1L (藍色)",
      "quantity": 2
    }
  ],
  "discount_code": "SUMMER20"
}

這就是半結構化資料。請注意它們的差異:第一筆訂單只有一個商品,並有 shipping_option 欄位;而第二筆訂單的 items 陣列中包含了兩個商品,且沒有 shipping_option,反而多了一個 discount_code 欄位。它不像 IG 貼文那樣完全自由,而是用「標籤: 值」的方式,為自己附上了說明書。

核心特徵:

  • 格式靈活: 如上所示,每筆資料的欄位和結構都可以不同,這讓它非常有彈性。
  • 具層級性: items 裡面又包了多個商品物件,像樹狀結構一樣。
  • 系統溝通的語言: 它是現代網路世界中,不同系統之間交換資料的標準語言。
Kiro 的見解: 半結構化資料是系統間溝通的「通用語」。分析師的角色就像一位「翻譯官」,我們的工作就是讀懂這些系統的語言,並將其翻譯成商業世界能理解的語言。

3. 結構化資料 (Structured Data):公司的「銷售資料庫」

一句話定義: 先有規矩,再有資料。

最後,當帳篷順利出貨、款項收訖,這筆交易的最終歸宿,就是公司用來做分析的 ERP 銷售資料庫。它會長得像一張你非常熟悉的 Excel 表格:

OrderID CustomerID OrderDate ProductID Quantity Revenue
ORD-2024-1001 CUST-456 2024-10-26 TP-EXP-PRO 1 8000
ORD-2024-1002 CUST-123 2024-10-26 HK-STD-001 2 1500

這就是結構化資料,數據分析的「理想國」。

核心特徵:

  • 格式固定: 在存入任何資料前,就已嚴格規定好所有欄位(OrderIDCustomerID...)和它們的資料類型(文字、日期、數字)。
  • 高度組織化: 每一筆資料都完美地填入預設好的格子裡,極度規整,便於電腦快速查詢、篩選和計算。
  • 擴展性較差: 如果要新增一個「運送方式」的欄位,就需要對整個資料庫的「規矩」進行修改。
Kiro 的見解: 結構化資料是我們的「最終帳本」,是所有分析和決策的「單一事實來源 (Single Source of Truth)」。我們所有的儀表板、報表,都是建立在這個堅實、可靠的基礎之上。

分析師的困境:為什麼我們不能直接「分析」原始資料?

看到這裡,你腦中可能會浮現一個最自然的問題:「聽起來非結構化(如 IG 貼文)和半結構化(如訂單 JSON)的資訊更豐富,我們為什麼不直接分析它們,反而要費力地把它們變成規整的結構化表格呢?

這個問題直擊核心。簡短的答案是:因為在商業分析的世界裡,我們最常被要求的不是「觀察」,而是「衡量」與「關聯」,而這兩件事極度依賴結構。

讓我們回到「探索家 Pro」新帳篷的場景。作為數據分析師,Apex Gear 的 CEO 向你提出了兩個非常合理的業務問題:

我們的錢花對了嗎?哪個廣告渠道帶來的『廣告投資報酬率 (ROAS)』最高?顧客到底喜不喜歡它?他們給 5 星或 1 星評價的主要原因分別是什麼?」

現在,你手上有三份來自不同部門的原始資料:

  1. 財務部的銷售資料(結構化): 公司 ERP 系統裡的標準銷售表,包含 訂單日期產品ID銷售金額
  2. 行銷部的廣告資料(半結構化): 從 Facebook 和 Google Ads API 下載的每日廣告成效報告,是一堆 JSON 檔案。
  3. 客服部的顧客回饋(非結構化): 從 IG 和官網上抓取的所有關於「探索家 Pro」的原始文字評論。

面對 CEO 的問題,如果你試圖直接用這些原始資料來分析,你會立刻碰壁:

  • 如何計算 ROAS? ROAS 的公式是 銷售收入 / 廣告花費。你的「收入」在結構化的 ERP 表格裡,而「花費」則深埋在一堆半結構化的 JSON 檔案中。你不可能直接用一個 SQL 欄位,去除以一堆 JSON 檔案裡的某個值。 這兩種不同形態的資料就像水和油,無法直接混合運算。
  • 如何分析顧客評價? 你面對的是一堆非結構化的 IG 貼文。你無法把「文字」本身放到長條圖的 Y 軸上進行加總或平均。你無法對圖表下指令說:「請幫我篩選出所有提到『營釘』的負面評論」。電腦根本不理解這些文字的意義。

這就是為什麼,在進行任何有意義的商業分析之前,「結構化」是不可逾越的一步。

為了回答 CEO 的問題,你必須先扮演「數據工程師」的角色,進行以下“翻譯”工作:

  1. 翻譯「半結構化」資料: 你需要寫一段腳本(或使用 Power Query),去解析所有的 JSON 檔案,將裡面的 日期渠道名稱花費金額 提取出來,整理成一個新的、結構化的「廣告花費表」
  2. 翻譯「非結構化」資料: 你需要使用 AI 工具(例如自然語言處理 NLP 模型),去讀取每一則評論,並為它們打上標籤。比如,將 Emily 的評論標記為 {主題: "防水性", 情緒: "正面"}{主題: "配件(營釘)", 情緒: "負面建議"}。這個過程,就是在混亂中創造結構,最終產出一張新的、結構化的「評論分析表」

當這兩步完成後,魔法發生了。 你現在擁有三張結構清晰、彼此相容的表格。現在,你終於可以把它們全部載入到 Power BI 中,建立關聯,並自信地回答 CEO 的問題了。

總而言之,不是非結構化資料不能分析,而是我們必須先透過一個「結構化」的過程,將其中有商業價值的資訊提取出來,放到規整的表格中,後續的比較、計算和關聯分析才能高效、準確地進行。

而在實務中,最常見的「非結構化」挑戰之一,就是你從同事或客戶手中收到的 Excel 報表。它們為了方便人類閱讀,常常被設計成寬表格 (Wide Format),但這種格式卻是分析工具的惡夢。理解如何將其轉化為機器易於分析的長表格 (Long Format),是資料清理中最核心的技能。如果你想深入了解這個過程,我強烈建議你閱讀這篇實戰教學:長表格 vs. 寬表格:一篇搞懂資料清理的核心,附 Power Query 實戰教學。


不只是理論:理解資料形態如何改變你的工作方式

掌握了這三種資料形態的差異,你獲得的不僅是理論知識,更是一套能在職場中高效溝通與協作的「共同語言」。這將在你的工作中帶來三個立竿見影的改變:

1. 你能與 IT/工程部門更順暢地溝通

  • 以前的你可能會說: 「我想要顧客評論的資料,可以幫我撈一下嗎?」這是一個模糊的需求,IT 工程師可能需要花很多時間來回確認你要什麼。
  • 現在的你會說: 「為了分析顧客情緒,我需要過去一個月所有關於『探索家 Pro』的非結構化評論文本。另外,能否請你們提供一下行銷部門廣告投放的 API?我會自己解析那些半結構化的 JSON 資料。最終,我會將它們與 ERP 裡的結構化銷售資料進行關聯分析。」

看到區別了嗎?當你能夠準確地使用這些術語時,你不僅展現了你的專業性,更極大地降低了溝通成本,讓跨部門協作變得前所未有的高效。IT 工程師會把你視為一個真正懂資料的專業夥伴。

2. 你能更準確地評估分析任務的複雜度

當你接到一個分析需求時,你腦中會立刻浮現出資料形態的藍圖。

  • 如果需求是「分析各區域的銷售額」,你會知道這主要依賴結構化資料,任務相對直接,可能半天就能完成。
  • 如果需求是「找出影響顧客滿意度的關鍵因素」,你會立刻意識到這需要處理大量的非結構化評論,涉及到 NLP 模型和複雜的資料清理,這是一個需要投入更多時間和資源的大型專案。

這種能力,能幫助你更精準地管理老闆和同事的期望,並合理規劃你的工作排程。

3. 你能更清晰地規劃你的分析專案

面對任何商業問題,你的第一反應將不再是“我該用哪個圖表”,而是“我需要將哪幾種形態的資料,最終『結構化』成一張什麼樣的分析表?

這個思維轉變,會讓你從一個被動的“拉圖表”執行者,轉變為一個主動的“分析架構師”。你知道所有分析的起點,都源於將混亂的現實世界,轉譯為清晰有序的結構化表格。


這跟 Power BI 有什麼關係?「數據精煉廠」的角色

現在我們明白了,為什麼「結構化」是我們進行商業分析的終極目標。 這也讓你更能理解 Power BI 的核心價值。

你可以把 Power BI 的核心模組之一 Power Query,理解為一台強大的「數據精煉廠」

它的核心任務就是:

  1. 導入原礦: 它可以連接到網路,一次性讀取數萬則包含文字和圖片連結的非結構化「IG 貼文」(通常需要搭配 AI 服務進行預處理)。
  2. 解析包裹: 它可以讀取並解析成千上萬個半結構化的「訂單 JSON」,並精準地提取出每一個標籤下的值。
  3. 產出金條: 最終,它會透過一系列的清理、轉換、合併操作,將所有原始、混亂的數據,全部轉化為 Power BI 最擅長分析的、整齊劃一的結構化「銷售帳本」

不理解數據的原始形態,你就不會明白為什麼數據分析的第一步永遠是「轉換資料」。這一步,正是所有數據魔法開始的地方,是將在不同系統、不同形態中流動的商業事實,統一為清晰洞見的必經之路。


結論:你已完成分析的第一課

恭喜你!透過跟隨一款新帳篷的上市旅程,你已經掌握了數據分析最底層的認知框架,並理解了它在真實工作中的應用價值。

  • 非結構化資料(IG 貼文) 是價值的源頭,但需要先精煉
  • 半結構化資料(訂單 JSON) 是過程的語言,需要被翻譯
  • 結構化資料(銷售資料庫) 是分析的基石,是我們高效決策的最終目標

理解了數據的本質,只是成為專業分析師的第一步。如果你想看到完整的藍圖,從心法到實戰,我強烈建議你閱讀我的核心指南:《數據分析師的養成心法:從零到專家,建構你的完整分析思維 (2025終極指南)》

🚀 準備好親手打造你的數據精煉廠了嗎?

如果你已經準備好,想將理論轉化為可以放進作品集的亮眼專案,我誠摯地邀請你加入我在 Hahow 的線上課程。

【Power BI x AI 終極實戰:打造高效數據分析工作流】

在這門超過 9 小時的課程中,我們將直接帶你處理真實世界的資料,打造出令人驚豔的儀表板!


🎁 想持續升級你的數據決策系統嗎?

覺得這篇文章對你有幫助嗎?這只是個開始。

免費加入,立即解鎖『會員資源中心』 (內含完整電子書、練習檔案與更多專屬內容)!

你將不僅能立即下載排版精美的 【數據分析師的養成心法 (2025 終極指南)】 完整版電子書 (PDF) ,更重要的是,你將開始每週收到我的獨家框架、實踐案例與工具推薦。

讓我們一起,將數據轉化為智慧,打造屬於自己的理想人生。

Read more

n8n 自動化流程選擇最佳資料庫:Google Sheets、Notion、Airtable 與 Baserow 深度對決

n8n 自動化流程選擇最佳資料庫:Google Sheets、Notion、Airtable 與 Baserow 深度對決

在為我的 n8n 自動化流程尋找完美資料庫的旅程中,我深度評比了 Google Sheets、Notion、Airtable 與 Baserow。從最初的熟悉工具,到專業級的正面對決,這不僅是一場技術選擇,更是一場關於成本、擴展性與未來自由的戰略思考。最終,我找到了一條從 Baserow 雲端版起步,邁向 Zeabur 自架無限宇宙的最佳路徑。一同來看看我的完整決策過程。

By Kiro