什麼是資料遮罩?

資料遮罩是透過修改資料原始字母和數字來隱藏資料的程序。基於法規和隱私權要求,組織必須保護所收集的客戶和營運相關敏感資料。資料遮罩會藉由變更機密資訊,建立偽造版本的組織資料,並且會採用各種技術來建立逼真且結構相仿的變更。一旦資料被遮罩,若您沒有原始資料集的存取權,就無法對原始資料值進行逆向工程或追蹤。

資料遮罩的使用案例有哪些?

資料遮罩技術支援組織為符合資料隱私權法規 (例如一般資料保護規範 (GDPR)) 所做的工作。您可以保護許多資料類型,例如個人身分識別資訊 (PII)、財務資料、受保護的健康資訊 (PHI) 和智慧財產。

接下來,我們將探討一些資料遮罩使用案例。

安全開發

軟體開發與測試環境需要真實世界的資料集以供測試之用。但是,使用真實資料引發了安全問題。資料遮罩可讓開發人員和測試人員處理類似於原始資料,但不會公開敏感資訊的真實測試資料。它減少了開發和測試週期中的安全風險。

分析與研究

資料遮罩可讓資料科學家和分析師在不影響個人隱私權的情況下,使用大型資料集。研究人員可從資料中衍生有價值的洞察和趨勢,並確保隱私權受到保護。例如,科學家可使用匿名資料集來研究新藥的有效性,分析治療結果,或調查潛在的副作用。

外部協作

組織通常需要與外部合作夥伴、廠商或顧問共用資料。透過遮罩某些欄位或屬性,組織可與外部人員協作,同時仍能保護敏感資料。

員工培訓

您可以將資料遮罩用於員工培訓課程或軟體示範。透過遮罩敏感資料,組織可以提供實際範例,而不會公開真實的客戶或企業資料。員工可以學習和練習技能,而無需存取他們沒有授權的資料。

資料遮罩有哪些類型?

接下來,我們將介紹一些常見的資料遮罩類型。

靜態資料遮罩

靜態資料遮罩是在存放或共用敏感資料之前,將固定的遮罩規則集套用至敏感資料的程序。它通常用於不常變更或隨時間保持靜態的資料。您可以預先定義規則並持續一致地將其套用至資料,以確保在多個環境中保持持續一致的遮罩。

雖然詳細資訊很複雜,但以下是靜態資料遮罩處理程序的概觀:

  1. 識別和理解敏感資料
  2. 設計和開發遮罩規則
  3. 選擇適當的資料遮罩演算法
  4. 將遮罩規則套用至實際資料

您隨後可根據需要共用遮罩資料。

動態資料遮罩

動態資料遮罩會即時套用遮罩技術。當使用者存取或查詢時,它會動態更改現有的敏感資料。它主要用於在客戶支援或病歷處理等應用程式中,實作以角色為基礎的資料安全性。

動態資料遮罩的運作方式如下:

  1. 所有使用者透過代理伺服器與資料庫進行通訊
  2. 當使用者請求讀取資料時,資料庫代理會根據使用者角色、權限或存取許可來套用遮罩規則
  3. 授權使用者會收到原始資料,而未經授權的使用者會收到遮罩資料

雖然該程序無需事先準備,但可能會影響效能。

確定性資料遮罩

確定性資料遮罩可確保相同的輸入值會持續一致地遮罩為相同的輸出值。例如,如果某個特定名稱在某個執行個體中被遮罩為 "John",則在整個系統中,它將始終被遮罩為 "John"。

確定性遮罩技術通常涉及資料替換或字符化,其中原始資料欄與遮罩值之間會維持一致的映射。

即時資料遮罩

即時資料遮罩會遮罩記憶體中的敏感資料,因此無需將更改後的資料存放在資料庫中。這在持續部署管道或複雜的整合案例中非常有用,因為資料經常會在生產環境與非生產環境之間移動。在管道的必要階段,應用程式會遮罩資料,然後將資料傳遞至管道中的下一個階段。

统计資料模糊化

統計資料模糊化涉及更改敏感資料的值,以保留資料內的統計屬性和關係。它可確保遮罩資料保持原始資料的整體分佈、模式和關聯性,以進行準確的統計分析。統計資料模糊化技術包括將數學函數或擾動演算法套用至資料。

常見的資料遮罩技術有哪些?

您可以使用多種演算法來保護資料。以下是一些常見的資料遮罩方法。

隨機化

使用隨機化時,您可以使用與原始資料無關的隨機產生值來取代敏感資料。例如,您可以使用虛構或隨機選取的值來取代姓名、地址或其他個人識別資訊。

替代

替代遮罩涉及用類似但虛構的資料來取代敏感資料。例如,您可以使用預先定義清單中的名稱來取代實際名稱。您還可以使用演算法,來產生類似但偽造的信用卡號碼。

重排

使用重排時,您可以重新排列資料集內的值,以保留統計屬性並使個別記錄無法辨識。此技術通常用於保留資料內的關係。

例如,在資料表中,您可以隨機重排資料欄的資料,以變更資料列的值。實際上,您可以在切換姓名和聯繫方式時,保留客戶與其交易之間的關聯。

加密

使用加密遮罩時,您可以使用加密演算法來加密敏感資料。您可將資料轉換為無法讀取的格式,並且只有具有解密金鑰的授權使用者才能存取原始資料。此技術提供更高層級的資料安全性,但會影響查詢效能,因為資料分析需要解密。

雜湊

雜湊是一種轉換技術,可將資料轉換為固定長度的字元字串。它通常用於遮罩密碼或其他敏感資訊,其中不需要原始值,您只需驗證資料即可。

字符化

使用字符化時,您可以用隨機產生的字符或參考值來取代生產資料。您可以將原始資料存放在單獨的安全位置,並在處理或分析期間使用字符做為替代。字符化有助於維護資料完整性,同時將敏感資訊公開的風險降至最低。

Nulling

Nulling (或空白處理) 是一種資料遮罩解決方案,可用 Null 值或空格取代敏感資料。這可有效地從資料集中刪除資料。當您想保留資料的格式或結構,但必須隱藏具體資訊時,適合使用這種方法。

資料遮罩面臨哪些挑戰?

接下來,我們將討論資料遮罩中的一些常見挑戰。

屬性保存

對於研究和分析而言,資料遮罩保留特定資料類型的原始資料屬性很重要。您想要確保資料遮罩工具保留原始資料類型,或保留任何關聯資料類別的頻率。

例如,如果工具在模糊處理信用卡詳細資訊時,更改客戶資料的人口統計資料或信用卡類別統計資料,這可能會影響分析。在某些資料遮罩程序 (例如隨機化或字符化) 中,屬性保留可能會變得極具挑戰性。

語義完整性

產生的偽造值必須遵守與不同資料類型關聯的商業規則和條件約束。例如,薪資應在特定範圍內,國家識別碼應遵循預定的格式。保持語義完整性極具挑戰性,但可確保被遮罩的資料保持有意義和真實性。

資料不重複性

在原始資料需要不重複性 (例如員工 ID 號碼) 的情況下,資料遮罩技術必須提供不重複的值來取代原始資料。索引鍵欄位中缺少不重複性可能會導致潛在的衝突或不一致。

與現有工作流程整合

將資料遮罩整合至現有工作流程可能極具挑戰性,是在實作的初始階段尤其如此。員工在適應新的程序和技術,可能會遇到不便。為確保順暢整合並將中斷降至最低,您的組織應專注於精心規劃、利益關係人協作,以及解決使用者疑慮。

AWS 如何支援您的資料遮罩需求?

許多 Amazon Web Services (AWS) 產品和服務具有內建的資料遮罩功能。以下是一些範例:

  • Amazon Transcribe 會自動將語音轉換為文字,並可根據要求遮罩敏感資料。
  • Amazon Redshift 使用 SQL 來分析跨資料倉儲、營運資料庫和資料湖的結構化和半結構化資料。它支援以角色為基礎的存取控制、資料列層級安全性、資料欄層級安全性和動態資料遮罩技術。
  • Amazon Simple Notification Service (Amazon SNS) 是一項通知服務。您可以使用該服務來定義可探索、遮罩和保護敏感之傳輸中資料的資料保護政策。

此外,針對複雜資料遮罩需求,我們也提供現有的實作指南。例如,AI-Powered Health Data Masking 指引可協助醫療保健組織識別和遮蓋影像或文字中的健康資料。本指引使用下列服務:

您還可以考慮從 AWS Marketplace 中的若干預製資料遮罩解決方案中選擇一種。 

立即建立帳戶,開始使用 AWS 上的資料遮罩。

AWS 後續步驟

註冊免費帳戶

立即存取 AWS 免費方案。

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入