用語解説辞典

用語解説辞典 知りたい用語はここで検索

用語解説辞典トップに戻る

【データクレンジング】

 データベース等に保存されているデータの質を高めること。クレンジング(cleansing)は、「洗浄する」といった意味。

 IT製品やサービスの高度化と複雑化に伴って、日々発生するデータの量がどんどん増えている。こうしたデータは、大きく 2種類に分けることができる。

 ひとつは、人間が手作業で入力したもの。たとえば企業で、担当者やオペレーターが製品情報、顧客情報、売上情報などを入力する。その結果として蓄積されたデータがある。あるいは、インターネットを利用したサービスで、ユーザー自身が入力したデータもある。

 もうひとつは、自動的に蓄積されていくデータ。いわゆるログやビッグデータと呼ばれるものは、こっちになる。

 そして、どちらもデータの精度という意味では問題を抱えていることが多い。特に、データ量が増えてきた場合、別のデータと統合する場合、あるいは設計時に想定していなかった使い方をするような場合に問題が顕著になる。

 たとえば、人間が入力したデータには誤字などの記入ミス、表記の揺れといった問題がある。

 分かりやすい例だと、「斉藤」と「斎藤」、「株式会社□□」と「(株)□□」、「NTTPC」と「エヌ・ティー・ティー ピー・シー」、「03-9999-0000」と「03(9999)0000」の違いといったことがある。こうした表記の揺れによって、同じ人や同じ会社が重複して登録されていたりする。

 さらに、苗字と名前の間に半角スペースや全角スペースがあるかないか、番地や電話番号の表記が全角文字か半角文字かといったことが問題になるケースもある。

 一方、自動的に蓄積されていくデータには、あまり意味のないデータが大量に含まれていることが多い。しかし、そのままでは何が無意味なのか分からないし、そうしたデータがムダに記憶装置の容量を使ったり、そうしたデータがあることで処理に時間がかかったりする。

 いずれにしても蓄積されたデータを効率的に活用するには、データの誤りを修正し、重複やムダを整理して、表記の揺れを統一していく必要がある。このような作業や操作、処理をデータクレンジングという。

ての一覧に戻る

用語解説:下島 朗(株式会社エントラータ)監修

page top