02の01
Excelで重複したデータレコードを削除する
Excelなどのスプレッドシートプログラムは、在庫の在庫、販売記録、メーリングリストなどのデータベースとしてよく使用されます。
Excelのデータベースは、通常、レコードと呼ばれるデータの行に編成されるデータのテーブルで構成されています 。
レコードでは、行の各セルまたはフィールドのデータ(会社の名前、住所、電話番号など)が関連しています。
データベースのサイズが大きくなるにつれて発生する一般的な問題は、重複したレコードまたはデータの行の問題です。
この重複は、次の場合に発生します。
- 全体のレコードはデータベースに2回以上入力され、2つ以上の同一のレコード
- 複数のレコードには、同じデータを含む1つ以上のフィールド(名前やアドレスなど)があります。
どちらの方法でも、レコードが重複すると、データベースの情報が差し込み印刷で使用されたときに複数の文書を同じ人に郵送するなど、問題が発生する可能性があります。したがって、定期的に重複するレコードをスキャンして削除することをお勧めします基礎。
上記のイメージのような小さなサンプルで重複したレコードを選ぶのは簡単ですが、データテーブルには何千ものレコードが含まれていますが、重複するレコード、特に部分的に一致するレコードを選ぶのは非常に困難です。
このタスクを簡単に実行できるように、Excelには、驚くことではないが重複の削除という名前のビルトインデータツールがあります。これは、一致するレコードと部分的に一致するレコードを検索して削除するために使用できます。
ただし、[ 重複を削除]ツールが設計され、同一で部分的に一致するレコードは別々に処理する必要があります。
これは、 [ 重複を削除 ]ダイアログボックスに選択したデータテーブルのフィールド名が表示され、一致するレコードの検索に含めるフィールドを選択するためです。
- 同一レコードの場合は、すべてのフィールドを検索します。すべてのカラム名またはフィールド名の隣にチェックマークを付けます。
- 部分的に一致するレコードの場合は、一致させるフィールドの横にチェックマークを残します。
フィールド名と列文字
前述のとおり、[重複を削除]ツールはダイアログボックスで構成され、目的のフィールドまたは列名をチェックすることで、検索する一致するフィールドを選択します。
ダイアログボックスに表示される情報(フィールド名または列文字)は、上の図に示すように、データテーブルの一番上にヘッダーまたはヘッダーの行が含まれているかどうかによって異なります。
表示されている場合は、ダイアログボックスの右側にある[ データにヘッダーがあります]のチェックボックスがオフになっていることを確認し、この行の名前をダイアログボックスのフィールド名として表示します。
データにヘッダー行がない場合、ダイアログボックスには、選択したデータ範囲のダイアログボックスに適切な列文字が表示されます。
データの連続範囲
重複削除ツールが正しく動作するためには、データテーブルは連続したデータ範囲である必要があります。つまり、空の行、列、および可能な場合はテーブル内に空のセルがあってはなりません。
データテーブル内に空白を持たないことは、重複データを検索するときだけでなく、一般的なデータ管理に関しては良い習慣です。 Excelの他のデータツール(ソートやフィルタリングなど)は、データテーブルが連続したデータ範囲の場合に最適です。
重複したデータレコードの削除の例
上の画像では、データテーブルにはA. ThompsonとR. Holtの2つの部分一致するレコードの2つの同一レコードが含まれています。学生番号以外のすべてのフィールドが一致します。
以下の手順では、 重複データ削除ツールを使用して以下を行う方法を詳しく説明します。
- A. Thompsonの2つの同一レコードのうち2番目のレコードを削除します。
- R. Holtの部分的に一致する2番目のレコードを削除します。
重複の削除ダイアログボックスを開く
- サンプルデータベースのデータを含むセルをクリックします。
- リボンの[ データ ]タブをクリックします。
- [ 重複を削除 ]アイコンをクリックして、データテーブル内のすべてのデータを強調表示し、[ 重複を削除 ]ダイアログボックスを開きます。
- Remove Duplicates ダイアログボックスに 、データサンプルのすべての列見出しまたはフィールド名が表示されます
- フィールド名の横にあるチェックマークは、Excelが重複するレコードを検索する際に一致させる列を示します
- デフォルトでは、ダイアログボックスが開くと、すべてのフィールド名がオフになります
同一レコードの検索
- この例では完全に同一のレコードを検索しているので、すべての列ヘッダーをチェックしたままにします
- OKをクリックします。
この時点で、次の結果が表示されます。
- ダイアログボックスが閉じ、次のメッセージが表示されます。1重複した値が見つかりました。 7つの一意の値が残ります。
- 複製されたA. Thompsonレコードを含む行は、データベースから削除されます。
- R. Holtには部分的に一致する2つのレコードがありますが、2つのレコードの生徒番号が一致するフィールドがすべて一致するわけではないため、Excelはそれをユニークなデータレコードと見なします
02の02
重複を削除して部分的に一致するレコードを検索して削除する
一度に1つのフィールドを確認する
Excelでは、選択したデータフィールドに完全に一致するデータレコードのみが削除されるため、部分的に一致するすべてのデータレコードを見つける最良の方法は、以下の手順で行うように、一度に1フィールドのみのチェックマークを削除することです。
名前、年齢、またはプログラム以外のすべてのフィールドに一致するレコードを引き続き検索すると、部分的に一致するレコードのすべての可能な組み合わせが削除されます。
部分一致レコードの検索
- 必要に応じて、データテーブル内のデータを含むセルをクリックします。
- リボンの [ データ ]タブをクリックします。
- [ 重複を削除 ]アイコンをクリックして、データテーブル内のすべてのデータを強調表示し、[ 重複を削除 ]ダイアログボックスを開きます。
- データテーブルのすべてのフィールド名または列見出しが選択されます。
- すべてのフィールドで一致しないレコードを検索して削除するには、Excelが無視するフィールド名のほかにチェックマークを外します。
- この例では、 Student ID列の見出しの横にあるチェックボックスをクリックして、チェックマークを削除します。
- Excelは、 姓 、 頭文字 、およびプログラムの各フィールドに一致するデータのみを検索および削除するようになりました 。
- OKをクリックします。
- ダイアログボックスが閉じ、次のメッセージが表示されます。1重複した値が見つかりました。 6つの一意の値が残ります。
- 学生IDがST348-252の R. Holtの2番目のレコードを含む行は、データベースから削除されています。
- [OK]をクリックしてメッセージボックスを閉じます。
この時点で、サンプルデータテーブルにはすべての重複データが含まれていないはずです。