今日は久々に大量のデータをシステムにインポートするお仕事をしていました。
大量のデータを扱う仕事、昔っから超苦手です。
何がつらいって、全データを確認することができないんですよね。
1000くらいなら全数目視で確認できたりするんですけど、1万とかになってくるともう不可能。
1000であっても、作業しているうちに目も神経も大きなダメージを受けてしまいます。
今回は、大量のデータをインポートする際の恐怖を言語化してみたいと思います。
ズレてないか?
行や列のズレです。
例えば住所録をインポートして、名前欄に電話番号が表示されたりするのは列のズレが原因です。
エクセルのちょっとした作業ミスが、全データ間違って入力されるという大事故につながってしまいます。
文字化けしててないか?
文字コードとかを誤ると、データが謎の文字列になってしまいます。
これもダメージでかいですね。
全データ入っているか?
入力するデータの範囲を間違うと起こります。
「あれ?なんか後半の3000個データが入ってないんだけど?」
的な事態を引き起こします。
恐怖を言語化するうちに、ちょっと対策が思いついてきました。
こちらもシェアします。
- 最初は数レコードをインポートしてテストする
- インポートするデータの最初、最後、真ん中をチェックする
- 入力するデータの全パターンをサンプリングで見る
1 の数レコードでのテストは、列のズレ防止ですね。
ここで合っていたら、理論的には1万レコードでも10万レコードでもずれないです。
2 は、全データ入っているかのチェックですね。これもどれだけ大量のデータであっても同じ数のチェックで理論的には大丈夫です。
3 は、レコードデータのパターンを全部見ておく方法です。データのパターンが違ってデータがちゃんと入らないケースがあるのですが、その防止です。
しばらく大量のデータを扱う仕事が続きそうなので、上記対策でやっていこうと思います。