CSV / Excel ファイルから数値以外のゴミデータ(文字)を削除するツールです。
「数値であるべきところに混じった文字」「日付フォーマットがズレている」「許可リストに無い値」などのゴミデータ(不正データ)を検出し、選択削除ができます。
ファイルはブラウザ内で処理され、サーバーには一切送信されません。
1ファイルを読み込み
2検査範囲を指定
3正規データのルールを定義
正規データに該当するルールをすべて選んでください。複数選んだ場合、いずれかを満たせば「正規」と判定します(OR条件)。どれにも該当しない値は「ゴミ」として検出されます。
4検出結果
クリーンアップ操作
正規データを残したまま、検出されたゴミセル/行を編集できます。プレビュー後に「ダウンロード」で書き出します。
「ゴミ文字だけ削除」は、有効なルール(数値・日付・正規表現・許可リスト)に従って、セル内から正規部分のみを取り出します。
例: 1,234円 → 1,234 / ¥3,500(税込) → 3,500 / 正規表現は最初のマッチ部分/許可リストはセル内に含まれる値。
抽出できなかったセル(複数候補・該当なし等)は変更されません。
エクスポート
このツールでできること
- ゴミデータ検出: 数値・整数・日付・正規表現・許可リスト・文字長などの「正規データのルール」を組み合わせて、当てはまらないセルを抽出します。
- 範囲指定: シート全体/特定の列/A1形式(例:
B2:D500)で検査範囲を限定できます。 - 統計情報: 検査対象セル数・正規データ数・ゴミ数・割合・列別の不正率・値の出現サンプルを表示します。
- クリーンアップ: ゴミセルだけを空欄化/指定値で置換/ゴミを含む行を一括削除。正規データはそのまま残せます。
- エクスポート: クリーンアップ後の表を CSV / Excel(.xlsx) でダウンロード。
主な使用例
- 会員名簿: 郵便番号列に
^\d{3}-\d{4}$を当てて、ハイフン抜け・全角混じり・空欄を検出。 - 売上明細: 金額列を「整数・最小0以上」で検査して、空文字・
不明・全角数字を抽出。 - アンケート集計: 性別列を許可リスト「男,女,その他」で検査して、表記ゆれを発見。
- ログ整形: 日付列を「日付」ルールで検査して、フォーマット崩れの行を削除。
Excelで手動でゴミデータを検証するには
本ツールと同等の検査を、Excel の関数や機能だけで行う方法をパターン別にまとめました。少量データなら Excel 単体でも処理可能です。一括判定したい場合や正規表現が必要な場合は本ツールが便利です。
1. 数値以外のセルを見つける
- 関数で判定: 隣の列に
=ISNUMBER(A2)。FALSEが出たセルが「数値ではない」セル。空欄もFALSEになるので注意。 - 個数を一気に確認:
=COUNT(A:A)で A 列の数値セル数、=COUNTA(A:A)で空欄以外の総数。差分がゴミの数。 - 視覚化: 列を選択して「ホーム → 条件付き書式 → 新しいルール → 数式を使用 →
=AND(A1<>"", NOT(ISNUMBER(A1)))」を赤塗りに設定。 - 入力時に弾く: 「データ → データの入力規則 → 整数(または小数)」で許可範囲を指定。既存セルが違反していないかは「無効データのマーク」で確認可能。
2. 日付として正しいか検証する
- 関数で判定:
=ISERROR(DATEVALUE(A2))がTRUEなら日付として解釈不可。2025/02/30のような実在しない日もTRUEになります。 - シリアル値で確認: 数値ではなく文字列として入っているとセルが左寄せになります。
=ISNUMBER(A2)がFALSEなら文字列扱いの日付。 - 条件付き書式:
=ISERROR(DATEVALUE(A1))を赤塗りルールに。
3. 許可リスト(表記ゆれ)チェック
- 別シート Z 列に許可値(例:
男/女/その他)を縦に並べる。 - 判定式:
=COUNTIF(Sheet2!$Z$1:$Z$3, A2)=0がTRUEなら許可リスト外。 - 条件付き書式の数式に同じ式を入れて、リスト外を強調表示できます。
- 入力規則で「リスト → 元の値」に許可リストを指定すれば、入力段階で表記ゆれを防げます。
4. 文字長の範囲チェック
=LEN(A2)で文字数を取得。郵便番号なら 8 文字(例:150-0001)など、想定値と比較。- 条件付き書式:
=OR(LEN(A1)<7, LEN(A1)>8)で範囲外を強調。
5. 正規表現での検査(Microsoft 365 / Excel 2024 以降)
- 新関数
=REGEXTEST(A2, "^\d{3}-\d{4}$")で郵便番号形式チェック。FALSEがゴミ。 - 抽出は
=REGEXEXTRACT(A2, "\d+")。本ツールの「セル内のゴミ文字だけ削除」と同等の操作が可能です。 - 旧バージョンの場合は VBA +
VBScript.RegExpオブジェクトを書く必要があり、関数だけでは厳密な正規表現マッチは困難です。
6. セルの中から数値だけを取り出す(クリーンアップ)
- Microsoft 365 なら、
=VALUE(TEXTJOIN("",TRUE, IFERROR(MID(A2, SEQUENCE(LEN(A2)), 1)*1, "")))
で「1234円」→1234のように数字だけを抽出可能。 - 「データ → 区切り位置」を使えば、
金額: 1234→ 「金額:」と「1234」に分割。 - 「ホーム → 検索と置換 → ワイルドカード」で
*円→ 空に置換するなど、文字列パターンで一括除去できます。
7. 空欄・重複の確認
- 空欄数:
=COUNTBLANK(A:A) - 重複: 「データ → 重複の削除」で削除、確認だけなら「条件付き書式 → セルの強調表示ルール → 重複する値」で色付け。
これらの手法は強力ですが、複数列・複数ルールを OR 結合で一括検査したり、セル内のゴミ文字だけを抽出して残すような操作は本ツールの方が高速・確実です。Excel での前処理 → 本ツールで仕上げ、という併用もおすすめです。
プライバシーについて
読み込んだファイルはブラウザ内(あなたのPC上)でのみ処理されます。サーバーへの送信は一切行いません。閉じれば消えます。
対応形式・制限
- 対応拡張子:
.csv.tsv.xlsx.xls.ods - テーブル描画は最大 1,000 行まで(残りは内部に保持されエクスポート時に含まれます)
- ファイルサイズの目安: 30MB 程度まで(ブラウザの空きメモリに依存)