サクラエディタで例えば以下のようにパスの最後のフォルダ名だけ欲しいので「C:\Program Files\」部分だけ削除したいという場合がよくありますが、普通に範囲選択しただけだと以下のように複数行ある場合は上手く一部分だけ範囲選択できません。
こういう場合はShift + F6で矩形選択モードにしてから範囲選択すると以下のように矩形(四角形に選択した範囲)で自由に編集が可能となります。
今回は「C:\Program Files\」部分を削除したいのでDELETEすると以下のようにフォルダ名だけ表示された状態に出来ます。
「エディタ」タグアーカイブ
サクラエディタで重複行を削除する方法
何十万、何百万行ものデータの中から重複行を削除する場合、Excelでは「重複行の削除」機能はありますが大量データの処理には向きません(そもそも何十万件ものデータを処理させようとすると重い><)。何とか手っ取り早く処理出来る方法がないかと調べてたらサクラエディタでたった3コマンド実行するだけで重複行削除が可能ですのでその方法をご紹介します。
重複行を削除する方法
たったこれだけで完了♪便利すぎる。。。
補足
大規模ファイルでの注意点
重複行を削除する手順は非常にシンプルですが、ファイル行数が何十万行、あるいはそれを超えるような巨大なテキストの場合、ソートやマージ処理でメモリを大量に消費する可能性があります。特にPCのリソース(RAM, CPU)が不足していると応答が遅くなったり最悪クラッシュしたりすることもあります。
→ 大容量ファイルでは、事前にバックアップを取っておくことを強く推奨します。
エンコード・改行コードの違い
ファイルが UTF-8、Shift_JIS、EUC-JP など異なる文字コードで保存されていたり、改行コードが CR+LF(Windows)、LF(Unix)など混在していると、見た目は同じ行でも “重複行” として認識されない場合があります。ソート・マージの前に、同一の文字コード・改行形式に統一しておくと安全です。
列ごとの判断での重複削除
単純に “行全体” を対象に重複を判断する方法が記事で紹介されていますが、もし CSV やタブ区切りファイルのように “特定のカラムだけ重複チェックしたい” 場合は、サクラエディタのみではやや扱いにくくなります。その場合は以下のツールや方法を併用するのも有効です:
-
Excel や LibreOffice Calc の重複除去機能
-
AWK や Python、Perl などスクリプト言語で該当カラムをキーに重複行を抽出/削除
-
専用テキスト処理ツール(例えば “TextPipe” や “GrepWin” など)
自動処理(スクリプト化)する方法
もし頻繁に同じ種類のファイルで重複行処理をするなら、次のようなバッチスクリプト/PowerShell スクリプトで自動化するのもおすすめです:
こうしたスクリプトを定期的に実行できるようにしておけば、サクラエディタを手で開かずとも重複除去処理が可能になります。
サクラエディタのインストール手順
サクラエディタのインストール手順をメモしておきます。
サクラエディタのダウンロード
-
下記サイトへアクセスしてV2(Unicode版)の「sakura_install2-2-0-1.exe」をクリックするとインストーラをダウンロード出来ます。
⇒サクラエディタのダウンロードページ
サクラエディタのインストール手順
- ダウンロードした「sakura_install2-2-0-1.exe」をダブルクリックし、セットアップダイアログが表示されたら「はい」ボタンを選択します。
- 「次へ」ボタンを選択します。
- インストール先を選択して「次へ」ボタンを選択します。
- インストールするコンポーネントを選択して「次へ」ボタンを選択します。特にこだわりがなければデフォルトのままで良いです。
- 設定保存方法(ユーザ毎に設定を個別管理するか否か)を指定して「次へ」ボタンを選択します。
- プログラムグループ名を指定して「次へ」ボタンを選択します。
- 追加タスクを選択して「次へ」ボタンを選択します。
- インストール設定に問題なければ「インストール」ボタンを選択します。
- インストールが完了すれば以下の画面が表示されるので「完了」ボタンを選択します。
CSVファイルの項目をダブルクォーテーションで囲む方法
CSVファイルを扱っていると項目値をダブルクォーテーションで囲まれていないケースもあり、これを項目毎にダブルクォーテーションで囲ませたい時があります。こういう場合に手っ取り早くダブルクォーテーションを付与する方法をご紹介します。基本的にはEXCELとサクラエディタなどのエディタを併用する事で実現出来ます。
使用するソフト
- Microsoft Excel ※特にバージョンは問いません
- サクラエディタ ※秀丸など他のエディタでも可
CSVファイルへのダブルクォーテーションの付与手順
- Excelで対象のCSVファイルを開きます。ここでは「sample.csv」を開いています。
「sample.csv」の内容は以下の通りです。
123a,b,cd,e,fg,h,i - Excelでcsvファイルを開いたらデータの最終行の次行へ以下の数式を入力します。今回は1行空けて見やすくA5セルへ入力しています。
⇒「=””””&A1&””””」
- A5セルへダブルクォーテーション付で値が表示されましたので次にA5セルの式をA5:C7セルまでコピペします。
※項目数、行数によってペーストする範囲は変更して下さい。
- ここまで項目単位にはダブルクォーテーションが付与された状態になったのでこの内容をサクラエディタへ貼り付けます。
ただこのままではカンマ区切りではなくタブ区切りの状態なので今度はこれをカンマ区切りへ変更します。
- 「Ctrl + R」で置換ダイアログを表示し、「置換前」の文字へ「\t」、「置換後」の文字へ「,」(カンマ)を入力し、正規表現へチェック後に「全て置換」を選択します。
- これでダブルクォーテーション付与のカンマ区切りのCSV形式の内容になったのでこの内容を元のファイルと差し替えれば完了です。
補足:CSV のダブルクォーテーション処理で注意すべき点
1. 既にダブルクォーテーションが含まれている値への対応
-
データの中にすでに
"(ダブルクォーテーション)が含まれている場合、それをどう扱うかを考えておく必要があります。
例えば、値がHe said "Hello"のようになっていたとすると、ただ前後に"を付けるだけでは"He said "Hello""のように不正な CSV になります。 -
通常は、内部に含まれる
"を""のように二重化してエスケープする手法を使います(CSV 規格の慣例)。
例:He said "Hello"→"He said ""Hello"""
2. 区切り文字や改行、カンマを含む値
-
値にカンマ
,や改行\nが含まれる可能性がある場合は、必ずそのフィールドをダブルクォーテーションで囲む必要があります。
そうしないと、カンマが「別フィールドの区切り」と誤認されてしまいます。 -
したがって、値を囲む処理を行う際には すべてのフィールド に対して囲むようにしておいたほうが安全です。
3. 文字コード・改行コードの扱い
-
CSV ファイルを扱う際には、文字コード(UTF-8, Shift_JIS, etc.)や改行コード(CRLF, LF, CR)が混在していることがあります。
作業前に統一しておいた方がトラブルが起きにくくなります。 -
特に Excel で読み書きする際には、Excel の仕様(Windows 版 Excel は CRLF を期待するなど)を意識しておきましょう。
4. 自動化スクリプトでの生成・変換を検討
-
Excel+エディタによる手作業の方法は簡便ですが、データ件数が多かったり繰り返し処理が必要だったりする場合は、スクリプトで一括処理できる方法を使ったほうが効率的・安全です。
例:-
Python(pandas や csv モジュール)
-
PowerShell / Bash スクリプト
-
あるいは Excel VBA マクロ など
これらを使えば、囲み処理、内部の
"のエスケープ、文字コード変換などもあわせて一括で処理できます。 -
5. 検証・動作確認を忘れずに
-
実際に処理後の CSV を別のプログラム(Excel やデータベースのインポート機能等)で読み込んで、意図した通りにフィールドが分割されているかを確認しておきましょう。
-
特に本番データで使う前には、サンプルデータでテストを繰り返すと安心です。
サクラエディタでタブ表示する方法
HeTeMuLu Creatorで文字コードを設定する方法
HeTeMuLu Creator:終了するとRuntime error 216が発生する
サクラエディタで文字コードを設定する方法
HeTeMuLu Creator:「ブラウザでプレビュー」が選択出来ない原因
HeTeMuLu Creator:インストール手順
HTMLエディタ「HeTeMuLu Creator(へてむるクリエイタ~)」のインストール手順をご紹介しておきます。
基本的にインストーラをダウンロードして手順通り勧めれば簡単にインストール出来ます。
HeTeMuLu Creatorの特徴
- 無料で高機能なHTMLエディタを利用出来ます。
- タブで複数のファイルを編集できます。
- キーマクロも利用可能です。
- スタイル シートに対応しています。
- レジストリを汚さない。
- 画像のイメージビューアも搭載。
- 強力なタグ入力補完機能を搭載。
- リンクや画像の相対パスを取得できます。
ダウンロード先
-
下記サイトへアクセスし、インストーラ版をクリックしてダウンロードします。
HeTeMuLu Creator公式サイト
HeTeMuLu Creatorのインストール手順
- ダウンロードした「hcre110a.exe」をダブルクリックしてインストーラを起動します。
- セットアップウィザードが起動したら「次へ」ボタンを選択します。
- 重要な情報画面が表示されるので「次へ」ボタンを選択します。
- インストール先の指定画面が表示されるのでインストール先を指定して「次へ」ボタンを選択します。
- プログラムグループを指定して「次へ」ボタンを選択します。基本的にデフォルト値のままでOKです。
- 「デスクトップ用のショットカット用アイコン」と「クイック起動用のショットカット用アイコン」の作成有無を選択して「次へ」ボタンを選択します。
- インストールが完了すると重要な情報画面が表示されるので読んだら「次へ」ボタンを選択します。
- セットアップが完了したら「完了」ボタンを選択してインストール完了となります。
