テキスト処理ツール


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

サイト移転しました。

http://jhlee.sakura.ne.jp/ から御覧ください。




はじめに

  • テキストデータを処理するためのフリーソフトウェアを紹介します。

テキスト検索系ツール

秀丸エディタ

  • 機能:大規模ファイルの編集にも適する高機能テキストエディタでコーパスデータの処理のためにも役立つツールと言えます。様々なフリーのマクロが利用できるのも嬉しいですね。
  • 利用条件:シェアウェア(4,305円)
  • 動作環境:WindowsVista/XP/Me/2000/98/95/NT
  • ダウンロード:こちらのサイトから

andGrep - 絞り込み/否定検索機能付きGREPマクロ

  • 機能:秀丸用のマクロ。複数の文字列を含む行の抽出(絞り込み検索)や、指定文字列を含まない行の抽出(否定検索)を任意の数の文字列、任意の順序で指定して実行することができます。このマクロで秀丸にKWIC検索機能を実装できます。非常に便利です。
  • 利用事例: 毎日新聞コーパスから本文のみをテキストデータとして抽出する。
  • 動作環境:WindowsVista/XP/Me/2000/98/95/NT
  • ダウンロード:こちらのサイトから


テキスト変換系ツール

xdoc2txt

  • 機能: Office文書やPDF/HTMLファイルのテキスト部分を抽出したファイルを作成できるフリーソフト.
  • 利用条件:フリーウェア
  • 動作環境:Windows 95/98/Me/NT 4.0/2000/XP
  • ダウンロード:こちらのサイトから

複数テキスト結合

  • 機能: 特定のフォルダにある複数のテキストファイルを、ひとつにまとめてくれる
  • 動作環境:WindowsVista/XP/Me/2000/98/95/NT
  • 利用事例:新潮文庫100冊などの部分テキストを一つのテキストファイルとして結合し、コーパスとして一括格納する
  • 利用条件: フリー
  • ダウンロード:こちらのサイトから

文字コード変換ツール for .NET2.0

  • 機能:テキストファイルの文字コード(Shift-JIS, UTF-8, UTF-7, Unicode, EUC)を相互変換します。テキストファイルの文字コードを変換するには、秀丸などの高機能エディタ等でも可能ですが、このツールを使うと複数のファイルをまとめて変換できるようになります。
  • 利用条件: フリー
  • ダウンロード:こちらのサイトから

テキスト加工系(置換など)ツール

こりゃ便利! Rext

  • 機能:HTMLファイル、テキストファイル、プログラムのソースコードなどで、複数のファイルをまとめて置換します。残念ながら正規表現には対応していません。
  • 利用条件: フリー
  • ダウンロード:こちらのサイトから

Devas

  • 機能: 複数ファイルからテキストを検索、一括置換してくれます。正規表現が使える上に、秀丸などに比べ、非常に高速です。
  • 利用条件: フリー
  • ダウンロード:こちらのサイトから

EXCEL検索置換

  • 機能:エクセル内のデータを一括検索し、置換します。目的さえ合えば、非常に便利なツールです。
  • 利用条件:シェアウェアです(1,500円)。
  • ダウンロード:こちらのサイトから