npl - 流行の科学技術を勝手に追いかけるブログ人工知能仮想現実ブロックチェーン

正規表現で任意の文字列を削除する

チャットボット用の訓練データをクリーニングするために、正規表現を使ってルビを削除する方法をメモしておきます。

import re

s = 'ペガサス【ぺがさす】に乗って、空【そら】を飛翔【ひしょう】する英雄【えいゆう】ペルセウス'
print(s)

s = re.sub('【[^】]+】', '', s)
print(s)

import re

s = 'ペガサス【ぺがさす】に乗って、空【そら】を飛翔【ひしょう】する英雄【えいゆう】ペルセウス'

print(s)

s = re.sub('【[^】]+】', '', s)

print(s)

詳しくは↓↓↓

自然言語処理を少しかじっていこうと思います。

anaconda navigator で仮想Environmentsをcreateしてnpl_bot仮想環境を新規作成します。

installedをnot installedにして

モジュール群numpy , matplotlib, tensorflow, keras, gensim

をインストールします。

nlp_bot右にある三角をおして Open terminalして

pip install janome　します。

(ganomeだと勘違いしていてしばらく悩みました。）

environmentasからhomeへ移動してJupyter Notebookをinstallします。

これで環境構築はOKです。

次からはJupyter Notebookを起動してスクリプトを書いて行きます。