十を聞いて一を知る

要領の悪い高専生がプログラミングをします。

?日目 卒研10日チャレンジ

はい.ひさしぶり!!!
成人式が楽しすぎて完全にサボってた

今日の

2019/01/17

進捗

  • スライドを作った
    • 空だけど
  • 日本語での学習が進むようになった
  • 予稿を実験結果以外は書いた
  • 畳み込み完全に理解した

明日やること

  • 学習を進める
  • 予稿を詰める
  • 予稿が終わったらそれをもとにしてスライドを作る

KPT

Keep

  • 母艦でcolab開き続けるのいい

Problem

  • kptサボりがち

Try

5日目 卒研10日チャレンジ

作業内容いらない説が出てきた
今日は実家に帰るのでちょっと早めに切り上げる

進捗

  • [x] colabの初期設定をまとめる
    • install libraries !pip install lazy ipython
    • driveのマウント from google.colab import drive drive.mount('/content/drive')
    • speechTのクローン !git clone https://github.com/taira120/speechT.git
    • データセットの移動 ``` !cp /content/drive/My\ Drive/workspace/datasets /content/speechT/data/

      ドライブからだと*.trans.gdocになるため、githubから持ってくる

      !git clone https://github.com/taira120/transcripts.git !mv /content/transcripts/jsut/countersuffix26/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/countersuffix26/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/basic5000/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/basic5000/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/precedent130/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/precedent130/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/onomatopee300/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/onomatopee300/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/repeat500/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/repeat500/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/voiceactress100/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/voiceactress100/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/utparaphrase512/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/utparaphrase512/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/loanword128/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/loanword128/converted_transcript_utf8.trans.txt !mv /content/transcripts/jsut/travel1000/converted_transcript_utf8.trans.txt /content/speechT/data/train/jsut/travel1000/converted_transcript_utf8.trans.txt !mv /content/transcripts/seiyuu/uemura_normal/converted_transcript_utf8.trans.txt /content/speechT/data/train/seiyuu/uemura_normal/converted_transcript_utf8.trans.txt !mv /content/transcripts/seiyuu/fujitou_normal/converted_transcript_utf8.trans.txt /content/speechT/data/train/seiyuu/fujitou_normal/converted_transcript_utf8.trans.txt !mv /content/transcripts/seiyuu/tsuchiya_normal/converted_transcript_utf8.trans.txt /content/speechT/data/train/seiyuu/tsuchiya_normal/converted_transcript_utf8.trans.txt !mv /content/transcripts/niconico/converted_transcript_utf8.trans.txt /content/speechT/data/train/niconico/converted_transcript_utf8.trans.txt ```

    • preprocessデータの移動 !cp -r /content/drive/My\ Drive/workspace/preprocessed-power/ /content/speechT/data
    • 学習済みパラメータの移動 !cp /content/drive/My\ Drive/workspace/speechT-weights.tgz /content/ !mkdir /content/speechT/train !tar -xzf speechT-weights.tgz -C /content/speechT/train
  • [ ] ~転移学習のテスト~
    • 毎日やってんなコレ
    • 日本語データをおとしてきてpreprocessして学習済みのパラメータで学習させる このときembedが効くと思うから頑張る
    • 結論: 転移学習なんてできません!!!!!
  • [x] preprocessしたデータをdriveに移す
    • やるのは1/12の朝10時ぐらいまで
  • 転移学習できないことに気づきました!!!!!!
    • できたとしてもほぼ無意味だね!!!
    • 懸命な読者諸兄はとっくにわかっていてそう
      • ああああああああああああああああああああああああああああああああああああああああああああああああああああああああああ
      • あほしね
      • 過去へのリマインダーがあればいいのに
    • 理由
      • 日本語と英語の文字が対応していないこと
      • 文字とそれに対応する重みがあるわけだが、順番が同じな'あ'と'b'は発音がぜんぜん違う('a'に対応するのは'ぁ')
        • 英語→ドイツ語はだいたい同じ(ウムラウトは増えるが)だからできてたこと
      • 実験だけはいいかも???
  • [x] 日本語のデータでの学習
    • できてる!!!!!やった!!!!
  • [x] データのクレンジング
    • ひらがな意外の文字を除く
    • 読みの間違いはどうしようか
      • 数字関連だけ直した

明日やること

  • trainとtestに分ける
  • 学習させる
  • 構造を変える???

KPT

Keep

Problem

Try