翻訳バリデーターを作り始めた

翻訳バリデーター、すなわち、翻訳の質の良し悪しを判断するソフトウェアの開発を始めた。ソースコードは 翻訳バリデーターのGitHubレポジトリ にある。ウェブ検索で注目されにくいよう、一般名詞をソフトウェアの名称に用いている。

このソフトウェア開発の目的は、できるだけ手間をかけずに、機械学習のように見えることをすることである。真面目な言い方をすれば、機械学習のミニマルな実践である。できるだけ手間をかけないとは、具体的には以下のことを意味する。

  • データセットの質を高めるための努力を手動で行わない。ほとんどの機械学習タスクでは、データセットに質の悪いデータが含まれていると性能が下がり、それを手動で修正すれば性能が向上する。今回のプロジェクトでは、性能の向上につながる見込みがあっても、データセットの改良を手動では行わない。
  • 既存の機械学習用ライブラリーを使用しない。なぜなら、使い方を覚えるのと、環境構築が面倒だからである。かわりに、不真面目に考えたアルゴリズムを自己流で実装して使う。

翻訳の質の良し悪しを判断するソフトウェアというアイディア自体、ツイッターで別の誰かが言っていたことの借用である。このプロジェクトをあまり真面目に受け取られると困惑する。

広告

投稿者: Hakaba Hitoyo

墓場一夜