生成AIによる同時翻訳が「予測」の領域に突入 日本産・世界最速レベルのサービス、遅延が“マイナス0.5秒”まで可能に 開発者「人間が何を話すかを予測する」

AIをイメージした写真

世界各国では激しいAI開発競争が進んでいる。

アメリカ、中国が2強状態で、民間投資額や論文数で業界をリードしており、日本はむしろ後進国。

AIの開発力などを評価するランキングでは11位と出遅れている。

国内企業でもオリジナルの生成AIが開発される中、世界最速レベルの同時通訳システムが日本で誕生した。

「ABEMA Prime」に出演したKotoba Technologies CEO・小島熙之氏が手掛けた、リアルタイム翻訳サービス「同時通訳」は、従来の翻訳アプリが人間が話し終えてから訳すのに対して、独自の生成AIモデルを開発したことで、話したそばから翻訳していく。

そのスピードは世界最速レベルで、人間が話したところから計算した遅延は平均で1秒以内。

さらに小島氏は「マイナス0.5秒まで達成している」という。

“遅延がマイナス”となれば、人が話す前に翻訳が始まることになる。

小島氏は番組で、この仕組みや今後の展望について語った。

小島氏のKotoba Technologiesは、創業から2年弱。

国内外を問わず翻訳サービスは多数あり、その精度や速度は生成AIの活用などによりさらに高まっている。

海外のビッグテックは生成AIの開発に莫大なリソースを投じるが、その分テキストや画像など様々な分野があり、音声分野に割けるのは一部のリソースだ。

一方でKotoba Technologiesは、音声・同時通訳に特化したAIが強み。

小島氏も「基本的にAIの研究開発は、汎用的にいろいろなタスクで使えるものを作ろうというコンセプト。我々はスピード、同時通訳に全振りした」と語る。

同社のサービス「同時通訳」では、独自の生成AIモデルを開発し、リアルタイム性と精度の2つで、世界最速レベルを達成した。

現在は日本語・英語・中国語・韓国語に対応している。

その速度は、人間が話したものが翻訳されて文字になるまで平均1秒以内。

さらには相手が次に話す内容を“予知”することで、話す前に文字が表示される“マイナス0.5秒”にまで達した。

「マイナスということは、人が何を話すかを事前に予測してしまうということ。(予測したものが)テキストで出た後、間違っていて取り下げることもある」と笑う。

生成AIが「この人は次にこう話すだろう」と予測したものと実際の発言が異なるケースもあるが、それも“先読み”までできるレベルにまで高まった証しだ。

もはや“同時”すら超え始めた生成AIによる同時翻訳。小島氏はどんな未来を見ているか。

現在「同時翻訳」は無料で提供しているが「音声から音声のものであったり、業界特化であったり、セキュリティ性を担保したものにして機能に応じて課金できるようにしたい。AIのモデル開発で先行していることは時差でしかない。その時差があるうちに、いかにアプリケーション、サービスプラットフォームに食い込んで市場を確保できるか。そこが真の勝負」と、早期の事業化を目指す。

ここまでの速度で翻訳できれば、人間が語学を学習する必要性すら問われてくる。

「ビジネスのコンテキストなどにおいては、もう言語を使う必要、言語を学ぶ必要はなくなると思う。ただし友だちや恋人を作りたい人が、アプリを通じてコミュニケーションを取ることはしないのでは。やはり言語を学ぶというモチベーションは残ると思う」。

現在はスマホでテキストを表示する段階だが、メガネ型の端末などもリリースされており、いずれは翻訳された内容がスマホを覗く必要もなく、視界に入れることすらできるようになる。

もともとは生成AIの研究者だった小島氏は「AIが使えるかどうかわからないものだったところから、本当に使えるものになったのは感慨深い。AIは怖いかもしれないが、絶対に人間社会にとって役に立つもの」と語る。

その上で「今後もAIではなく人間で特殊技能を持っている方に、間違いなくリスペクトを払わなくてはいけない。AIが全部の人間をリプレイスするものではない」とも述べていた。

参照元:Yahoo!ニュース