GLOSSARY

Whisper（音声認識AI）とは？文字起こしツールの精度や課題、使い方や価格をわかりやすく解説

2024.01.31

Tweet

INDEX

whisper

AIを活用したサービスはこれまでに数多く誕生しており、WhisperもそんなAIを活用したサービスの1つです。

Whisperとは、高い精度で文字起こしができる音声認識AIのことであり、さまざまな分野で活用できます。

今回は、Whisperについてや文字起こしツールの精度、課題や使い方、価格をわかりやすく解説します。

Whisper(音声認識AI)とは？

whisper

Whisper(音声認識AI)とは、OpenAIが開発した音声認識モデルのことです。

2022年9月にリリースされてから世界中で使用されており、主に音声データを元にテキスト変換することができます。

最大の特徴は、インターネット上から68万時間分の音声データを与えて学習させているので、高い精度で文字起こしが可能です。

文字起こしできる音声は、通常の声質や発音、会話から歌まで幅広く対応しています。

2023年3月には、オープンソースのAPIが公開されているので、誰でも簡単にサイトやアプリへの組み込みが可能です。

音声認識モデルとは？

音声認識モデルとは、AIが人間の会話や歌などの音声を認識してデータとして処理する技術のことです。

人間の言葉をデータ化し文字として変換することで、音声認識機能を搭載したサービスを数多く提供することができます。

実際に、Amazonの「Alexa」やGoogleの「Googleの音声検索」などの音声アシスタントは、音声認識モデルを活用して開発されました。

そのため、音声認識モデルは、現代の日常生活には欠かせない存在の1つです。

WhisperAPIとは？

whisper

WhisperAPIは、OpenAIが2023年3月にオープンソースで公開したWwhisperのAPIのことです。

WhisperAPIがオープンソースで公開されることで、企業や個人が開発したソフトウェアやシステムに簡単に機能を搭載することができます。

また、WhisperAPIには主に「音声の文字起こし」「音声の文字起こしと翻訳処理」の2つの機能が搭載されています。

OpenAIについて

whisper

OpenAIとは、2015年に設立されたAIの研究・開発を行う非営利団体のことです。

設立は、起業家兼投資家であるサム・アルトマンとテスラとSpaceXやTwitterの代表であるイーロン・マスクによって、アメリカ合衆国サンフランシスコ州で設立されました。

これまでに「ChatGPT」などの世界的に有名なAIサービスを多くリリースしており、「Whisper」もその1つです。

現在では、イーロン・マスクは辞任していますが、GPTシリーズ「GPT-３」の開発や汎用人工知能(AGI)の普及・発展を目的とした研究・開発は活発に行われています。

Whisper(音声認識AI)の使い方

whisper

Whisperを使うためには、主に以下3つの手順が必要になります。

環境設定をする
音声データを準備する
文字起こしをする

ここでは、以上3つの手順をそれぞれ解説します。

環境設定をする

環境設定は、主に以下の手順で行います。

「GoogleColaboratory」にアクセスして「ノートブックの新規作成」を選択する
編集画面から「編集」を選択して、メニュー欄から「ノートブックの設定」を選択する
「ハードウェアアクセラレータ」を「T4GPU」に設定して「保存」をクリックする
設定が完了したらコード入力欄に「!pipinstallgit+https://github.com/openai/whisper.git」と入力する
実行して問題がなければ環境設定が完了

音声データを準備する

環境設定が完了したら、Whisperに文字起こししてもらうための音声データを準備します。

音声データは、「mp3」「mp4」「mpeg」「mpga」「m4a」「wav」「webm」などのファイル形式に対応しています。

そのため、使用したい音声データを以上のようなファイル形式で保存しておきましょう。

ただ、音声データを保存する際は、著作権問題などには十分に注意しておきましょう。

文字起こしをする

最後に、準備した音声データを再生して実際にWhisperに文字起こしをさせます。

文字起こしの方法は、GoogleColaboratory画面左側のファイルのアイコンを選択し、表示された一覧から「content」を選択します。

そして音声ファイルをcontentにドラッグして、アップロードできたら「+コード」を選択します。

アップロードが完了したら「実行」をクリックすれば、文字起こしが行えます。

Whisper(音声認識AI)の仕組み

whisper

Whisperの仕組みは、Transformerというニューラルネットワークの1種を用いて自然言語処理を行っています。

Transformerは、計算処理を並列化できるので、計算効率を大幅に向上させることができ、短い期間で高度な自然言語処理を実現させることが可能です。

また、Whisperには以下5つの音声認識モデルが用意されており、パラメータが大きくなるにつれて音声認識精度は向上します。

tiny：39M
base：74M
small：244M
medium：769M
large：1550M

Whisper(音声認識AI)の価格

whisper

Whisperの価格は1分ごとに0.006ドルと格安で提供されています。

日本円に換算すると、1分ごとに約1円で1時間利用した場合約50〜60円です。

また、WhisperはAPIを利用することで有料になりますが、無料で使いたい場合は「GoogleColaboratory」もしくは「GitHub」のオープンソースで利用しましょう。

Whisper(音声認識AI)のメリット

whisper

Whisperは、高度な音声認識ができさまざまなサービスに活用することができます。

そんなWhisperには、具体的にどのようなメリットがあるのか気になる方も多いです。

ここでは、Whisperのメリットについて解説します。

音声認識精度が高い

Whisperは、インターネット上から68万時間分の音声データを与えて学習させているので、音声認識精度が高いというメリットがあります。

さまざまな声質や発音などの特徴がある音声であっても正確に文字起こしが行えるので、多言語や訛りにも柔軟に対応することが可能です。

そのため、会話やデータ管理の効率化にも期待できます。

お得な価格で利用できる

Whisperは、日本円で1時間あたり約50〜60円で利用することが可能です。

さらに、「GoogleColaboratory」もしくは「GitHub」のオープンソースで利用すれば、無料で使用できます。

そのため、誰でも気軽に利用できるというメリットもあります。

APIを通じて利用できる

OpenAIがオープンソースでWhisperのAPIを公開しているので、誰でも簡単にプログラムを組むことで効率的に文字起こしが可能です。

そのため、企業や個人で開発したさまざまなソフトウェアやサービスにWhisperの機能を搭載して活用することもできます。

実際に、Whisperを活用したサービスなどは多く提供されています。

Whisper(音声認識AI)のデメリット

whisper

Whisperには、メリットだけでなくデメリットもあります。

これからWhisperを活用しようと考えている方は、しっかりとデメリットも理解しておくことが大切です。

ここでは、Whisperのデメリットについて解説します。

環境設定が必要

Whisperを使用するためには、環境設定を行う必要があります。

上記でも環境設定について解説しましたが、誰でも簡単にできるものではなく、ある程度のプログラミングの知識が必要です。

そのため、活用したいと考えている場合は、プログラミングの知識を身に付けるか外部に依頼して設定するしなければいけません。

これからWhisperを使用を検討している場合は、環境設定が必要なことを理解しておきましょう。

音声認精度は完璧ではない

Whisperは、高い音声認識性を誇っている音声認識モデルですが、現時点では完璧ではありません。

訛りや方言などが強い場合や周囲の環境のノイズなどの影響を受けてしまうと、十分な音声認識を行うことができません。

さらに、現時点では日本語を完全に音声認識することができないので、日本語向けサービスなどの活用には不十分です。

そのため、音声認識精度について各音声認識モデルと比較して最適なものを活用することをおすすめします。

Whisper(音声認識AI)の課題

Whisperは、高い音声認識精度の文字起こしをお得な価格で利用できるというメリットがありますが、環境設定が必要というデメリットがあります。

プログラムなどが行える方であれば、簡単にWhisperを使うための環境設定が行えますが、そうでない方は簡単に環境設定が難しいです。

さらに、豊富な音声データを学習させてありますが、一部の音声データは認識できなかったりノイズの影響を受けるなどの課題もあります。

そのため、利便性や汎用性の高いWhisperですが、以上のような課題も抱えている状態です。

まとめ

whisper

Whisperは、高い音声認識精度を誇るAI技術の1つであり、誰でもお得な価格で利用することができます。

ただ、現時点ではいくつかデメリットや課題がある状態であり、完璧な音声認識モデルではありません。

そのため、これからWhisperを活用しようと考えている方は、以上のデメリットや課題を理解しておくことをおすすめします。

さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは？

生成AIパスポートは、一般社団法人生成AI活用普及協会（GUGA）が提供する、AI初心者のために誕生した、生成AIリスクを予防する資格試験です。AIを活用したコンテンツ生成の具体的な方法や事例に加え、企業のコンプライアンスに関わる個人情報保護、著作権侵害、商用利用可否といった注意点などを学ぶことができます。

⽣成AIの台頭により、AIはエンジニアやデータサイエンティストといった技術職の方々だけではなく誰もがAIを使えるようになりました。今、私たちがインターネットを当たり前に活用していることと同様に、誰もが生成AIを当たり前に活用する未来が訪れるでしょう。

そのような社会では、採用や取引の場面で、生成AIを安全に活用できる企業・人材であることが選ばれる前提条件になり「生成AIレベルの証明」が求められることが予測できます。生成AIパスポート試験に合格すると、合格証書が発行されるため、自身が生成AIを安全に活用するためのリテラシーを有する人材であることを、客観的な評価として可視化することが可能です。

ぜひあなたも生成AIレベルを証明し「生成AI人材」に仲間入りしましょう！

詳細はこちら