Whisperとは

Whisperは、会話や会議など、人の会話を文字に書き起こすための高性能な音声認識ソフトです。OpenAIという団体によってオープンソースで開発されているので、誰でも無料で導入することができます。ただし、分かりやすい導入方法などは用意されておらず、セットアップは全て自分の責任で行う必要があります。

この記事では、Whisperを導入するまでの手順について説明します。

動作環境

Whisperを快適に利用するには、CUDAが動作するNVIDIAのグラフィックカードが必須です。

どのグラフィックカードでCUDAが動作するのか、明確な一覧表は見当たりませんでした。ですが、いま市場に出回っているNVIDIA製のグラフィックカードは、性能差はともかく、すべて対応していると考えていいでしょう。スペック表に「CUDAコア」が記載されているならば、利用できると考えて問題ありません。

CUDAを使わなくても動作はしますが、冗談ではなく100倍近くの差が出てくるので、実用性が無くなります。AMDやIntelのグラフィックカードは、今のところ、サポートされていません。NVIDIA限定になります。

この記事では、Windowsに導入します。CUDAはLinux(の一部のディストリビューション)もサポートしているので、同じような手順でLinuxに導入することもできるはずです。詳しい方法は解説しませんが、普段からLinuxを利用している人であれば、この記事を見なくても自分で導入できるはずです。

Windowsのバージョンに限定はありませんが、いま広く使われているのはWindows10またはWindows11でしょう。Windows10以降のバージョンであれば問題なく導入できるはずです。Windows10より前のバージョンにも導入できると思いますが、セキュリティや使いやすさの点からも、早く新しいWindowsに乗り換えた方が良いと思います。

導入手順

Whisperを動作させるには、いくつかのソフトウェアが必要になります。

  1. Python – 世界中で広く使われているスクリプト言語です。
  2. PyTorch – PythonのAIフレームワークです。
  3. FFmpeg – 音声ファイルを読み込むためのソフトウェアです。
  4. CUDA Toolkit – NVIDIA GPUを利用するために必要なソフトウェアです。

それぞれを準備したうえで、Whisperをインストールします。これらの導入にあたって、以下のソフトウェアを利用します。

  1. Chocolatey – Windows用のパッケージマネージャーです。
  2. Anaconda – 情報科学向けのPython実行環境及びパッケージマネージャーです。

Chocolateyの導入

ChocolateyはWindows用のパッケージマネージャーで、Linuxのaptやpacman、MacのHomebrewと同じようなソフトウェアです。ソフトウェアの導入を自動化してくれるツールで、うまく使えばとても便利なのですが、あまり初心者向けのツールではありません。ここでは詳しい使い方に踏み込まず、導入に必要な範囲でだけ利用します。

まずは、Chocolateyのコマンドライン版(choco)を導入します。具体的な手順は、導入方法が書かれたページに書かれているので、これに従って操作していきます。GUI版もあるのですが、GUI版はコマンドライン版を使って導入することになるので、結局コマンドライン版(choco)を導入しなければなりません。

「Install with cmd.exe」という部分にインストール用のコマンドが示されています。この領域にマウスカーソルを重ねると、右側に「Copy」というボタンが浮き上がるので、そのボタンをクリックすると、「Copied!」と表示が変わり、Windowsのクリップボードにコマンド文字列がコピーされます。

タスクバーの検索ボックスなどで「cmd」と入力するなどして、コマンドプロンプトを実行します。このとき、管理者権限で起動する必要があります。一般ユーザーの権限で起動した場合、Chocolateyの導入が途中で止まってしまう可能性があります。次は、コマンドプロンプト上で右クリックをするなどして、クリップボードにコピーしていたコマンドを実行します。

少し待つと、ファイルがダウンロードされてChocolateyの導入が終わります。

Anacondaの導入

Chocolateyでパッケージを導入します。

まずは、上と同じ手順で、管理者権限のコマンドプロンプトを起動します。起動した後は、次のコマンドを入力します。

choco install anaconda3

途中で、「Do you want to run the script?」と確認されるので、「a」を入力して先へ進みます。しばらく待つと、Anacondaの導入が終わります。AnacondaはPython処理系(インタプリタ)を含んでいるので、別にPythonを導入する必要はありません。

FFmpegの導入

これもChocolateyで導入します。

先ほどと同じ手順で、管理者権限のコマンドプロンプトを起動します。起動した後は、次のコマンドを入力します。

choco install ffmpeg

途中で、「Do you want to run the script?」と確認されるので、「a」を入力して先へ進みます。しばらく待つと、FFmpegの導入が終わります。

PyTorchの導入

PyTorchはAnacondaで導入します。頻繁にバージョンアップをしているため、以下に示す画面は細かい数値などが変わっているかもしれません。実際に導入する時点の情報に置き換えてください。

まずはPyTorchのホームページを開きます。デザインは変わっているかもしれませんが、PyTorchを導入する方法が書かれたページへのリンク(ボタン)があるので、そのリンクを辿ります。

動作環境を選択する部分があるので、①Stable、②Windows、③Conda、④Python、⑤CUDAを選びます。CUDAは、いくつかのバージョンが表示されていると思われます。既にCUDA Toolkitを導入しているのであれば、そのバージョンを指定します。表示されていない場合、そのバージョンはPyTorchが対応していません。まだ導入していないのであれば、どのバージョンを選択してもかまいません。

「Run this Command」の部分に、実行すべきコマンドが表示されます。

コマンドの実行は、Anacondaの環境で行います。このとき、管理者権限が必要になるので、スタートメニューから「Anaconda Prompt」を右クリックで選び、「その他」メニューから「管理者として実行」を選びます。一般ユーザーの権限だと導入に失敗します。

コマンドプロンプトが表示されたら、PyTorchのページで表示されたコマンドを入力します(コピー&ペーストするのが楽です)。PyTorchの本体は2GB程度あり、他の依存パッケージもそれなりの大きさなので、しばらく待ちます。途中で確認を求められることもありますが、「y」を入力して先へ進めます。

入力状態に戻れば、導入完了です。

CUDA Toolkitの導入

PyTorchを導入するときに選択したバージョンのCUDA Toolkitを導入しなければなりません。

CUDA Toolkit Archiveのページに行き、PyTorchをインストールするときに選択したバージョンのCUDA Toolkitを探します。「CUDA Toolkit [バージョン番号]」というリンクを辿ると、ダウンロードページに移ります。

「Operating System」では「Windows」を選び、「Version」では使っているWindowsのバージョンを選びます。「Installer Type」では「exe (network)」を選んでいますが、「exe (local)」でも、ダウンロードするファイルのサイズが変わるだけなので問題ありません。

ダウンロードした実行ファイルを選んで実行します。ファイルの展開先を聞かれるので、そのまま「OK」ボタンを押します。

インストーラーが起動するので、どんどん進めていきます。

インストールオプションを聞かれますが、「高速」のままで問題ありません。

MicrosoftのVisual Studioを導入していない環境では途中で進めなくなりますが、チェックボックスをクリックすれば、先へ進めるようになります。今回の用途では関係のないメッセージになります。

ファイルのダウンロードやコピーが完了すれば、CUDA Toolkitの導入は終了です。

Whisperの導入

ようやくWhisper本体の導入です。導入方法はGithubのページに書かれています。

PyTorchを導入したときと同じように、Anaconda Promptを管理者権限で起動します。一般ユーザーのままでも導入することはできますが、注意を示すメッセージが表示されるため、ここでは管理者権限で導入しました。プロンプトが表示されたら、次のコマンドを入力します。

pip install -U openai-whisper

ファイルのダウンロードやコピーはすぐに終わり、Whisperが使用できる状態になっています。

Whisperの使い方は、次の記事で取り上げようと思います。