Whisperとは
Whisperは、会話や会議など、人の会話を文字に書き起こすための高性能な音声認識ソフトです。OpenAIという団体によってオープンソースで開発されているので、誰でも無料で導入することができます。ただし、分かりやすい導入方法などは用意されておらず、セットアップは全て自分の責任で行う必要があります。
この記事では、Whisperを導入するまでの手順について説明します。
動作環境
Whisperを快適に利用するには、CUDAが動作するNVIDIAのグラフィックカードが必須です。
どのグラフィックカードでCUDAが動作するのか、明確な一覧表は見当たりませんでした。ですが、いま市場に出回っているNVIDIA製のグラフィックカードは、性能差はともかく、すべて対応していると考えていいでしょう。スペック表に「CUDAコア」が記載されているならば、利用できると考えて問題ありません。
CUDAを使わなくても動作はしますが、冗談ではなく100倍近くの差が出てくるので、実用性が無くなります。AMDやIntelのグラフィックカードは、今のところ、サポートされていません。NVIDIA限定になります。
この記事では、Windowsに導入します。CUDAはLinux(の一部のディストリビューション)もサポートしているので、同じような手順でLinuxに導入することもできるはずです。詳しい方法は解説しませんが、普段からLinuxを利用している人であれば、この記事を見なくても自分で導入できるはずです。
Windowsのバージョンに限定はありませんが、いま広く使われているのはWindows10またはWindows11でしょう。Windows10以降のバージョンであれば問題なく導入できるはずです。Windows10より前のバージョンにも導入できると思いますが、セキュリティや使いやすさの点からも、早く新しいWindowsに乗り換えた方が良いと思います。
導入手順
Whisperを動作させるには、いくつかのソフトウェアが必要になります。
- Python – 世界中で広く使われているスクリプト言語です。
- PyTorch – PythonのAIフレームワークです。
- FFmpeg – 音声ファイルを読み込むためのソフトウェアです。
- CUDA Toolkit – NVIDIA GPUを利用するために必要なソフトウェアです。
それぞれを準備したうえで、Whisperをインストールします。これらの導入にあたって、以下のソフトウェアを利用します。
- Chocolatey – Windows用のパッケージマネージャーです。
- Anaconda – 情報科学向けのPython実行環境及びパッケージマネージャーです。
Chocolateyの導入
ChocolateyはWindows用のパッケージマネージャーで、Linuxのaptやpacman、MacのHomebrewと同じようなソフトウェアです。ソフトウェアの導入を自動化してくれるツールで、うまく使えばとても便利なのですが、あまり初心者向けのツールではありません。ここでは詳しい使い方に踏み込まず、導入に必要な範囲でだけ利用します。
まずは、Chocolateyのコマンドライン版(choco)を導入します。具体的な手順は、導入方法が書かれたページに書かれているので、これに従って操作していきます。GUI版もあるのですが、GUI版はコマンドライン版を使って導入することになるので、結局コマンドライン版(choco)を導入しなければなりません。
「Install with cmd.exe」という部分にインストール用のコマンドが示されています。この領域にマウスカーソルを重ねると、右側に「Copy」というボタンが浮き上がるので、そのボタンをクリックすると、「Copied!」と表示が変わり、Windowsのクリップボードにコマンド文字列がコピーされます。
タスクバーの検索ボックスなどで「cmd」と入力するなどして、コマンドプロンプトを実行します。このとき、管理者権限で起動する必要があります。一般ユーザーの権限で起動した場合、Chocolateyの導入が途中で止まってしまう可能性があります。次は、コマンドプロンプト上で右クリックをするなどして、クリップボードにコピーしていたコマンドを実行します。
少し待つと、ファイルがダウンロードされてChocolateyの導入が終わります。
Anacondaの導入
Chocolateyでパッケージを導入します。
まずは、上と同じ手順で、管理者権限のコマンドプロンプトを起動します。起動した後は、次のコマンドを入力します。
choco install anaconda3
途中で、「Do you want to run the script?」と確認されるので、「a」を入力して先へ進みます。しばらく待つと、Anacondaの導入が終わります。AnacondaはPython処理系(インタプリタ)を含んでいるので、別にPythonを導入する必要はありません。
FFmpegの導入
これもChocolateyで導入します。
先ほどと同じ手順で、管理者権限のコマンドプロンプトを起動します。起動した後は、次のコマンドを入力します。
choco install ffmpeg
途中で、「Do you want to run the script?」と確認されるので、「a」を入力して先へ進みます。しばらく待つと、FFmpegの導入が終わります。
PyTorchの導入
PyTorchはAnacondaで導入します。頻繁にバージョンアップをしているため、以下に示す画面は細かい数値などが変わっているかもしれません。実際に導入する時点の情報に置き換えてください。
まずはPyTorchのホームページを開きます。デザインは変わっているかもしれませんが、PyTorchを導入する方法が書かれたページへのリンク(ボタン)があるので、そのリンクを辿ります。
動作環境を選択する部分があるので、①Stable、②Windows、③Conda、④Python、⑤CUDAを選びます。CUDAは、いくつかのバージョンが表示されていると思われます。既にCUDA Toolkitを導入しているのであれば、そのバージョンを指定します。表示されていない場合、そのバージョンはPyTorchが対応していません。まだ導入していないのであれば、どのバージョンを選択してもかまいません。
「Run this Command」の部分に、実行すべきコマンドが表示されます。
コマンドの実行は、Anacondaの環境で行います。このとき、管理者権限が必要になるので、スタートメニューから「Anaconda Prompt」を右クリックで選び、「その他」メニューから「管理者として実行」を選びます。一般ユーザーの権限だと導入に失敗します。
コマンドプロンプトが表示されたら、PyTorchのページで表示されたコマンドを入力します(コピー&ペーストするのが楽です)。PyTorchの本体は2GB程度あり、他の依存パッケージもそれなりの大きさなので、しばらく待ちます。途中で確認を求められることもありますが、「y」を入力して先へ進めます。
入力状態に戻れば、導入完了です。
CUDA Toolkitの導入
PyTorchを導入するときに選択したバージョンのCUDA Toolkitを導入しなければなりません。
CUDA Toolkit Archiveのページに行き、PyTorchをインストールするときに選択したバージョンのCUDA Toolkitを探します。「CUDA Toolkit [バージョン番号]」というリンクを辿ると、ダウンロードページに移ります。
「Operating System」では「Windows」を選び、「Version」では使っているWindowsのバージョンを選びます。「Installer Type」では「exe (network)」を選んでいますが、「exe (local)」でも、ダウンロードするファイルのサイズが変わるだけなので問題ありません。
ダウンロードした実行ファイルを選んで実行します。ファイルの展開先を聞かれるので、そのまま「OK」ボタンを押します。
インストーラーが起動するので、どんどん進めていきます。
インストールオプションを聞かれますが、「高速」のままで問題ありません。
MicrosoftのVisual Studioを導入していない環境では途中で進めなくなりますが、チェックボックスをクリックすれば、先へ進めるようになります。今回の用途では関係のないメッセージになります。
ファイルのダウンロードやコピーが完了すれば、CUDA Toolkitの導入は終了です。
Whisperの導入
ようやくWhisper本体の導入です。導入方法はGithubのページに書かれています。
PyTorchを導入したときと同じように、Anaconda Promptを管理者権限で起動します。一般ユーザーのままでも導入することはできますが、注意を示すメッセージが表示されるため、ここでは管理者権限で導入しました。プロンプトが表示されたら、次のコマンドを入力します。
pip install -U openai-whisper
ファイルのダウンロードやコピーはすぐに終わり、Whisperが使用できる状態になっています。
Whisperの使い方は、次の記事で取り上げようと思います。