音声入力はどこまで使えるのか？ iPhoneの音声入力機能を使って文字起こしをやってみた

f:id:totota3211taku:20171017043638p:plain

みなさんこんにちは、私です。

最近、音声入力機能が結構使えるようになっていることを知りました。

私は「iPhone 3G」からずっとiPhoneを利用するiPhoneユーザーなのですが、昔のiPhoneの音声入力のイメージが強かったため「音声入力＝ゴミ」という認識を強く持っていました。

しかし、今の音声入力はすごいですね。

正確な文章を入力してくれるわけではないですが、ある程度わかる文章になりますね。

いや、びっくりです。

なぜ、急に音声入力を利用しようと思ったのか。

それは、膨大な量の音声データの文字起こしを取り急ぎやる必要があったからです。

音声を聞いて文字をタイプしていくのが従来の文字起こしのやり方です。ただ、それが結構面倒なんです。それを音声入力でやれば、従来のやり方よりも早くできるのではないか。

じゃあ、やってみよう！

そんな感じで音声入力を使うことになりました。

今回は、文字起こしという作業において、音声入力がどこまで使えるのかを書いていきます。

音声入力を試すきっかけ

今回、文字起こしで音声入力を使うことにした私ですが、私が音声入力を使うことにしたのにはきっかけがあります。

そのきっかけは以下のツイートです。

こないだ龍大のゼミ生と話してて、卒論のための生活史調査の文字起こしをえらい丁寧にしてきたから、どうやってやったのって聞いたら、「インタビューの音声をiPhoneで再生してイヤホンで聞きながら、iPadのメモを音声入力にして、マイクに向かって自分で同じセリフを喋り続けた」だった→
— 岸政彦 (@sociologbook) 2017年10月5日

このツイートをした方は、社会学者の岸政彦さんという方です。岸さんがされていることをざっくりと説明すると、インタビューという方法で人に話を聞き、聞いた話を分析する生活史調査をされています。

生活史調査は個人に話を聞く質的な調査です。アンケートのような数字を用いる量的な調査とはその性質が異なります。

質的な調査で人から話を聞かせていただくとき、多くの場合はボイスレコーダーなどの録音機器を用いて調査を録音しておきます。あとから思い出せるようにするために録音しておきます。

質的な調査についてこれ以上話をすると、今回の記事のテーマからどんどんズレていくことになるので、今回は割愛します。

さて、録音したデータですが、たいていその音声は文字にする必要があります。そこで必要になる作業が文字起こしです。テープ起こしともいわれますね。

先にも述べているように、従来は音声を聞いて、聞いた内容をキーボードで打ち込んでいくことで音声データを文字に変えています。

しかし、上記の岸さんのツイートには「ゼミの学生が音声入力を用いて文字起こしをやってきた」とあります。

つまり、岸さんのゼミ生はタイピングによる従来の文字起こしではなく、音声入力による文字起こしを行なったという訳です。

私はこのツイートを見て「音声入力って使えるのか？」と疑問に思いました。

そして、自分でやってみて従来のタイピングによる文字起こしと音声入力による文字起こしを比較してみることにしました。

実際に文字起こしをやってみる

今回私が文字起こしをした音声は約3時間もある音声データです。

この音声データは現在私が受講している授業で行なったインタビューのデータです。

インタビューにおいて聞き手として質問をしていたのは私です。それなので、インタビュー時の状況やその場にいた人の位置関係は把握しています。

話は逸れますが、文字起こしという作業において音声データを録音した場に文字起こしをする人がいるということは、その作業を進めるうえで非常に大きなアドバンテージとなります。

アドバンテージの具体的な内容はいくつかありますが、一番はやはり、そのインタビューに対する情報量が多いということでしょう。

今回文字起こしをしたインタビューデータでは、文字起こしをした私自身が聞き手として話し手に質問をしています。質問の内容は私が考えて、私が発話することによって生まれたものです。

そして、質問に対して話し手の方も回答をしてくれます。その回答は私が質問をしたことによって生まれたものです。

つまり、インタビューという営みは平たく言ってしまえば、「会話」です。「会話」とは、他者の発言があってこそ成立するものです。私とあなた、あなたと彼といったように2人以上の個人がその場にいて、各人が相手に言葉を投げることによって「会話」ははじまります。

こういった認識において、「会話」とは相互行為が成す営みであるといえるでしょう。

この相互行為にかかわっていることは、相互行為を録音した音声データを文字に起こすうえでアドバンテージになるといえるでしょう。自身がその場にいたのですから、その場にいない人に比べて情報量が多いのは当然といえるでしょう。

話をもどしましょう。

今回文字起こしをした音声データは、私が質問をして、質問をした相手が回答をしてくれることで生まれた約3時間の「会話」を録音したものです。

今回はこの音声データを、（1）音声入力による文字起こしと、（2）タイピングによる文字起こしの2通りの方法で文字にしました。

ちなみに、私は今回の文字起こしがはじめての文字起こしではありません。以前に、文字起こしという作業を経験したことがあります。そのときは、（2）の方法のみを用いて文字起こしを行ないました。

それなので、今回の文字起こしにおいて、（2）の方法に関してはある程度勝手を知っている状態です。

ここまで少々長くなってしまったので、改めて今回の文字起こしに関することを以下に箇条書きでまとめておきましょう。

インタビューデータは約3時間
インタビューには文字起こしを行なう私自身が参加している
今回の文字起こしは、（1）音声入力による文字起こし、（2）タイピングによる文字起こしの2通りの方法で行なう。
（2）の方法について、私は経験があるため、ある程度勝手を知っている。

以上を踏まえてこの先を読んでいただきたいと思います。

2つの方法について―それぞれの特徴と感想―

という訳で、実際に文字起こしをしました。

まず、その感想から。

むっちゃくちゃしんどかったよ！

提出日ギリギリでやったので、最後のほうは徹夜での作業となりました。

また、同じ授業を受けている学生で作業量を均等にすると教授が言っていたにもかかわらず、明らかに私だけ作業量が多くなっていました。

どの程度多かったのかというと、少なくとも他の学生の倍の量を、下手をすると3倍の量の作業をやり遂げました。

「徹夜＋ほかの人よりも作業量が多いことに対する不満」により、ストレスがマッハでたまりました。

そして、提出日はフラフラしながら大学に行きました。通学途中はずっと軽い吐き気を催していましたが、「期限までに提出せねば...！」と自分を鼓舞してなんとか嘔吐せずに済みました。

この日は、友人から「明らかに顔色が悪い」「死にそうな顔してる」と言われました。

しんどかったとはいえ、実際に文字起こしをやってみたことで2つの方法についていろいろとわかりました。

今回やった文字起こしは、粗起こしと見直しという2つの段階があります。この2段階は2つの方法のどちらでも行ないました。

粗起こしは、ただひたすらに聞いた音声を文字に変えていくだけの機械的な作業です。正直、これが一番つらいです。

見直しは、粗起こしによって書き起こされた文字を整理する作業です。インタビューデータの利用方法によって整理のやり方に違いがでますが、大まかには以下のようなことをします。

不明確な箇所を明確にする
略語・略称を正式名称にする
事実関係の確認
口語から文語への変換
パラグラフごとに分けて見出しをつける　etc.

このようにやることは多く見えますが、粗起こしの段階で音声データを文字に変えてしまっているため、気持ち的には楽な作業です。

今回、2つの方法を使って文字起こしをしたのは粗起こしの段階だけです。このことを念頭に置いておいてください。

また、音声の再生には「Okoshiyasu2」という文字起こし用ソフトを使用しました。

このソフトはフリーソフトなので、気軽にダウンロードして使えますよ。

記事の最後にリンクを貼っておきますので、気になる方はどうぞ。

それでは、以下で2つの方法について、それぞれの特徴やその方法を使ってみた感想を書いていきます。

（1）音声入力による文字起こし

音声入力による文字起こしは、当然ですが音声入力機能を用いて行います。

音声入力機能にはいくつか種類がありますが、今回はiPhone7に搭載されている音声入力機能を利用して文字起こしを行ないました。

文字を入力するエディタは「Googleドキュメント」を使いました。「Googleドキュメント」を使った理由は、Googleドキュメント形式のファイルは「Googleドライブ」の容量をとらないからです。

実際、音声入力で文字起こしをしてみましたが、入力の正確性はまだまだですね。

漢字の変換がおかしくなったり、発声している言葉とはまったく違う文字がでてきたりします。

また、方言や独特の言い回しには対応しきれませんでした。

ただ、粗起こしの段階で音声入力を用いて、見直しをすることに不都合はありませんでした。確かに音声入力では、文字が完璧に起こされないのですが、その文脈で語られている内容をつかむことはできるので、見直し作業に支障をきたすことはないのです。

細かいところまで正確に粗起こしできるわけではないですが、あとから見直しをするので少々正確さに欠けるとしても大きな問題ではないように思いました。

（2）タイピングによる文字起こし

タイピングによる文字起こしでは、音声を聞きながらキーボードをたたいて文字を入力していきます。

この方法は、ある程度のタイピング技術がないと、作業スピードが格段に遅いものとなってしまいます。そのため、（2）の方法はタイピング技術があることを前提とした文字起こしの方法です。

文字を入力するエディタは「Word2013」を使いました。使用理由は使い慣れているのと、最終的にWordに文字を入力するからです。

実際にやりましたが、やはりこの方法はしんどいです。そして、ものすごく時間がかかります。私の場合、10分の音声データを文字に変えるのに1時間はかかります。

私は（2）での文字起こし経験があるため、1時間で10分起こせましたが、（2）の方法をはじめて行なう人ではそうはいかないです。恐らくこの倍はかかるでしょう。

私自身、はじめて文字起こしをしたときは1時間のインタビューを文字に起こすのに10時間以上の時間をかけました。

（2）の方法は、熟練度によって作業スピードが変わるので、やらなきゃ早くならないです。文字起こしの経験を積むことだけではなく、タイピングのスピードをあげることも必要でしょう。それこそ、ブラインドタッチができると、作業効率は格段に上がります。

最近の大学生はスマートフォンのフリック入力を利用しがちなので、キーボードでの入力を早くできる人は少数派になっています。このような現状を鑑みると、（2）の方法はイマドキ大学生には厳しいのではないかと思います。

しかし、（2）の方法では、粗起こしの段階である程度正確な文字起こしを行なうことができるため、そのあとの見直し作業が楽です。

粗起こしの段階である程度正確に文字に起こせるという点は良いですが、熟練度が重要になるのでスピードをつけるのには時間がかかってしまうでしょう。

熟練度をあげることで、作業が楽になるのかもしれませんね。

2つの方法を比較する

f:id:totota3211taku:20171017171757p:plain

ここまで読んでくださった方は、文字起こしの2つの方法である（1）音声入力による文字起こし、（2）タイピングによる文字起こしについてある程度わかってもらえたかと思います。

ここからは2つの方法の良い点・悪い点を挙げて、それぞれの方法について比較していきます。

ちなみに、ここで挙げる良い点・悪い点は私の個人的な意見です。もしかすると、私が悪い点だと思っていることを良い点だと考える人もいるかもしれません。

あくまでも、私という個人が実際に2つの方法を試してみて、そのうえで書いている感想であり、万人に当てはまるものではないということを理解しておいてください。

それでは、以下に箇条書きで良い点・悪い点を書いていきます。

（1）音声入力による文字起こし

音声入力ができる機器さえあれば、技術や練度がなくてもできる
文字起こしにかかる時間が（2）の方法に比べて短い
入力される文字の正確性が低い
漢字変換のミスが多い
方言や独特の言い回しに対応できない
見直し作業にかかる時間が（2）の方法に比べて長い
1人の話者の1回の発話が長い場合は音声入力が楽だが、1回の発話が短い場合はタイピングで入力したほうが早い

（2）タイピングによる文字起こし

タイピング技術を問われるため、練度がないと作業スピードが落ちる
文字起こしにかかる時間が（1）の方法に比べて長い（私のタイピングスピードの遅さが影響している）
入力される文字の正確性が文字起こしをする人に依拠する
漢字変換が自由にできる
方言や独特の言い回しへの対応が可能
見直し作業にかかる時間が（1）の方法に比べて短い
1人の話者の1回の発話が短い場合はタイピングによる入力が楽だが、1回の発話が長い場合は音声入力のほうが早い

それぞれの方法について良い点・悪い点を箇条書きにしてみて改めてわかりましたが、一長一短ですね。

どちらの方法が優れている、という話ではなさそうです。

結局、どちらの方法が使えるの？

結局のところ、どちらの方法が使えるのでしょうか？

先にも述べているように、一長一短ですので、「どちらが使える」「こっちの方法はダメ」という話ではありません。

インタビューを録音した音声データの性質によってどちらの方法を使うのかを変えたり、起こした文字データの提出締切と相談して状況に応じた方法を使ったりするのがベストではないかと思います。

これまで、（2）タイピングによる文字起こしをやってきた方にとっては、（1）音声入力による文字起こしという方法をとらずとも、ある程度のスピードで文字起こしをすることができるでしょう。（2）の方法は慣れや熟練度を問われる方法ですから、やればやるだけ作業効率があがります。

しかし、現在大学に通っている学生や最近ライターをはじめたばかりの人が文字起こしという作業に慣れているかというと、そんなことはないでしょう。

実際、私自身も文字起こしという作業をはじめてやったのは、大学に入学してからです。このように、文字起こしの方法について長々と書いている私も文字起こしの経験は数えるほどしかありません。

それなので、最終的には各人が実際文字起こしという作業をやってみて、そのなかでどの方法が自分にあっているのかを判断してもらう必要があるでしょう。

今回の記事が、みなさまの判断の一助となるのであれば、私はうれしく思います。

もちろん、今回私が提示した方法以外に別の方法があるのであれば、ぜひ教えていただきたいです。

今回はここまでにします。

それでは(^^)/

P.S.

フリーソフト「Okoshiyasu2」のリンクです。

気になる方はどうぞ！

https://okoshiyasu2.softonic.jp/

Macユーザーの方は「Interview Writer 1.1」というソフトを使ってみてもいいかもしれません。

このソフトは上記でツイートを引用させていただいた社会学者の岸政彦さんが作成されたソフトです。

こちらもリンクを貼っておきます。

http://sociologbook.net/?page_id=651

好きに自由に書かせてください( ..)φ

自分の書きたいことを好きに書かせていただく自己満足ブログです。日常生活のことや社会のことをざっくばらんに書いています。

音声入力はどこまで使えるのか？ iPhoneの音声入力機能を使って文字起こしをやってみた

音声入力を試すきっかけ

実際に文字起こしをやってみる

2つの方法について―それぞれの特徴と感想―

（1）音声入力による文字起こし

（2）タイピングによる文字起こし

2つの方法を比較する

（1）音声入力による文字起こし

（2）タイピングによる文字起こし

結局、どちらの方法が使えるの？