Web会議音声データをAWS、RPAで自動テキスト化

Pocket

従業員エンゲージメントをWeb会議の音声データで測定

現在tdiは、株式会社ホットリンクと協同で、上司との1対1の面談の中で、部下の従業員エンゲージメントを自動的に測定・分析する研究を行っています。

もう少し詳しく説明しましょう。まず、上司が、従業員エンゲージメントとして「活力」「熱意」「没頭」「健康」という項目を測定できるように作成された質問票をもとに、部下とWeb会議形式で面談を行います。次にこのWeb会議の音声データを文字起こしソフトを使ってテキスト化し、そのテキストデータに対して発言分析を行います。その後、上司に部下のエンゲージメント指数をフィードバックするというものです。

技術要素と利用ツール

音声データのテキスト化に必要な技術要素と、利用ツールは以下の通りです。

No. 技術要素 利用ツール
1 Web会議の発言を録音する技術 ZOOM
2 Web会議の発言を分析可能な「テキストデータ」に文字起こしする技術 Amazon Transcribe
3 対面者の発言内容から、「活力」「熱意」「没頭」「健康」を機械学習されたアルゴリズムで評価する技術 株式会社ホットリンクの機械学習技術
4 複数の技術基盤のデータを連携させる技術 UiPath

Web会議音声データのテキスト化方法

今回の記事では、研究の一部の技術である、音声データをテキスト化して出力する部分について、その実現方法をご説明します。

都合上、例とするWeb会議の内容は面談ではなく進捗報告会議にし、最終的に議事録として出力します。ご了承ください。

処理内容

Web会議ツールのZoomを使った進捗報告会議の音声データをAWSの機械学習文字起こしツール「Amazon Transcribe」で音声データをテキスト化しWord形式の議事録を出力します。なお、音声データをAmazon Transcribeを使用して議事録を出力する機能はRPAツール「UiPath」により自動化をしました。

Web会議音声データのテキスト化全体図

技術的な全体図は以下の通りです。

Zoomを使った会議の録音

作業者がその日の進捗をリーダーにZoomを使って報告する内容を、Zoomのレコーディング機能を使用して録音します。(会議の際にはエコーが掛からないようにイヤホン等を利用します)

録音データはm4a形式で作成されるため、フリーソフトReal Playerを使用してAmazon Transcribeの対応形式mp3に変換します。

AWSの機械学習文字起こしツール(Amazon Transcribe)による音声データのテキスト化

①AWSアカウントの作成

こちらからAWSアカウントを作成してください。

今回の作業は無料枠内で使用可能ですが、基本的に有料となるためクレジットカードまたはデビットカードが必要です。

「AWSの無料利用枠」について(AWS公式サイト)

②S3バケットを作成

まずS3バケットを作成します。入力値は以下の通りです。

バケット名:bucket-miso、リージョン:アジアパシフィック(東京)

「バケット名:bucket-miso」が作成されています。

③S3バケットに音声データをアップロード

S3バケットに、mp3形式の音声データをアッブロードします。

「audio_only_1.mp3」がアップロードされています。

④Amazon Transcribeで文字起こしJOBの作成

Amazon Transcribeで文字起こしJOBの作成をします。入力値は以下の通りです。

JOB名:Transcribe_job_miso、言語:日本語

入力データは「audio_only_1.mp3」を設定します。

スピーカーの最大数は、進捗会議の参加人数である「2」を入力します。

「Transcribe_job_miso」が作成されいます。

⑤文字起こしJOBの実行

⑤-1文字起こしJOBの実行

文字起こしJOBを実行します。

⑤-2 文字起こし結果(テキスト)

文字起こし結果がテキストで表示されます。

⑤-3 文字起こし結果(音声識別)

音声識別では、どのコメントがどのスピーカーのものなのか、わかるようになっています。

⑥文字起こし結果を出力

音声識別の文字起こし結果をWord形式で出力します。

動画:音声データから議事録を作成する作業をUiPathで自動化

これまでの一連の作業の様子を動画にしました。

  • 開始~1分過ぎ・・・AWSにログイン~文字起こし開始(上記解説の③~⑤の1)
  • 1分過ぎ~2分過ぎ・・・文字起こし実施中(動作はなく待ち時間)
  • 2分過ぎ~終了・・・文字起こし結果をWordへ転記して確認(上記解説の⑤の2~⑥)

※解説の画像はChromeで実施した画面(日本語表記)ですが、動画はIEで実施した画面(英語表記)を録画しています。

あとがき

音声データの文字起こしでは、単純に会議の音声データを読み込ませただけでは、固有名詞や専門用語は正確に変換できませんでした。そのため、カスタム語彙等の学習機能を駆使して精度を向上させる必要があります。また、ちょっとした会話の間に挟む文字化の不要な音声の解釈も課題と感じました。もちろん、この点を解決した上で、従業員エンゲージメント測定のサービスはリリースしますのでご安心ください。

従業員エンゲージメント測定にご興味ある方は、どうぞこちらからご連絡ください。

また、tdiでは「RPA導入支援サービス」を提供しています。こちらへのお問い合わせもお気軽にどうぞ!

お問い合わせ先

執筆者プロフィール

Aikawa Kazutaka
Aikawa Kazutakatdi RPA推進室
これまでの経験を活かしながら新しい技術を吸収して、ロボット普及に尽力中です。
Pocket

関連記事