2010年1月11日月曜日

カラオケの機械採点は音声認識技術

速記録と録画記録

 現場に出て、生の声を聞いて速記して作成した記録が速記録である。
 録音から起こしたものは、録音記録である。
 録画から起こしたものは、録画記録である。
 録音や録画から起こしたものは、記録ではあるが、速記録ではない。
 たしか、国会には、速記法によって会議録を作るというような規定があったような気がするが、どうなったのだろう。

 人の話は、人間でないと理解できないのではないだろうか。

 機械では、音の種類を判別できても、言葉の中に含まれる意味までは把握できないのではないだろうか。

 私たちも、外国語で話されると、ただの音としか感じない。意味のある言葉としてとらえることができない。

 言葉の中に含まれる意味を正確に理解できないと、正確な文章を書くことはできない。

 文字認識は、活字文字認識の精度は高いが、手書き文字認識の精度は低い。

 音声認識も、模範的な鮮明な音声には正しく反応するが、癖のある音声には、正しく反応しない。

 カラオケも、上手な人が歌うと100点が取れるかもしれないが、へたくそが歌うと50点しか取れない。
 みんながみんな100点を取れるわけではないのに、みんな100点を取れるはずだと錯覚しているのではないだろうか。
 カラオケの機械採点は、音声認識の技術によるものであり、機械が自分の声を何%正確に認識してくれるかを試すことができる。あるいは、模範的な歌唱を100あるいは1000とした場合に、自分の歌唱がどの程度正確なものであるかを示してくれる。

 明瞭な発言はもちろんのこと、聞き取りにくい発言も速記者の頭をフル回転して書き取って作った速記録は信用できる。
 録音に入らなかった言葉も、現場の中央に座れば聞き取れる場合が多い。
 速記も100%のものではないが、録音も録画も100%のものではないので、あくまで参考資料と位置づけるべきだろう。

 カメラが4台あっても、送られてくる画像は、1台のカメラからの映像であり、その情報量は4分の1になる。
 録音も、作動しているマイクがキャッチした音だけであって、場内の音をすべて拾っているわけではない。
 100%正確な記録を作るためには、速記、録音・録画、音声・文字認識の併用しかない。



ハイヒールで右足の親指を踏まれた

 新年早々、電車に乗っていて、座っていたら、電車が揺れたときに、後ろ向きで前に立っていた女の人のハイヒールで右足の親指を踏まれた。
 「痛い」とでかい声を上げてしまった。
 親指を直撃したし、あまりに痛かったので、親指が骨折したかと思った。
 ハイヒールの人は、座っている人や周りの人の足を踏まないように注意してほしい。
 電車に乗ったときは、吊革につかまってほしい。
 吊革につかまっていれば、被害は少ないと思う。

 手離しで自転車に乗るのも、危険なので、やめてほしい。
 両手で自転車のハンドルをしっかり握って運転すれば、砂利道だって、雪道だって、山道だって安心して進んでいけるのに、手離しで自転車を運転すると、危険だし、石ころ一個につまずいて、転倒することになる。
 転倒するだけならまだしも、転倒したところを自動車に踏みつぶされるかもしれない。
 ハンドルを両手でしっかり握っていれば、ふらつくことはないし、障害物があれば、すぐにブレーキをかけて停止することができる。
 手離しで自転車を運転すれば、転倒するし、ブレーキをかけることもできないので、危険である。
 雨降りの時に、傘をさして、片手で自転車を運転することもあるが、できれば雨合羽を着て、両手で運転することが望ましい。
 私たちのころは、ヘルメットなんて装着することはなかったけれども、今は、自転車で通学するときには、ヘルメットの着用が義務付けられている。
 自動車に乗るときは、観光バスでもシートベルトの着用が義務付けられているし、電車に乗るときは、吊革につかまるのが常識である。普通は大丈夫だけれども、急ブレーキをかけられたりすると、集団で転倒することになるから、座席に座れないときは、できるだけ吊革につかまるようにしなければならない。

 速記は、音声を文字化することができる。文字化したものを文章化するのが反訳である。
 文字化は、とりあえず自分が読める状態にすることであり、文章化は、誰もが読める状態にすることである。今は、反訳すなわち印刷物の作成の時代である。便利になった。
 速記を省略して、いきなり文章化することに、どれだけの意味があるのだろうか。
 難しいし、危険だし、余計な神経を使うし、速記の腕前はどんどん落ちるし、職務評価も落ちるし、速記者が育たなくなって後継者がいなくなるし、いいことなんて、何もない。
 録音が入っても、録音は速記の補助と位置付けて現場の速記をきちんと続けてきた。録音が録画になっても、同じように、現場の速記はきちんとやるべきだと思う。速記したものをどう反訳するかは、ケースバイケースである。
 例えば、音声認識装置にかけて、ほとんどミスのない原稿ができたときは、それをちょこちょこと修正するだけでよい。
 原稿を読み上げたようなときは、その原稿を文字認識装置にかけて文章化すればよい。
 機械的に処理できるところは、機械的に処理をして、速記者の手を必要とする部分は速記者の手で処理すればよい。
 しかしながら、機械的に処理できる部分は全体の一部分にすぎない。
 100%機械処理に任せようとするところに無理がある。
 現場の速記はあくまでも継続して、どう原稿を仕上げるかは、ケースバイケースで速記者の判断に任せるというのが、妥当な道だと思う。

 吊革を持たないのも、ハンドルを握らないのも、速記をしないのも、すべては手抜きである。


速記能力と原稿の質

 速記者である以上、何が起こるかわからないので、1日10分の速記の練習は続けたいと思う。自衛隊員が、戦争がなくても、有事に備えて射撃訓練をしているのと同じである。あるいは、消防職員が火事に備えて消防訓練をしているのと同じである。
 録音・録画に失敗があった場合、あるいは録音・録画が不十分なものであった場合、誰がその会議録に対して責任を持てるのだろうか。
 速記者が速記をとっていれば、その速記録は速記を担当した速記者と発言者が責任を持つことになるのだが、速記しないで速記録にミスや欠落が出たとき、誰が責任を持てるのだろうか。
 一生懸命速記をとり、きちんと録音をとっていても、完璧なものを作るのは難しいのに、速記を省略して一体誰がその責任を持てると言うのだろう。
 一瞬にして消える音声は、何らかの形で同時に保存する必要がある。
 速記、録音、音声認識などの方法があるが、人間の目と耳と頭を通す速記が一番安心できる。どんな状況でも、それなりに対応することができるからである。特に、2年半にわたる訓練を受けて選ばれた速記者なら、任せて安心である。
 実は、かなり優秀な人でも、若手のばりばりでも、かなりのベテランでも、完全に書けるときは、何十回に1回くらいなものなのである。1回、1回が真剣勝負なのである。
 もちろん、速記、録音・録画、音声認識の3つの方法をうまく使っていくのが一番賢いやり方であって、何かを取って何かを捨てるというような方法は、良くない。
 なぜならば、速記も録音も録画も音声認識も完全なものは何もないからである。お互いに補完し合って完成度を高めてこそ、信用に足るものができるのである。使えるものをすべて使って万全を期するのが正しい道である。
 きちんと速記できる人の原稿は、原稿もやっぱりきちんとしている。
 速記がきちんと書けない人の原稿は、やっぱり原稿もボロボロである。
 録音を用いれば、その格差は縮まるだろうが、やっぱり大きな差が出るだろう。
 第一、速記も書けない人が速記録を作りたいなどと思うはずがない。
 思うとしたら、それは、生活のために、命令のために、やむを得ずということだろう。
 速記能力と原稿の質は、ほぼ比例すると言って間違いない。
 速記の書けない人に速記録の作成を任せたとき、その精神的な重圧は計り知れない。
 2年半も訓練を受けた上、何年も何十年も速記実務をやっていても重圧を感じるのに、速記の訓練を何も受けない人が、平然とやっていけるわけがない。安易な覚悟でできる仕事ではない。
 歌だって、人前で堂々と落ち着いて歌うためには、相当な練習が必要である。
 歌い方を覚え、歌詞を覚え、表情も豊かに歌うためには、かなりの練習が必要である。
 手振りや踊りまでもきちんとやるとなると、やっぱり、プロしかできないということになるだろう。高額な衣装を着てとなれば、なおのことである。


正しい音

 録音から起こした音よりも、現場で生の声を聞いて起こした音の方が正しい場合が多い。
 音はいろいろに聞こえる。速記者は、いろいろに聞こえる音の中で最も正しい音を選んで表現しなければならない。
 NHKホールで紅白歌合戦を見るのと、家のテレビで紅白歌合戦を見るのと、どちらが楽しいでしょうか。
 神宮球場で野球を見るのと、テレビで神宮球場の野球を見るのと、同じでしょうか。
 もちろん、現場よりもテレビカメラの方が、よく見える場合もありますが、ホームランの描く放物線などは、テレビではわかりにくいものです。
 少なくとも、臨場感は、テレビよりも現場の方が上です。
 部分を見るのはテレビかもしれませんが、全体を把握できるのは現場です。
 カラオケでも、カラオケボックスで歌うのと、スナックで歌うのと、カラオケステージで歌うのと、温泉の座敷で歌うのと、ライブハウスで歌うのとでは、それぞれ違います。
 昨日、カラオケステージの大画面テレビが壊れて画面が真っ黒になりましたが、どうやらランプを交換して復旧したようです。
 機械は壊れるものです。
 機械が正常でも、人間が操作を誤る場合がよくあります。
 また、機械だけでは、よくわからない場合、人の説明が必要です。
 コンピューターといえども、人の心まで読み取ることはできません。
 音声の中にひそむ人の心までも読まないと、正しい記録は作れません。

20100107

 DAM精密採点Ⅱによる採点です。

(1)君だけを 84点 カシスオレンジ
(2)よろしく哀愁 87点 麦焼酎「隠し蔵」(53本目)
(3)たそがれの銀座 90点 刺身7点盛
(4)青いリンゴ 90点 コブサラダ
(5)春よ、来い 81点 カシスオレンジ
(6)君が美しすぎて 88点 麦焼酎「隠し蔵」(54本目)
(7)激しい恋 89点 麦焼酎「隠し蔵」(55本目)
(8)私鉄沿線 採点なし



テレビが真っ黒

20100106 浅草

 ステージカラオケは午後9時開始のはずが、従業員がだらだらやっていて、午後9時30分の開始になった。
 歌の途中で、大画面テレビの1つが、真っ黒になった。
 調整の結果、画面は一旦映るようになったが、途中で、また、画面が真っ黒になり、そのまま最後まで回復しなかった。
 従業員は、誰かが電源を切ったからだと言っていたが、多分テレビか接続の故障だろう。
 また、最初に従業員の人がヤングマンを歌ったが、この得点が画面に表示されなかった。
 マイクの配線の仕方に間違いがあったようで、これは、配線を直して、すぐに復旧した。
 きょう1日だけでも、開始時間の30分遅れ、マイクの配線の間違い、大画面テレビの画面か接続の故障と、3つの大きなミスがあった。
 また、いつもは、ボトルをとると、すぐに、銘柄は何にしますかと、問うてくるのに、きょうは、液晶のオーダー装置を私に預けただけで、従業員は、何も言いに来なかった。
 老眼で、細かい液晶の字は、メガネをかけないと見えないので、私の場合、オーダーは、従業員に直接言うようにしている。液晶のオーダー機械は、使ったことがない。
 機械の発達で、人と人との会話が減った。なるべく目と目を合わせて話すようにしなければならない。機械に任せきりにすると、誤解やトラブルが生じやすい。
 もし、オーダーはすべて機械でというなら、最初に機械の使い方を説明しなければならない。客が老眼なら、メガネも用意しなければならない。人件費を節約しようとすると、それなりにシステムが複雑になり、トラブルも増える。
 本日のDAM精密採点Ⅱによる採点結果は次の通りで、ボトルのキープは通算で52本になった。通算50本を年末に達成しようと思っていたが、歌いに行けなかったので、新年最初での達成となった。
 ただし、ボトルキープは、3か月たつと無効になってしまう。実際飲めるのは、52本もない。現在、4本目を飲んでいるところです。
 得点は、91点をとった人がいて、私の88点は2位だった。91点の人は、何曲か歌ったが、とてもうまかった。というより聞いていて楽しかった。私の歌を聞いて楽しいと感じてくれる人がいるかどうかは、よくわからない。

(1)甘い生活 88点 麦焼酎「隠し蔵」(47本目)
(2)君が美しすぎて 87点 麦焼酎「隠し蔵」(48本目)
(3)私鉄沿線 88点 麦焼酎「隠し蔵」(49本目)
(4)青いリンゴ 88点 麦焼酎「隠し蔵」(50本目)
(5)チャンスは一度 84点 カシスオレンジ
(6)星のフラメンコ 87点 麦焼酎「隠し蔵」(51本目)
(7)よろしく哀愁 85点 麦焼酎「隠し蔵」(52本目)

0 件のコメント:

コメントを投稿