スポンサーリンク

AI 文字起こし

2024 年 2 月 20 日 コメントはありません

Created by Gemini

AI文字起こしについて説明させて頂きます。 結論としては、Python+AIを使うことで、PCでも比較的簡単にできます。 ちなみに、文字起こしのことを「STT」なんて呼び方をしますね。 Speech To Textです。 逆に、テキスト文字から喋らせる「TTS」というのもあります。Text To Speech。

なお、TTSは以前からありましたが、人の声の録音データをAIに学習させて、その人の同じ声や喋り方で話をさせるということが今社会問題化しつつあります。 (CEOの声を真似させて、その会社の経理にお金を振り込ませるという事件もあったと聞きます)

さて、今はOpenAIなどがwhisperというようなモデルを公開しており、無料で使えます。 自分は「Faster Whisper」という派生モデルを使っています。

方法としては、学習済みのAIモデルを自分のパソコンに入れ、それを使って動画ファイルや音声ファイルから文字起こしする、という仕組みです。 命令スクリプトはライブラリが豊富なPythonで書くのが簡単です。 なお、Python自体もWindowsにインストールする必要があります。

文字起こしの処理はGPUを使う方が多分いいのですが、CPUだけでも動くようです。

以下の動画は、YouTubeの動画を文字起こししている様子です。 もちろんファイルから、でもいいのですが、他の方法と組み合わせで、 ・YouTube urlを指定→YouTubeから一時的に動画を取り込む→動画から音声のみ抜き出し→文字起こし という流れになります。

文字起こしは、結局人の“お喋り”なので、それだけ読んでもまとまりがないことが多いのですが、下の画像のように、文字起こしのテキスト全文をAIに読み込ませて”清書/要約”させることも良いアイデアかも知れません。 (ミーティングの内容を把握/記録するにはこれが最適な方法かも?!)

#例

  • 元動画 YouTubeより
  • AI文字起こしの様子 >>2倍速してます

おおよそ5分弱の動画を1分ちょっとで文字起こしできました。 コンソール画面に”ja”、確率99.9%みたいな表示があると思いますが、これはAIモデルが日本語と認識したという意味だと思います。現状多くの言語で文字起こしが可能ですが、言語が混じると恐らくNGですね(例えば中国語と日本語が同じファイルに入っている場合など)。

#AIによる要約

下の文字起こし全文から要約してもらいました

#AIによる清書

下の文字起こし全文を清書してもらいました

#実際に文字起こしした文章

飲食店にも異変が 都内の飲食店に貼られた1枚の紙 そこに書かれていたのは 人員不足のためしばらくの間 臨時休業すると書いてあります 人がいないため営業ができず休業していました さらに街を歩くと アルバイトを緊急募集したり 人手不足で開店時間を遅らせたりする店も 実は今飲食店の人手不足が相次いでいるのです 都内にある牛骨のスープで作ったラーメンが売りの店では 去年の夏頃から求人をかけても応募する人が来ないため 年中無休でやってたんですけど もう定休日を作らなきゃどうしようもなくなっちゃって あと営業時間もちょっと短縮させていただいて さらに一人で切り盛りしているため心配事もあるといいます あそこ定休遅いからちょっと行くのやめようかなっていうのも 服のサイクルでやっぱり売上が低下していってるっていう 人手不足は都内にあるイタリアンでも 全然募集しても来ない来なかったです はいもう数ヶ月来なくて ちょっとどうしていいのかと 都合に暮れてるところは非常に感じて 都合に暮れておりました 去年の夏頃までは 賄え付きの条件で募集しても応募がない日が続いていたといい 人手不足のため臨時休業することもありました 最近は大学生のアルバイトが入り 何とか営業することができているといいますが 3月ぐらいで辞めてしまうの大学生の子が辞めてしまうので 一人でやらなくてはいけないことが可能性があるなっていうのは不安であります 深刻化する飲食店の人手不足 帝国データバンクの調査では 去年全国にある飲食店の7割以上が 非正規社員の人手が足りていないといい その数は年々増えています 飲食店に何が起きているのでしょうか 人材派遣をしている会社に行ってみると 今は人材が足りていないということで もうすぐにでも欲しいという条件でしょうか 飲食店から人材派遣の依頼の電話が 今までは月に2,3件あればいいところ 今は1日に1,2件 今まではちょっと考えられない点数が増えていますね 今人手不足の飲食店から依頼が急増しているといいます 人手不足の背景にあるというのが またコロナが広がって店を閉めざるを得ないんじゃないか その時に自分たちの仕事がなくなってしまうんじゃないか 今後の不安だったりがあるものですから 業種を変える子も多くてですね コロナ禍で休業要請が出されるなどの影響を受けていた飲食店 今後も休業した場合働けなくなることを恐れて 応募する人が少なくなっているといいます この苦境にパスタを提供する店が取った対策 それは 集合を見てみますとロボットがパスタを作っていますね 人の代わりに調理をしてくれるロボットです 麺を茹でるところからソースに和えるところまで すべて自動で調理 その事実を知ったお客さんは あの方あの機械が でもすごい美味しいんですよ プロ顔まけの味を再現できるだけでなく 人しない分ほどで調理が可能なため 1台で1人から2人分の働きをするといいます 飲食業の一人不足などの課題を解決しながら それが全国に広がっていけばなと思います 猫の手ならぬロボットの手も借りたいほど 人手不足の危機に直面する飲食業界 今後ロボットによって 人手不足が解消する日は来るのでしょうか

カテゴリー: 未分類 タグ:

後日要確認検証の株のツイート

2024 年 2 月 20 日 コメントはありません

Notoa / 日本株投資家

@Nkabu_JP

来るぞ。大急騰。 『ユニフォームネクスト』が 直近で好決算を出した事から ガンホー株(1年で100倍超)で 億った投資家も仕込む予定らしい。 すぐにばんばん利益取れるかも… 株価600円台じゃが いま100株仕込めば “超短期間で3000円もあるなw” イイネリプした人には 【利確損切り位置】教える

【3566:ユニフォームネクスト】相場解説 この日本株に起きている ファンダ・テクニカルについて徹底的にまとめた いつでも見返せる様投資家は イイネで保存しておくのじゃ

カテゴリー: 未分類 タグ:

WordPress

2024 年 2 月 20 日 コメントはありません
カテゴリー: 未分類 タグ:

ライフログに、憧れて。

2021 年 12 月 5 日 コメントはありません

ライフログ、というのに数年前から興味がある。
自分の人生を記録する。

「3年前の今日、自分はどこにいて、誰と会って、何をしていたのか、そして何を喋っていたか」
あなたには分かるだろうか。
私には分からない。だが分かるようになりたい。
だからそれをデジタルで記録する。
記録は、より自動に近い半自動が望ましい。
ボタンを押すと記録が始まり、再度押すとストップするみたいな。

テクノロジーが年々進歩し、色んなモノがネットに繋がった。
そろそろそのようなコンセプトの製品が出てきてもいいと思っていた。
正確に言うと、この数年間でそういう商品が出てきつつあるが、すぐに消え、残念な状況だった。
ライフログ的な行為に興味がある人は少ないのだろうか。

だが今回は違って、光明が見えている。

私のライフログの目標はこうだ。
1) 場所の記録。何月何日の何時に自分がどこにいたのかを残す。
2) 誰と会って、何をしていたかの記録。これは写真やビデオとして残す必要がある。
3) 何を話していたかの記録。音声を残すとともにそれを後から容易に探せるようにしておきたい。

1) 場所の記録
実はこれはすでにできていて、記録は取れている。
SilentLog
このアプリを入れれば簡単だ。何も考えずに残せるのが素晴らしい。
これ以外に、自分でもウェブアプリを作り、ランドマーク的なところを訪れた際、クラウドに記録を残している。

2) 誰と会って、何をしていたかの記録
これは画像やビデオに残しておけばいい。ただこれが意外に難しい。
アクションカメラなど身体に着けるカメラは現在多く出ているが、どれも一長一短。
電池の持ち、大きさ、ソフトウェア、完成度、保存方法。色んな問題がある。
面倒でない方法にしないと、続かない。それが人の性。

現状において一番最適なのはやはりスマートフォンだろう。
スマホのカメラは進化が止まらないが、ライフログとして残す映像は必ずしも高解像度である必要はない。
残す、という行為にもコストがかかるわけだし。ローカルに残そうが、クラウドにアップしようが、お金がかかるのだ。
(それでも一番の敵は面倒くささだと思う。面倒だと絶対に続かない)
これを解決するには、スマホに、例えば30分に1回写真撮影を自動でするアプリを入れればよい。
そうして保存した写真を、Google Photosなどのクラウドに自動でアップロードする仕組みも、スマホなら構築は容易だ。

身体に装着するパーツも今は数多く製品化されているのも助かる。
アクションカメラ用のマウント部品を試せばしっくり来るのもあるだろう。
私は首から吊り下げるタイプを入手した。

これを首から下げて、スマホを着けておけば、勝手に写真を残してくれる。
あとはたまにGoogle Photosのアプリを開けば、保存した写真を自動でアップロードしてくれて残せる。

3) 何を話していたかの記録
これは簡単であり、難しい。
会話の記録は、それこそ数十年以上前からボイスレコーダーがあり、今はどのスマホでも使える。
つまり、会話の記録自体は非常に簡単ですぐに始められる。

だが想像してほしい。1日に10時間を超える音声の記録をし、それをどのように活かすのか。
授業や重要な商談の話を、その都度記録するならそれでもいいのだが、あくまでライフログ。
後から容易に検索できねば意味がない。
ということで、録音した音声をテキスト化する必要がここで出てくる。
話し声をテキスト化してしまえば、そのテキストと音声ファイルを一緒に保存することで、後からの検索が容易になる。
会話を文字検索できるようになるわけだ。
「あの話はいつしたんだっけ?」「あの時何を話したっけ?」「あの人何て言ってたっけ?」
これを確認したい時、Google検索のように出来たら凄いと思いません?!

ここがテクノロジーの最前線の話になる。AIだ。

キーボードが苦手な人のために、音声入力(音声の認識)はかなり前からあった。
だが精度が非常に低く、しかも予め自分の声を登録する必要があるなど、使い勝手が非常に悪かった。
結局キーボードで入力した方が速かった。

次に出てきたのがクラウドでの音声認識。
アプリ上などで声を録音し、その音声をクラウドに上げ(あるいは自動で)、クラウド側で処理し、端末にテキストを返す。
これはサービスにもよるが、かなり精度が良くなった。
しかし、常にオンラインでないと使えないし、サービスの多くは有料だったり、制限があったりした
(日本の会社でも色んなサービスの販売がされているが、そのほとんどがバックエンドで米国系IT企業のサービスが動いているようだ)
決してお手軽に使えたわけではなかった。

そうした中、圧倒的存在感を示したのがつい先ごろ発表・発売されたGoogleのスマホ、Pixel 6である。
このスマホの何が凄いのかというと、最新SoCによる、AIを活かした音声認識能力だ。
ありがたいことに日本語にも対応しての登場となった。

言語処理AIにかなり特化したCPU、Tensorを搭載し、何とオフラインでも音声をしっかり認識する。
そしてその認識力は私が知る限りではトップクラスだ。
試しに下の動画を見ていただきたい。驚くはずだ。
しかもこれはオンライン状態ではなく、オフラインの状態、スタンドアロンで実現しているのだから舌を巻く。
これがわずか数万円で自由に使える。凄すぎ。

テキスト化できた音声は使える範囲が大きく広がる。
議事録的に使うのも余裕だろう。
このスマホでは当然のごとく翻訳機能まで備えている。
これだけしっかり認識できれば翻訳の方も捗り、かなり優秀であろう。

もうさ、オートメモポケトークもいらないわ。
全部このPixel 6が一台あればいけるじゃん。

なお、実験したところ、例えばインターバル & 連写撮影!バックグランドカメラというインターバル撮影アプリとボイスレコーダーアプリは同時に使えるようだ。
ようするに、バックグラウンドで写真を撮影しながら、声も録音できるということ。

ということで、スマホがあれば自分の望むライフログが実現できそうだ。
今はその未来感にワクワクしている。

ちなみに本格的な録音や撮影の際はこのマイクを使おうと思っている。
iPhone用でコネクタはLightningだが、この変換アダプタを使えばAndroidなどのType-C端末でも使える。

Enjoy!

カテゴリー: ガジェット タグ: , , , , , ,

株主になりました

2021 年 11 月 25 日 コメントはありません

久し振りにバイクを買いました。破産寸前です。

今本気でこのブログの収益でアーリーリタイアを夢見てて、将来は色々なモノやコトをレビューをしながら生きていきたいと思っています。
(※現状の収益は雀の涙にもなりません。昨今ではドメイン代もサーバー代も厳しいほどです)
そのためにはこれからレビューを厚くしていかねばなりません。
そういうこともあり、パソコンに続き、バイクをレビューのために買いました。これもお仕事。

私が購入したバイクは大昔に乗っていたスーパーカブです。
はい、株主になりました。

カブは配達のアルバイトで一時乗っていたんですよね。
スペックを見て当時驚いたのを覚えています。
リッター100km超えの超低燃費。何と恐ろしい省エネ。ガソリン車では地上最強でしょうね。
グレタも見習いやがれ。

さて、当時はダサいという扱いだったカブですが、私は密かにいいな、と思っていました。
例によって時代が私に追いついたのか、数年前からブームですよね。
オシャレという扱いになってきていると思います。

選んだのは110ccです。
いわゆる原付二種で一番いいカテゴリだと思います。

【メリット】
・法定速度が出せる
・二人乗り可能
・税金が低い
・保険料が安い
・駐輪しやすい

【デメリット】
・二輪免許が必須
・高速道路は走行不可

そして実は今回購入したのは中古です。
JA07という古い型(110ccの初期型)ですが、走行距離は1万kmもなく、程度も悪くなさそうでした。
JA07と最新のJA44は国産で、その間のJA10は中国産だそうです。
ただ国産と言っても、組み立て工場でしょうし、使われている色んなパーツは海外製も少なくないはず。
それにしても本田の海外戦略は大したもんだと思う。

車両本体はほぼノーマルな様でしたが、装備は色々加えられていました。
例えばフォグランプやUSB電源ポートなど。
ベトナムキャリアなる物まで付いていてびっくり。
タンデムシートは付属していませんでしたが、今のところ必要ないので付いていたリアボックスのままです。

スーパーカブってギアが独特というか、スクーターや自動二輪しか乗ったことがない人にはかなり違和感があると思います。
ただこれは慣れると意外に乗りやすいんですけどね。なにせ日本国中で数十年に渡って新聞配達や郵便配達に使われているくらいなので。

買ったバイクも調子は悪くないです。
昔と違って、セルスターターなんかも付いていてびっくり。昔はキックでエンジンかけていた記憶がある。
バイクには詳しくないけど、キャブレターからインジェクションという仕組みに変わったようですね。

ヘルメットも色々悩んだけどフルフェイスにすることにしました。
選ばれたのはAGVというイタリアメーカーの。
昔被っていたAraiにしようと思っていたのですが、今見るとダサいなと感じました。あれ、こんなにカッコ悪かったっけ..?!
AGVは欧米市場がメインで、当然欧米人向け商品ですが、日本で正規販売されている物はアジアンフィットということで日本人向けになっているそうです。

ということでまたレビューしていきたいと思います。

「好きなことで生きていく」にはまだまだ険しい道のりだ。

カテゴリー: レビュー タグ: , ,
スポンサーリンク
スポンサーリンク