アーカイブ

‘AI’ タグのついている投稿
スポンサーリンク
スポンサーリンク

DeepSeekが切り開くAIの未来:米中競争とオープンソースの新たな局面

2025 年 2 月 4 日 コメントはありません

DeepSeekが切り開くAIの未来:オープンソースと米中競争の新たな局面

近年、AI(人工知能)の分野で大きな話題を集めているのが、中国発のAI企業「DeepSeek」です。特に、トランプ政権のAI責任者であるデービッド・サックス氏が出演した「All-In Podcast」で取り上げられたことで、その存在感が一気に高まりました。DeepSeekは、AI業界においてどのような位置づけにあるのか、そしてその登場が米中競争やオープンソースの未来にどのような影響を与えるのか、深く掘り下げていきます。

DeepSeekの特徴:米中競争とオープンソースの波

DeepSeekの最大の特徴は、2つの点に集約されます。1つ目は、アメリカではなく中国の企業であること。2つ目は、R1モデルをオープンソース化したことです。この2つの特徴は、AI業界における米中競争と、クローズドソース(非公開)対オープンソース(公開)の議論に大きな影響を与えています。

特に、OpenAIが過去に他人のデータを無断で使用していた経緯がありながら、現在は「中国がデータを盗んだ」と主張している点は、皮肉とも言える状況です。DeepSeekの登場により、オープンソースを支持する層や、OpenAIに反感を持つ人々が「コスト1/20で無料配布するオープンソースモデル」を痛快だと感じ、盛り上がりを見せています。

中国のAI開発が急速に追い上げる

数週間前まで、業界関係者に「中国のAIモデル開発の遅れはどれくらいか」と尋ねると、6〜12か月と答えられていました。しかし、DeepSeekの登場により、その遅れは3〜6か月に縮まったと見られています。これは、中国がAI分野で急速に追い上げていることを示す重要な出来事です。

DeepSeekは「600万ドルでR1モデルを開発した」と主張していますが、ここには注意が必要です。600万ドルは最終的なトレーニングコストであり、メディアが「中国企業は600万ドル、アメリカ企業は10億ドル」と比較するのは正確ではありません。実際、OpenAIやAnthropicも最終トレーニングランには数千万ドルを費やしています。

DeepSeekの技術革新:制約が生むイノベーション

DeepSeekの技術的な革新も注目に値します。同社は、NvidiaのCUDAを使わずに、PTXというレイヤーを活用しています。PTXはアセンブラ言語に近く、チップの素の部分と直接やりとりするイメージです。このアプローチは、従来の常識を破るものであり、制約がイノベーションを生む好例と言えます。

西側の企業は資金に余裕があるため、これまでアセンブラレベルのアプローチを取ってきませんでした。しかし、DeepSeekはリソースが限られていたからこそ、新しい手法を編み出した可能性があります。このような技術革新は、AIモデルのコストやスピードを下げ、価値創造の場をモデル層から上流に移行させる可能性を秘めています。

オープンソース化とコモディティ化の未来

DeepSeekの登場により、AIモデルはますますコモディティ化(汎用化)していくと考えられます。モデルが安く高性能化するにつれ、付加価値はアプリケーション層やハードウェア領域に移行するでしょう。これは、電力が普及した際に、電気そのものよりもそれを活用したビジネスが儲かった歴史と似ています。

例えば、マイクロソフトは既に自社サーバーにR1モデルを稼働させています。これは、R1がオープンソースとして公開されているからこそ可能なことです。今後、AIモデルがストレージのようにコモディティ化し、アプリケーション層が参入障壁となる可能性もあります。

米中競争と地政学的な要素

DeepSeekの戦略には、米中競争という地政学的な要素も大きく影響しています。中国のコピーの速さは非常に高く、コピーの繰り返しの中でイノベーションが起きることも少なくありません。例えば、NvidiaのGPUをシンガポール経由で取得している疑いがあり、規制をかければかけるほど新たなルートを見つけるだけという現状もあります。

また、中国の大企業は政府が干渉しやすい環境にあり、中央が設備投資を行い、派生モデルを作る展開もあり得ます。このような状況下で、RedditやQuora、ニューヨーク・タイムズ、ワシントン・ポスト、ディズニーなどを買い占め、独占データを使う戦略が生まれるかもしれません。

結論:AIの未来はアプリケーション層に

DeepSeekの登場は、AI業界に大きな波紋を投げかけています。オープンソース化とコモディティ化が進む中で、AIモデルそのものの価値は低下し、アプリケーション層やハードウェア領域に新たな価値が生まれる可能性が高まっています。また、米中競争の文脈においても、中国の急速な追い上げが顕著になっています。

今後、AIがさらに普及し、コストが下がることで、新たなアプリケーションやビジネスモデルが登場するでしょう。その中で、DeepSeekのような企業がどのような役割を果たすのか、注目が集まります。AIの未来は、モデルそのものではなく、それを活用するアプリケーション層にあると言えるでしょう。

Macで大規模言語モデルをファインチューニングする方法

2025 年 1 月 16 日 コメントはありません

MacでLLMをファインチューニングする方法

近年、大規模言語モデル(LLM)の開発が進み、誰でも自分専用のLLMを作成することが可能になりました。特に、Macを使ってLLMをファインチューニングする方法は、多くの人にとって興味深いトピックです。この記事では、Mac上でLLMをファインチューニングする方法について、初心者から中級者まで理解しやすいように解説します。

LLMの仕組みとは?

LLM(大規模言語モデル)は、テキストをトークンと呼ばれる単位に分割して処理します。例えば、英語のテキストを入力すると、コンピュータはそれを1つ1つのトークンに分解し、それぞれのトークンを基に次の単語を予測します。このプロセスは、確率的な計算に基づいており、LLMは前の単語から次の単語を予測する形で動作します。

例えば、「先生のように説明して」と指示すると、LLMはトレーニングデータから「先生が言いそうな言葉」を選び出して回答を生成します。この仕組みを理解することで、LLMの動作原理をより深く理解することができます。

MacでLLMをファインチューニングする方法

MacでLLMをファインチューニングするためには、いくつかのステップを踏む必要があります。以下に、その手順を詳しく説明します。

1. 環境のセットアップ

まず、Mac上でLLMをファインチューニングするための環境を整えます。Python 3.11を使用し、必要なライブラリをインストールします。特に、mlxというライブラリを使用します。このライブラリは、Mac上でLLMを効率的に動作させるために設計されています。

bash
# mlxライブラリのインストール
pip install mlx

2. モデルのダウンロード

次に、ファインチューニングするためのベースとなるLLMモデルをダウンロードします。例えば、Hugging Faceから「Llama 3.2」というモデルをダウンロードすることができます。Hugging Faceのアカウントを作成し、モデルの使用申請を行い、ダウンロードします。

bash
# Hugging Faceからモデルをダウンロード
huggingface-cli download meta-llama/Llama-3.2

3. データの準備

ファインチューニングには、トレーニング用のデータが必要です。データは、JSONL形式で準備する必要があります。JSONLファイルは、各行が独立したJSONオブジェクトとなっており、LLMが理解できる形式でデータを提供します。

例えば、質問と回答のペアをデータとして用意し、それをJSONL形式に変換します。データの80%をトレーニング用、10%を検証用、10%をテスト用に分割します。

bash
# データの例
{"text": "質問: LLMとは何ですか?", "answer": "LLMは大規模言語モデルの略称です。"}
{"text": "質問: ファインチューニングとは?", "answer": "既存のモデルを特定のタスクに適応させることです。"}

4. ファインチューニングの実行

データの準備が整ったら、実際にファインチューニングを実行します。以下のコマンドを使用して、Mac上でファインチューニングを行います。

bash
# ファインチューニングの実行
mlx train --model meta-llama/Llama-3.2 --data /path/to/data

このコマンドを実行すると、指定したモデルがデータに基づいてファインチューニングされます。MacのGPUを活用することで、処理時間を短縮することができます。

5. 新しいモデルの作成

ファインチューニングが完了すると、新しいウェイトが生成されます。このウェイトを使用して、新しいLLMを作成します。以下のコマンドを使用して、新しいモデルを生成します。

bash
# 新しいモデルの作成
mlx create --model meta-llama/Llama-3.2 --adapter /path/to/adapter --output LMNew

これで、ファインチューニングされた新しいLLMが完成します。このモデルは、特定のタスクやデータに特化した回答を生成することができます。

ファインチューニングの応用例

ファインチューニングを活用することで、さまざまな応用が可能です。例えば、以下のようなケースが考えられます。

  • 自分専用のチャットボットを作成し、メールやチャットのやり取りを自動化する。
  • 特定の分野(例:映画、音楽、技術)に特化したLLMを作成し、専門的な質問に回答する。
  • 地域の方言や特定の話し方に合わせたLLMを作成する。

これらの応用例を通じて、LLMの可能性をさらに広げることができます。

結論

Macを使ってLLMをファインチューニングする方法は、初心者でも挑戦しやすいプロセスです。環境のセットアップからデータの準備、ファインチューニングの実行まで、ステップバイステップで進めることができます。ファインチューニングを活用することで、自分だけのカスタマイズされたLLMを作成し、さまざまなタスクに活用することが可能です。

ぜひ、この記事を参考にして、自分だけのLLMを作成してみてください。ファインチューニングの世界に足を踏み入れることで、AIの可能性をさらに広げることができるでしょう。

Dify v0.15.0の新機能「親子検索」で知識検索を革新

2025 年 1 月 7 日 コメントはありません

Dify v0.15.0: 親子検索で知識検索を強化

Dify v0.15.0がリリースされ、新機能「親子検索(Parent-child Retrieval)」が導入されました。この機能は、Retrieval-Augmented Generation(RAG)システムをさらに洗練させ、AIが生成する応答の精度と文脈の豊かさを向上させることを目的としています。この記事では、この新機能の詳細と、それがどのように知識検索の課題を解決するのかを深く掘り下げます。

親子検索とは?

親子検索は、検索クエリに対して小さな「子チャンク」をマッチングさせ、その周辺の文脈を提供する「親チャンク」と組み合わせることで、より正確で文脈豊かな応答を生成する技術です。これにより、従来の知識検索システムが抱えていた「文脈と精度のジレンマ」を解決します。

従来のシステムでは、検索結果が断片的すぎて必要な文脈が欠落していたり、逆に情報が広すぎて不必要な詳細が含まれることがありました。親子検索は、このバランスを最適化し、ユーザーが必要とする情報を効率的に見つけられるようにします。

なぜ親子検索が重要なのか?

知識検索システムにおいて、チャンクサイズ(情報の塊の大きさ)は応答の精度と包括性に大きな影響を与えます。小さなチャンクは特定の情報に焦点を当てるのに適していますが、文脈が不足しがちです。一方、大きなチャンクは文脈を提供しますが、不必要な情報が含まれることがあります。

親子検索は、この問題を解決するために、小さな子チャンクでクエリに直接関連する情報を特定し、その周辺の親チャンクで文脈を補完します。これにより、AIはより正確で文脈に即した応答を生成できるようになります。

親子検索の仕組み

親子検索のプロセスは以下のように進みます:

  1. クエリの解析: ユーザーが入力したクエリを解析し、関連するキーワードやトピックを特定します。
  2. 子チャンクのマッチング: クエリに最も関連する小さな情報の塊(子チャンク)を検索します。
  3. 親チャンクの取得: 子チャンクの周辺にある大きな情報の塊(親チャンク)を取得し、文脈を補完します。
  4. 応答の生成: 子チャンクと親チャンクを組み合わせて、AIがより正確で文脈豊かな応答を生成します。

親子検索のメリット

  • 精度の向上: 小さな子チャンクを使用することで、クエリに直接関連する情報を正確に特定できます。
  • 文脈の強化: 親チャンクを活用することで、応答に必要な文脈を提供し、ユーザーが情報を理解しやすくなります。
  • 効率性の向上: ユーザーが必要とする情報を迅速に見つけられるため、時間と労力を節約できます。

今後の展望

Dify v0.15.0のリリースは、知識検索システムの進化における重要な一歩です。親子検索の導入により、AIが生成する応答の品質が向上し、ユーザー体験がさらに向上することが期待されます。今後もDifyは、ユーザーのニーズに応えるために新たな機能や改善を続けていく予定です。

あなたは、この新機能をどのように活用する予定ですか?ぜひコメントでご意見をお聞かせください。

結論

Dify v0.15.0の親子検索は、知識検索の精度と文脈のバランスを最適化し、AIが生成する応答の品質を向上させる画期的な機能です。この機能を活用することで、ユーザーはより効率的に必要な情報を見つけられるようになります。ぜひ、Dify v0.15.0を試して、その効果を実感してください。

ライフログに、憧れて。

2021 年 12 月 5 日 コメントはありません

ライフログ、というのに数年前から興味がある。
自分の人生を記録する。

「3年前の今日、自分はどこにいて、誰と会って、何をしていたのか、そして何を喋っていたか」
あなたには分かるだろうか。
私には分からない。だが分かるようになりたい。
だからそれをデジタルで記録する。
記録は、より自動に近い半自動が望ましい。
ボタンを押すと記録が始まり、再度押すとストップするみたいな。

テクノロジーが年々進歩し、色んなモノがネットに繋がった。
そろそろそのようなコンセプトの製品が出てきてもいいと思っていた。
正確に言うと、この数年間でそういう商品が出てきつつあるが、すぐに消え、残念な状況だった。
ライフログ的な行為に興味がある人は少ないのだろうか。

だが今回は違って、光明が見えている。

私のライフログの目標はこうだ。
1) 場所の記録。何月何日の何時に自分がどこにいたのかを残す。
2) 誰と会って、何をしていたかの記録。これは写真やビデオとして残す必要がある。
3) 何を話していたかの記録。音声を残すとともにそれを後から容易に探せるようにしておきたい。

1) 場所の記録
実はこれはすでにできていて、記録は取れている。
SilentLog
このアプリを入れれば簡単だ。何も考えずに残せるのが素晴らしい。
これ以外に、自分でもウェブアプリを作り、ランドマーク的なところを訪れた際、クラウドに記録を残している。

2) 誰と会って、何をしていたかの記録
これは画像やビデオに残しておけばいい。ただこれが意外に難しい。
アクションカメラなど身体に着けるカメラは現在多く出ているが、どれも一長一短。
電池の持ち、大きさ、ソフトウェア、完成度、保存方法。色んな問題がある。
面倒でない方法にしないと、続かない。それが人の性。

現状において一番最適なのはやはりスマートフォンだろう。
スマホのカメラは進化が止まらないが、ライフログとして残す映像は必ずしも高解像度である必要はない。
残す、という行為にもコストがかかるわけだし。ローカルに残そうが、クラウドにアップしようが、お金がかかるのだ。
(それでも一番の敵は面倒くささだと思う。面倒だと絶対に続かない)
これを解決するには、スマホに、例えば30分に1回写真撮影を自動でするアプリを入れればよい。
そうして保存した写真を、Google Photosなどのクラウドに自動でアップロードする仕組みも、スマホなら構築は容易だ。

身体に装着するパーツも今は数多く製品化されているのも助かる。
アクションカメラ用のマウント部品を試せばしっくり来るのもあるだろう。
私は首から吊り下げるタイプを入手した。

これを首から下げて、スマホを着けておけば、勝手に写真を残してくれる。
あとはたまにGoogle Photosのアプリを開けば、保存した写真を自動でアップロードしてくれて残せる。

3) 何を話していたかの記録
これは簡単であり、難しい。
会話の記録は、それこそ数十年以上前からボイスレコーダーがあり、今はどのスマホでも使える。
つまり、会話の記録自体は非常に簡単ですぐに始められる。

だが想像してほしい。1日に10時間を超える音声の記録をし、それをどのように活かすのか。
授業や重要な商談の話を、その都度記録するならそれでもいいのだが、あくまでライフログ。
後から容易に検索できねば意味がない。
ということで、録音した音声をテキスト化する必要がここで出てくる。
話し声をテキスト化してしまえば、そのテキストと音声ファイルを一緒に保存することで、後からの検索が容易になる。
会話を文字検索できるようになるわけだ。
「あの話はいつしたんだっけ?」「あの時何を話したっけ?」「あの人何て言ってたっけ?」
これを確認したい時、Google検索のように出来たら凄いと思いません?!

ここがテクノロジーの最前線の話になる。AIだ。

キーボードが苦手な人のために、音声入力(音声の認識)はかなり前からあった。
だが精度が非常に低く、しかも予め自分の声を登録する必要があるなど、使い勝手が非常に悪かった。
結局キーボードで入力した方が速かった。

次に出てきたのがクラウドでの音声認識。
アプリ上などで声を録音し、その音声をクラウドに上げ(あるいは自動で)、クラウド側で処理し、端末にテキストを返す。
これはサービスにもよるが、かなり精度が良くなった。
しかし、常にオンラインでないと使えないし、サービスの多くは有料だったり、制限があったりした
(日本の会社でも色んなサービスの販売がされているが、そのほとんどがバックエンドで米国系IT企業のサービスが動いているようだ)
決してお手軽に使えたわけではなかった。

そうした中、圧倒的存在感を示したのがつい先ごろ発表・発売されたGoogleのスマホ、Pixel 6である。
このスマホの何が凄いのかというと、最新SoCによる、AIを活かした音声認識能力だ。
ありがたいことに日本語にも対応しての登場となった。

言語処理AIにかなり特化したCPU、Tensorを搭載し、何とオフラインでも音声をしっかり認識する。
そしてその認識力は私が知る限りではトップクラスだ。
試しに下の動画を見ていただきたい。驚くはずだ。
しかもこれはオンライン状態ではなく、オフラインの状態、スタンドアロンで実現しているのだから舌を巻く。
これがわずか数万円で自由に使える。凄すぎ。

テキスト化できた音声は使える範囲が大きく広がる。
議事録的に使うのも余裕だろう。
このスマホでは当然のごとく翻訳機能まで備えている。
これだけしっかり認識できれば翻訳の方も捗り、かなり優秀であろう。

もうさ、オートメモポケトークもいらないわ。
全部このPixel 6が一台あればいけるじゃん。

なお、実験したところ、例えばインターバル & 連写撮影!バックグランドカメラというインターバル撮影アプリとボイスレコーダーアプリは同時に使えるようだ。
ようするに、バックグラウンドで写真を撮影しながら、声も録音できるということ。

ということで、スマホがあれば自分の望むライフログが実現できそうだ。
今はその未来感にワクワクしている。

ちなみに本格的な録音や撮影の際はこのマイクを使おうと思っている。
iPhone用でコネクタはLightningだが、この変換アダプタを使えばAndroidなどのType-C端末でも使える。

Enjoy!

カテゴリー: ガジェット タグ: , , , , , ,
スポンサーリンク