LLM(Large Language Model)よりLAM(Large Action Model)に注目しています。どうも。K.H.です。
さて、生成AIにわか勢でありますが、LLMとLAMの違いはわかりますか?
LLMとLAMの違い
LLM (大規模言語モデル)とLAM(大規模アクションモデル)は、どちらもAIの一種ですが、得意な分野が異なります。LLM(大規模言語モデル)
- 得意なこと: テキストの生成、翻訳、質問応答など、言語に関するタスク
- 特徴: 膨大なテキストデータを学習し、人間のような自然な文章を生成できる
- 例: ChatGPT、Bard
LAM(大規模アクションモデル)
- 得意なこと: 言語理解に基づいた具体的な行動の実行
- 特徴: LLMの言語理解能力に加え、現実世界やデジタル環境でアクションを起こすことができる
- 例: スマートホームデバイスの制御、タスクの自動化
まとめ
- LLM: 言葉の使い手
- LAM: 行動の担い手
具体例:
- LLMに「今日の天気は?」と質問すると、「今日の東京の天気は晴れです。」と答えてくれます。
- LAMに「明日の朝7時にアラームをかけて」と頼むと、実際にアラームを設定してくれます。
以上がGeminiによる解説です。
ようは、ただ質問に答えるのがLLM、質問に対してどう対処するかがLAMだと認識しています。
AIってActionが理解出来てこそなのでは?出来てこそ本当に秘書とかになれたり、人間の仕事を奪うのかなとか思ったりします。
あ、でもAIの研究してるわけではないし、にわかなので一旦調べてくださいね。
でも、ウェアラブルデバイスとかでLAMを用いていろいろ予約したり、決済したりとか出来たらSFチックではあるけど、便利だし楽しいだろうな。
なんてことを考えています。
さて、今日の夕食は、友人がUberしたら向こうの手違いで来た大量のハンバーガーとポテトです。

RevolutのMetal会員だと付いてくるPicsart Proで生成してみた。
なかなかのクオリティ。
ちゃんとプロンプトの指示に従ってるし、そこそこリアル。
大量のハンバーガーとポテトをリアルな写真にして
プロンプトにはこう打ってるからね。
すごいな。AI、