Skip to Content

AI Weekly Papers Nov. 12~

今週のAI論文のabstractを3行で


はじめに

今週ののAI研究動向を概観すると、様々な分野で新たな進展が見られます。例えば、自然言語処理(NLP)から画像処理、インタラクティブエージェント、レコメンダーシステムに至るまで、幅広い応用研究が行われています。

自然言語処理の分野では、Prompt Engineering a Prompt Engineer と The Chosen One: Consistent Characters in Text-to-Image Diffusion Models の2つの論文が注目に値します。前者は大規模な言語モデルの能力を更に引き出すためのプロンプト設計手法を提案しており、後者ではテキストからの画像生成モデルにおいて、一貫したキャラクター表現の生成に取り組み、物語性やゲーム開発アセット設計に革命をもたらしています。

次に、インタラクティブエージェントに関連する進歩ですが、JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models と GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation などの論文が出版されています。特に注目すべきは、前者のJARVIS-1で、マインクラフトの世界で複数の課題を解決するためのエージェントを開発し、記憶を組み込んだ多モード言語モデルを用いている点です。

画像処理においては、Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks が、画像キャプションからオブジェクト検出まで様々なタスクを単一のプロンプトベースの表現で効果的にこなす新たなビジョンファウンデーションモデルを提案しています。

また、レコメンダーシステムの分野では、Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems が、トランスフォーマーアーキテクチャを駆使した機能相互作用学習手法で、Google Playにおけるアプリランキングモデルの向上に貢献しています。

これらの進展は、AIがますます洗練され、日常生活やビジネスにおいても直接的なインパクトを与える時代になっていることを示唆しています。各分野でのイノベーションは、工夫された技術の応用によって実生活に意義のある価値を提供し続けており、AIの進化がどれだけ迅速かつ多様な方向に広がっているかが見て取れます。

論文一覧

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

link: Arxiv Published: 2023-11-10

  • What: この研究を一言でいうと, オープンワールドマルチタスクエージェントのメモリ拡張マルチモーダル言語モデルです。
  • Method: この研究では、視覚情報と人間の指示をマッピングするために事前学習されたマルチモーダル言語モデルを使用しています。
  • Novelty: この研究の新規性は、マルチモーダルなメモリを使い、オープンワールドのタスクを進化させる能力を持つエージェントを開発したことです。

Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs

link: Arxiv Published: 2023-11-09

  • What: Lumosは統一されたデータ形式とオープンソースの大規模言語モデル(LLMs)に基づくモジュラーアーキテクチャを使用して言語エージェントを訓練するための新しいフレームワークです。
  • Method: Lumosは、計画、語りかけ、実行の3つのモジュールで構成され、高レベルのサブゴールをツールに依存しない形で具体化する計画モジュール、低レベルのアクションによって具体化される語りかけモジュール、さまざまなツールとAPIを利用して実行モジュールがアクションを実行するという手法を用いています。
  • Novelty: Lumosは、統一されたデータとモジュラーデザインを活用することで、現在の最先端エージェントと比較可能かそれ以上のパフォーマンスを達成し、さらに以下の主だった利点を示しています:(1)Lumosは、複雑な質問応答とWebのタスクでは、GPT-4/3.5ベースのエージェントを上回り、数倍大きいLLMエージェントと同等のパフォーマンスを達成します。数学のタスクでは、GPT-4/3.5ベースのエージェントを同等のパフォーマンスで上回ります。(2)Lumosは、従来のトレーニング方法や思考の連鎖を使用したエージェントよりも優れたパフォーマンスを示します。(3)Lumosは、未知の対話型タスクに効果的に一般化し、大きなLLMベースのエージェントを上回り、専門のエージェントのパフォーマンスを超える能力を持っています。

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

link: Arxiv Published: 2023-11-10

  • What: この研究を一言でいうと「多様なビジョンタスクに統一された表現を提供する高性能なビジョンモデル」
  • Method: この研究ではシーケンス・トゥ・シーケンスの構造を採用して、Florence-2を訓練し、多様かつ包括的なビジョンタスクを実行する
  • Novelty: この研究の新規性は、テキストプロンプトをタスク指示として受け付け、テキスト形式で望ましい結果を生成する能力を持つビジョンモデルであることであり、ゼロショットおよびファインチューニングの能力においても先駆的である

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

link: Arxiv Published: 2023-11-10

  • What: この研究を一言でいうと、オーソゴナルフィネチューニングのパラメータ効率化を提案するものである。
  • Method: この研究では、情報伝送の観点からオーソゴナルフィネチューニングを検討し、バタフライ構造を用いた効率的なパラメータ化手法を提案している。
  • Novelty: この研究の新規性は、バタフライ構造を用いた効率的なパラメータ化手法をオーソゴナルフィネチューニングに応用し、一般化されたオーソゴナルフィネチューニングフレームワークを導入する点にある。

Prompt Engineering a Prompt Engineer

link: Arxiv Published: 2023-11-09

  • What: Prompt engineering a prompt engineer
  • Method: 複雑な推論能力を持つ言語モデルを指導するためのメタプロンプトを作成・分析し、改善することによる最適なプロンプトエンジニアリングを実現している。
  • Novelty: メタプロンプトにステップバイステップの推論テンプレートや文脈の明示などの要素を導入し、さらなるパフォーマンスの向上を実現している。また、最適化の概念を言語化した手法を導入し、その効果を調査している。

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

link: Arxiv Published: 2023-11-09

  • What: この研究を一言でいうと、マルチモーダルな自己回帰モデル
  • Method: この研究は、異なる特性を持つモダリティを個別に処理するために、時間に合わせたモダリティとコンテキストモダリティの両方のための自己回帰モデルを提案している。また、ビデオとオーディオを連続したスニペットに分割し、それぞれの表現を自己回帰的に処理する方法を提案している。
  • Novelty: この研究の新規性は、モダリティごとに個別の処理を行い、ビデオとオーディオの長いシーケンスをコンパクトで表現力のある表現に変換するためのCombinerメカニズムを提案している点である。また、既存のマルチモーダルなベンチマークを上回る結果を達成している。

Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

link: Arxiv Published: 2023-11-10

  • What: リコメンドシステム向けの異種特徴量間相互作用の学習において、ヘテロジニアスなトランスフォーマーを用いた手法
  • Method: トランスフォーマーアーキテクチャとアテンション層を使用し、特徴量間の相互作用を自動的に捉える
  • Novelty: ヘテロジニアスな特徴量間相互作用を考慮した改良されたセルフアテンション層を提案し、高速な推論を実現する

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

link: Arxiv Published: 2023-11-13

  • What: 文章から無限かつ制御可能なキャラクターアニメーションを合成する
  • Method: 大規模言語モデルを使用してテキストからモーションをスケジューリングし、モーションマッチングや軌道制約を組み込んだテキスト駆動型のモーション検索スキームを開発
  • Novelty: 文章からの無限長のモーション合成と軌道制約に沿った運動トラジェクトリの生成

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

link: Arxiv Published: 2023-11-13

  • What: スマートフォンのGUIナビゲーションタスクにおけるGPT-4VベースのエージェントであるMM-Navigatorについての研究です。
  • Method: この研究では、MM-Navigatorを使用してiOS画面データセットとAndroid画面ナビゲーションデータセットをベンチマークし、画面解釈、アクション推論、アクションローカライゼーションの機能を通じたゼロショットGUIナビゲーションの優れた性能を実証しています。
  • Novelty: この研究の新規性は、大規模な多モーダルモデルであるGPT-4Vを利用して、スマートフォンのGUIナビゲーションタスクを効果的に行うことができることを示しています。

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

link: Arxiv Published: 2023-11-13

  • What: 多言語、多様性、モダリティ、モデル、タスクをカバーした大規模言語モデルのベンチマーク
  • Method: MEGAVERSEベンチマークデータセットを使用し、GPT-3.5-Turbo、GPT4、PaLM2、およびLlama2などの最先端のLLMを評価
  • Novelty: 英語以外の言語におけるLLMの評価に焦点を当て、22のデータセットによるMEGAVERSEベンチマークを拡充

Trusted Source Alignment in Large Language Models

link: Arxiv Published: 2023-11-12

  • What: Large language modelsの信頼できるソースに対するアライメントを評価すること
  • Method: FactCheckQAという評価データセットを用いた評価プロトコルを提案し、PaLM-2を対象に実験を行った
  • Novelty: 信頼できるソースにアライメントするためのモデルの性能評価手法の提案と、モデルのサイズをスケールアップすることでの性能向上を示したこと

LayoutPrompter: Awaken the Design Ability of Large Language Models

link: Arxiv Published: 2023-11-11

  • What: レイアウト生成タスクでの大規模言語モデルの利用による、高品質なレイアウトの自動生成方法
  • Method: 大規模言語モデルを用いた入出力シリアライズ、動的な模範的提示例の選択、レイアウトのランキング
  • Novelty: 訓練や微調整を必要としない、使いやすく汎用性のあるレイアウト生成手法

Fine-tuning Language Models for Factuality

link: Arxiv Published: 2023-11-14

  • What: LLMのfactuality向上のためのfine-tuning手法
  • Method: 外部知識ベースや大規模モデルの信頼スコアを利用したfactuality判定と、preference rankingによるfine-tuning手法
  • Novelty: 既存の検索システムや新しいretrieval-freeアプローチによるfactuality preference rankingsの自動生成により、LLMのfactualityが向上することを示した

A Survey on Language Models for Code

link: Arxiv Published: 2023-11-14

  • What: この研究を一言でいうと、コードのための言語モデルに関する調査です。
  • Method: この研究は、GPT系の言語モデルと専門的にコードに対して事前学習されたモデルについて調査しています。
  • Novelty: この研究の新規性は、コードモデリングの歴史的な変遷やコード特有の要素(AST、CFG、ユニットテストなど)に焦点を当て、現在のコードモデリングの状況や課題、将来の方向性を明らかにしている点です。

Instruction-Following Evaluation for Large Language Models

link: Arxiv Published: 2023-11-14

  • What: 言語モデルのInstruction-Followingの評価手法
  • Method: Instruction-Following Eval (IFEval)という評価ベンチマークを導入
  • Novelty: 一連の検証可能な指示に焦点を当てた、再現性が高く簡単に実施できる評価手法の導入

GRIM: GRaph-based Interactive narrative visualization for gaMes

link: Arxiv Published: 2023-11-15

  • What: ゲームデザイナーが作業を補助するための大規模生成テキストモデルを使用したインタラクティブな物語の可視化システム
  • Method: 大規模生成テキストモデルとグラフベースのシステム
  • Novelty: ゲームデザイナーが物語の編集を補助するための自動生成サブグラフ機能

PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers

link: Arxiv Published: 2023-11-15

  • What: LLMを用いた文章生成アシスタントのパーソナライズ化
  • Method: 様々な手法を用いてパーソナライズされた文章生成アシスタントを提案
  • Novelty: パーソナライズに適したユーザーの文書を選択するためのトレーニングデータ選択方法と、パーソナライズのための文書の効果を追跡するKL-divergence objectiveの提案

UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations

link: Arxiv Published: 2023-11-14

  • What: この研究を一言でいうと「 uncommonsense abductive reasoning」です。
  • Method: この研究は、オンラインイミテーション学習アルゴリズムを用いて、UNcommonsenseコーパスを使って言語モデルをトレーニングしました。
  • Novelty: この研究の新規性は、通常ではない、予期しない、ありえない状況を扱う能力をモデル化することを目指しており、人間の説明者とモデルの性能の違いや、モデルのトレーニング手法に関して考察を行っています。

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

link: Arxiv Published: 2023-11-16

  • What: テキストから画像生成モデルにおける一貫したキャラクター生成のための手法
  • Method: イテレーションの手法を使用し、一貫性のあるキャラクター生成を行う
  • Novelty: 既存の手法と比較して、プロンプトの合致とキャラクターの一貫性をより適切にバランスさせる手法を提案している