Skip to Content

AI Weekly Papers Sep. 25~

今週のAI論文のabstractを3行で


主にHuggingface daily papersから注目度の高い記事をまとめています。 今週のAI関連の論文では、多岐にわたる研究が発表されました。中でも注目すべきは、大規模言語モデルを活用したリポジトリレベルのコーディングや、高品質な動画生成のモデルの学習に関する研究です。また、言語モデルの認知的道徳発達の調査や、Vision Transformersの性能向上のための新しい手法、効率的な3Dコンテンツ生成の手法など、多様な技術が提案されています。

特に、CodePlanやVideoDirectorGPTのようなフレームワークの提案は、LLMの実際のアプリケーションへの適用における新しい可能性を示唆しており、今後の研究の方向性や実際のアプリケーション開発において重要な指針となり得るでしょう。

概要

  1. リポジトリレベルのコーディング:

    • CodePlan: LLM(Large Language Models)を活用し、リポジトリレベルのコーディングタスクの解決を目指すフレームワークを提案。依存性解析や影響解析の手法を組み込んでいます。
  2. 動画生成:

    • LAVIE: テキストから動画への変換を目的とした高品質な動画生成手法。時間的自己注意機構やロータリーポジショナルエンコーディングを活用しています。
    • VideoDirectorGPT: LLM (特にGPT-4) を活用して複数シーンの一貫性を持ったビデオ生成のフレームワークを提案。
  3. 言語モデルの道徳的評価:

    • Exploring Large Language Models' Cognitive Moral Development: LLMの認知的道徳発達を調査するためのブリッジング手法を提案。道徳的思考能力の評価フレームワークの構築に焦点を当てています。
  4. 画像生成:

    • Emu: 事前学習済みモデルを品質調整(quality-tuning)を用いて再調整し、高品質な画像生成を目指す研究。少数の高品質画像を用いた教師付きfine-tuningを特色としています。
  5. 対話型システム:

    • DeepSpeed-VisualChat: 複数の画像とテキストを組み合わせた対話型システムを提案。マルチモーダル因果注意メカニズムを導入して複数ラウンドの対話の実現を目指しています。
  6. モデルの圧縮と適応:

    • QA-LoRA: LLMをエッジデバイスに展開するための量子化対応の低ランク適応アルゴリズムの提案。メモリと時間の使用量の削減を目指しています。
  7. 3Dコンテンツ生成:

    • DreamGaussian: 3D生成タスクのための生成型ガウススプラッティング手法。高品質なテクスチャ付きメッシュの生成を目的としています。
  8. マルチモーダルモデルのアラインメント:

    • Aligning Large Multimodal Models with Factually Augmented RLHF: 複数モーダルを活用したモデルのアラインメント問題に対する新しい手法を提案。

これらの研究は、AIのさまざまな分野での最新のトピックや問題解決の方法に関する洞察を提供しています。

CodePlan: Repository-level Coding using LLMs and Planning

link: Arxiv Published: 2023-09-21

  • What: リポジトリレベルのコーディングを解決するためのCodePlanというフレームワークを提案している
  • Method: LLM(Large Language Models)に基づいたプランニングアルゴリズムを使用しており、依存性解析や影響解析を組み合わせている
  • Novelty: LLMを利用したリポジトリレベルのコーディングタスクを解決するためのプランニングアルゴリズムの提案は新規性がある

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

link: Arxiv Published: 2023-09-26

  • What: 高品質な動画生成のためのモデルの学習を目指す
  • Method: 事前学習されたテキストから画像への変換モデルを用いて、テキストから動画への変換モデルを学習
  • Novelty: 簡単な時間的自己注意機構とロータリーポジショナルエンコーディングの組み合わせによって、動画データに内在する時間的相関を適切に捉えることができることを示し、画像と動画の同時微調整のプロセスが高品質で創造的な結果を生み出すことを検証

Exploring Large Language Models' Cognitive Moral Development through Defining Issues Test

link: Arxiv Published: 2023-09-23

  • What: 大規模言語モデルの認知的道徳発達を調査するための研究
  • Method: ブリッジング手法を用いて、心理学とAIの知識を結び付けて評価フレームワークを構築し、道徳的思考能力を評価
  • Novelty: 道徳的思考能力をMoral ConsistencyとKohlbergの道徳発達段階に基づいてPsychometric Assessment Tool-Defining Issues Testを用いて評価する新しいアプローチを提案

Vision Transformers Need Registers

link: Arxiv Published: 2023-09-28

  • What: Vision Transformersの問題を解消するための新しい手法
  • Method: 追加トークンを入力シーケンスに提供することによる解決策の提案
  • Novelty: Vision Transformerの機能マップと注意マップを滑らかにし、自己教師付きビジュアルモデルで新たな最高性能を達成する

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

link: Arxiv Published: 2023-09-26

  • What: VideoDirectorGPTは、一貫性のある複数場面のビデオ生成を可能にするフレームワークです。
  • Method: この研究では、大規模言語モデル(GPT-4)を用いてビデオの内容計画を行い、その結果を基に画像生成モデル(Layout2Vid)を制御する手法を提案しています。
  • Novelty: この研究の新規性は、LLMの知識をビデオ生成に活用し、シーン間の一貫性を保ちながらビデオを生成する手法の提案です。

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

link: Arxiv Published: 2023-09-27

  • What: 教育のためのチートシートを作成する研究
  • Method: 提案手法であるquality-tuningを使用し、事前学習済みモデルを再調整することで、高品質な画像生成を実現している
  • Novelty: 驚くほど少数の高品質画像を用いた教師付きfine-tuningによって、生成品質を大幅に改善している点が新規性となっている

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention

link: Arxiv Published: 2023-09-25

  • What: この研究を一言でいうと、複数画像とテキストの連携を持つ対話型システムのためのDeepSpeed-VisualChatフレームワークを提案している。
  • Method: この研究では、複数の画像とテキストの入力を効果的に管理するために、イベントの時間的な因果関係を考慮したマルチモーダル因果注意メカニズムを導入している。
  • Novelty: この研究の新規性は、既存のデータセットを使用してデータのブレンディング技術を利用し、複数のラウンドと複数の画像におけるシームレスな対話を実現している点である。また、70Bパラメーターモデルサイズまでのスケーラビリティを実証し、マルチモーダル言語モデルの大きな進歩を示している。

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

link: Arxiv Published: 2023-09-26

  • What: LLMをエッジデバイスに展開するために、量子化対応の低ランク適応(QA-LoRA)アルゴリズムを提案する。
  • Method: 量子化と適応の度合いを調整するために、グループ単位の演算を使用しています。
  • Novelty: QA-LoRAは、LLMの重みを量子化し、メモリと時間の使用量を削減することで、Fine-tuning中に低ランク適応を行い、正確性を損なうことなく量子化モデルに統合する能力を持っています。

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

link: Arxiv Published: 2023-09-28

  • What: DreamGaussianは効率的な3Dコンテンツ生成のための生成型ガウススプラッティング手法である。
  • Method: この研究はSDSに基づいた最適化による3D生成を行い、ガウススプラッティングモデルとメッシュ抽出、テクスチャの精緻化を組み合わせて効率的な生成を実現している。
  • Novelty: この研究の新規性は、3Dガウス関数の進行的な密集化を用いた3D生成タスクでの高速収束性の実現と、効率的なアルゴリズムによるガウス関数からテクスチャ付きメッシュへの変換、細部の精緻化を組み合わせることで、高品質なテクスチャ付きメッシュの生成がわずか2分で可能となり、既存手法と比較して約10倍の高速化が達成される点である。

Aligning Large Multimodal Models with Factually Augmented RLHF

link: Arxiv Published: 2023-09-25

  • What: Large Multimodal Models (LMM)の複数モーダルを活用したアラインメント問題に対して、Factually Augmented RLHFという手法を提案している。
  • Method: RLHFを複数モーダルのアラインメント問題に適応し、画像のキャプションや正解選択肢の情報を追加することで、報酬の改ざん現象を軽減し、性能を向上させる手法を提案している。
  • Novelty: RLHFをLMMに適用した初の研究であり、提案手法は従来の手法よりも性能が向上し、ホールシネーションのペナルティを重視した新たな評価ベンチマークも開発している。