SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
2023.02.16
AI技術開発部第5グループ 園部良介
株式会社ディー・エヌ・エー + 株式会社 Mobility Technologies
昨今の音楽・音響生成
2
目次
01|はじめに
02|MusicLM概観
3
01 はじめに
4
ChatGPTはWebアーカイブの不可逆圧縮?
5
2/9のThe New Yorkerの記事
❖ 全く同じ、正確な情報が返ってくるわけではないが、web上の膨
大な情報をチャットによって取り出せる
❖ 容量も小さい
❖ JPEGのアナロジー
➢ ChatGPTに聞くと間違った情報が返ってくるのは、画像上の潰れて文字
が見えなくなるようなことが起こっている?
➢ PNGなどと違って非可逆圧縮なJPEGのように、ChatGPTからもとの広大
なWebアーカイブは取り戻せない
ChatGPTはWebアーカイブの不可逆圧縮?
BREAKING
NEWS
L I V E
音声AI
2023年はじまった途端、音声生成周りのAIモ
デルを紹介するツイートが連日バズりにバ
ズっている[1][2]
[1]https://note.com/npaka/n/n48caad0f699f
[2]https://github.com/archinetai/audio-ai-timeline
L I V E
音声AI
2023年はじまった途端、音声生成周りのAIモ
デルを紹介するツイートが連日バズりにバ
ズっている[1][2]
[1]https://note.com/npaka/n/n48caad0f699f
[2]https://github.com/archinetai/audio-ai-timeline
清水さんの神資料
30分で完全理解するTransformerの世界
L I V E
音声AI
音声生成周りのAIモデルを紹介するツイート
が連日バズりにバズっている
Mubert https://github.com/MubertAI/Mubert-Text-to-Music
L I V E
音声AI
音声生成周りのAIモデルを紹介するツイート
が連日バズりにバズっている
内容は...
L I V E
音声AI
音声生成周りのAIモデルを紹介するツイート
が連日バズりにバズっている
内容は...
こんな感じ
L I V E
音声AI
音声生成周りのAIモデルを紹介するツイート
が連日バズりにバズっている
内容は...
こんな感じ
13
音色(timbre)
3要素 尺度 対応する物理量
音の大きさ
ラウドネス(Loudness)
大きい-小さい パワー
音の高さ
ピッチ(Pitch)
高い-低い 基本周波数
音色(おんしょく)
ティンバー(Timbre)
痩せた-豊かな、明るい-暗い
綺麗-粗い
...etc
周波数スペクトル、立ち上がり・減衰特
性、定常部の変動、成分音の調波・非調
波関係、ノイズ
...etc
14
音色(timbre)
厨川など, 「音質評価のための7属性」, 音響会誌, 34, pp.501~509 (1978)
▪ 企業の研究では精力的に
評価尺度の研究を行って
いた
▪ 「大きさ」「高さ」「快
さ」の3主属性
▪ 4副属性「協和性」「粗
滑性」「明暗性」「豊痩
性」
15
何を入力して、何を取り出しているのか
モデル 入力 出力
ChatGPT text webアーカイブの圧縮された
情報の一部
MusicLM text 音楽
Make-An-Audio text, image, video 効果音
16
何を入力して、何を取り出しているのか
モデル 入力 出力 意味
ChatGPT text webアーカイブの圧縮
された情報の一部
圧縮Webでの検索結
果
MusicLM text 音楽 音色検索結果
Make-An-Audio text, image, video 効果音 音色検索結果
Make-An-Audioの例(Image-to-Audio)
https://text-to-audio.github.io/
17
17
まとめ
❖ 「人間の作曲家に匹敵するほど出来栄えがいい」「普通に使える
トラック」「驚くほど自然」...
❖ ChatGPTにおけるWebのアナロジー
❖ 音色検索結果という長年の課題の一つの結論
18
02 MusicLMについて
19
MusicLM(2023)
▪ テキストによる音楽生成
▪ 可能なタスク
▪ テキストによる条件付け音楽生成
▪ 数分間の長い音楽も破綻なく生成
▪ 入力としてプロンプトのテキスト以外にも画像やメロディを入力
にしてスタイル変換や音色生成も可能
MusicLM: Generating Music From Text
大いに参考:MusicLMができるまで - Qiita
20
MusicLM(2023)
21
SoundStream(2021)
22
W2v-BERT(2021)
▪ 音声認識のための事前学習モデル
▪ 音声入力、文字出力を前提にしている
▪ wav2vec2.0にBERTに用いられたマスク推定学習を加え
ることで、文脈の情報をより反映できる
▪ MusicLMの入力の大域的な意味情報を保持するためのコ
ンポーネントとして用いられる
▪ 音色のこと
w2v-BERT
23
AudioLM(2022)
▪ 音の言語モデル
▪ 音入力、音出力
▪ GPT-3のように音声を入力するとその後の音声を予測できる
▪ 動画
▪ samples: AudioLM
▪ SoundStream + W2v-BERT
AudioLM: a Language Modeling Approach to Audio Generation – Google AI Blog
24
AudioLM(2022)
▪ SoundStream + W2v-BERT
▪ 横に長い時系列データなので
「品質」と「文脈の一貫性」
を両立するのが難しい
▪ のでどっちも使う
25
MuLan(2022)
▪ クロスモーダルな対照表現学習
26
MuLan(2022)
▪ データがすごい
27
MusicLM(再掲)
28
参考文献
▪ 岩宮眞一郎編著『音色の感性学』, コロナ社, 2010
29
04 その他
30
02 ガイドライン
タイトルと本文
タイトルと本文 - 余白(赤)とセーフエリア(黄)
※文字量が多い際はセーフエリア内でまとめますと可読性が上がります
31
白紙 - 余白(赤)とセーフエリア(黄)
※文字量が多い際はセーフエリア内でまとめますと可読性が上がります
32
33
推奨フォント・サイズ
最大サイズ(Bold - 40)
見出し1(Bold - 32)
見出し2(Medium - 28)
本文(Regular - 24~12※文字量に合わせて)
注釈など(Regular - 10)
フォント:M PLUS 1P (https://fonts.google.com/specimen/M+PLUS+1p)
34
カラースキーム

Weitere ähnliche Inhalte

Ähnlich wie 230216_AI技術共有会_園部.pdf

【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
モノビット エンジン
 

Ähnlich wie 230216_AI技術共有会_園部.pdf (20)

FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術FINAL FANTASY Record Keeperのマスターデータを支える技術
FINAL FANTASY Record Keeperのマスターデータを支える技術
 
Completely understand smart_speaker
Completely understand smart_speakerCompletely understand smart_speaker
Completely understand smart_speaker
 
RTC2023_ChatGPT_YukiTsukamae.pdf
RTC2023_ChatGPT_YukiTsukamae.pdfRTC2023_ChatGPT_YukiTsukamae.pdf
RTC2023_ChatGPT_YukiTsukamae.pdf
 
RTC2023_ChatGPT_YukiTsukamae.pptx
RTC2023_ChatGPT_YukiTsukamae.pptxRTC2023_ChatGPT_YukiTsukamae.pptx
RTC2023_ChatGPT_YukiTsukamae.pptx
 
革新的ブラウザゲームを支えるプラットフォーム技術
革新的ブラウザゲームを支えるプラットフォーム技術革新的ブラウザゲームを支えるプラットフォーム技術
革新的ブラウザゲームを支えるプラットフォーム技術
 
自動化ツールの違いを探る
自動化ツールの違いを探る自動化ツールの違いを探る
自動化ツールの違いを探る
 
Microsoft Copilot Studio.pdf
Microsoft Copilot Studio.pdfMicrosoft Copilot Studio.pdf
Microsoft Copilot Studio.pdf
 
Watson info in think2019 サンフランシスコで聞いてきた Watson 最新情報
Watson info in think2019 サンフランシスコで聞いてきた Watson 最新情報Watson info in think2019 サンフランシスコで聞いてきた Watson 最新情報
Watson info in think2019 サンフランシスコで聞いてきた Watson 最新情報
 
【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
【GCC2019】モノビットエンジンがついにクラウド化!しかし、インフラでまさかのAzureを利用!?本当に大丈夫なの?
 
Surface で 謎開発
Surface で 謎開発Surface で 謎開発
Surface で 謎開発
 
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
 
変化し続けるウェブ技術を追うためには
変化し続けるウェブ技術を追うためには変化し続けるウェブ技術を追うためには
変化し続けるウェブ技術を追うためには
 
知ってると得するかもしれないConstraintsたち
知ってると得するかもしれないConstraintsたち知ってると得するかもしれないConstraintsたち
知ってると得するかもしれないConstraintsたち
 
Bot Framework Composer Fukuazu
Bot Framework Composer FukuazuBot Framework Composer Fukuazu
Bot Framework Composer Fukuazu
 
「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシング「らしく」ハタラコウ。 ChatWork x クラウドソーシング
「らしく」ハタラコウ。 ChatWork x クラウドソーシング
 
(インテージテクノスフィア)FY20_技術探究委員会_ブロックチェーン分科会活動報告
(インテージテクノスフィア)FY20_技術探究委員会_ブロックチェーン分科会活動報告(インテージテクノスフィア)FY20_技術探究委員会_ブロックチェーン分科会活動報告
(インテージテクノスフィア)FY20_技術探究委員会_ブロックチェーン分科会活動報告
 
Google Material DesignをPolymerで表現しよう
Google Material DesignをPolymerで表現しようGoogle Material DesignをPolymerで表現しよう
Google Material DesignをPolymerで表現しよう
 
日本におけるIT自動化導入の特殊な事情 - 菅原 亮、株式会社NTTデータ
日本におけるIT自動化導入の特殊な事情 - 菅原 亮、株式会社NTTデータ日本におけるIT自動化導入の特殊な事情 - 菅原 亮、株式会社NTTデータ
日本におけるIT自動化導入の特殊な事情 - 菅原 亮、株式会社NTTデータ
 
02172016 web rtc_conf_komasshu
02172016 web rtc_conf_komasshu02172016 web rtc_conf_komasshu
02172016 web rtc_conf_komasshu
 
ITエンジニアのしあわせ考
ITエンジニアのしあわせ考ITエンジニアのしあわせ考
ITエンジニアのしあわせ考
 

230216_AI技術共有会_園部.pdf