107. LLMをゼロから作るということ W/ Takahiro Omi Fukabori.fm podcast

Artwork

テクノロジー Fukabori iwashi

コンテンツは iwashi によって提供されます。エピソード、グラフィック、ポッドキャストの説明を含むすべてのポッドキャストコンテンツは、iwashi またはそのポッドキャストプラットフォームパートナーによって直接アップロードされ、提供されます。誰かがあなたの著作物をあなたの許可なく使用していると思われる場合は、ここで概説されているプロセスに従うことができますhttps://ja.player.fm/legal。

fukabori.fm « »
107. LLMをゼロから作るということ w/ Takahiro Omi

1y ago 38:22

シェア

MP3•エピソードのホーム

コンテンツは iwashi によって提供されます。エピソード、グラフィック、ポッドキャストの説明を含むすべてのポッドキャストコンテンツは、iwashi またはそのポッドキャストプラットフォームパートナーによって直接アップロードされ、提供されます。誰かがあなたの著作物をあなたの許可なく使用していると思われる場合は、ここで概説されているプロセスに従うことができますhttps://ja.player.fm/legal。

ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。

話したネタ

どのような大規模言語モデルと作ったのか？特徴は何か？
データセットに何を使ったのか？
日本語と英語とのバランスは？
最終的なToken数は？
事前学習モデルを作りたいとして、何から考えるのか？
ノイズのクリーニングと、その方法
今回活用したモデルアーキテクチャ(Llama)
前回のアーキテクチャは GPT-NeoX
今回の学習環境は？
AWS Trainum 32コア x 16ノード
学習にかかった時間は？
学習時に大変だったこと・上手くいかなかったことは？
学習中のチェックポイントとは何か？
なぜ、Token生成が速いのか？
手元でLLMを動かすときの一番のネックは？
bit数を落とすFineTuning
Tokenizerとは何か？
日本語の単語区切りはどのように考えるのか？
今回のLLM作成のTokenizerは何を使ったのか？
ビジネスドメインでのLLM評価
ストックマーク株式会社のRecruitページ

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

… continue reading

123 つのエピソード

#テクノロジー #Fukabori #iwashi

Artwork

107. LLMをゼロから作るということ w/ Takahiro Omi

21 subscribers

published 1y ago

シェア

MP3•エピソードのホーム

コンテンツは iwashi によって提供されます。エピソード、グラフィック、ポッドキャストの説明を含むすべてのポッドキャストコンテンツは、iwashi またはそのポッドキャストプラットフォームパートナーによって直接アップロードされ、提供されます。誰かがあなたの著作物をあなたの許可なく使用していると思われる場合は、ここで概説されているプロセスに従うことができますhttps://ja.player.fm/legal。

ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。

話したネタ

どのような大規模言語モデルと作ったのか？特徴は何か？
データセットに何を使ったのか？
日本語と英語とのバランスは？
最終的なToken数は？
事前学習モデルを作りたいとして、何から考えるのか？
ノイズのクリーニングと、その方法
今回活用したモデルアーキテクチャ(Llama)
前回のアーキテクチャは GPT-NeoX
今回の学習環境は？
AWS Trainum 32コア x 16ノード
学習にかかった時間は？
学習時に大変だったこと・上手くいかなかったことは？
学習中のチェックポイントとは何か？
なぜ、Token生成が速いのか？
手元でLLMを動かすときの一番のネックは？
bit数を落とすFineTuning
Tokenizerとは何か？
日本語の単語区切りはどのように考えるのか？
今回のLLM作成のTokenizerは何を使ったのか？
ビジネスドメインでのLLM評価
ストックマーク株式会社のRecruitページ

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

… continue reading

123 つのエピソード

#テクノロジー #Fukabori #iwashi

すべてのエピソード

×

プレーヤーFMへようこそ！

Player FMは今からすぐに楽しめるために高品質のポッドキャストをウェブでスキャンしています。これは最高のポッドキャストアプリで、Android、iPhone、そしてWebで動作します。全ての端末で購読を同期するためにサインアップしてください。

500+以上のトピックを聴こう

クイックリファレンスガイド

トップポッドキャスト

鈴木淑子の地球は競馬でまわってる

文化放送競馬中継～今週のメインレース

ボードゲームおっぱい

聴く日経ヘッドライン

サンドウィッチマンの東北魂

トータルテンボスのぬきさしならナイト！

流行りモノ通信簿

RADIO365-TOKYO BAYSIDE RADIO STATION

町田徹のふかぼり！

足立明穂の週刊ＩＴトレンドＸ

伊藤洋一のRound Up World Now！

The other side journal

KIQTAS（キクタス）

ヴォイニッチの科学書

武田邦彦のヒバリクラブ

IchibanTalk 海外で頑張る日本人トーク

BUSINESS WARS / ビジネスウォーズ