【PR】NordVPN
下記のリンクからお申し込みいただくと、サブスクリプション費用が大幅割引!さらに今なら4か月分が延長されます。30日間の全額返金保証もあるので、この機会にぜひお試しください。
▼詳細はこちらから https://nordvpn.com/yurucomputer)
▼クーポンコード yurucomputer *クーポンコードはチェックアウト時にご入力ください
*上記URL経由では自動でクーポンが反映されます
AI技術者は泥臭い努力まみれでした。「データ王に俺はなる!!!」「大規模言語モデルに必要な子守りと学校教育」「泥臭い努力でデータの泥を取り除く」など、大規模言語モデル研究者たちの努力について話しました。
【ことラボ】
◯Twitter → https://x.com/KotoLaboRyo)
◯YouTube → https://www.youtube.com/@kotolabo)
【目次】
0:00 データ王に俺はなる!!!
1:02 コモン・クロールは海賊王の上位互換
5:30 データの泥を取り除く
16:58 大規模言語モデルの子守りは大変
20:54 大規模言語モデルにも学校教育が必要
25:23 泥臭い努力が大きなものを生む
29:51 一番恥ずかしい思いをしたのはどっち?
【参考文献】
◯大規模言語モデル
◯大規模言語モデル開発における日本語 Web 文書のフィルタリング手法の検証(榎本 et al., 言語処理学会 2024)
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-6.pdf)
→動画内で紹介した「意味がありそうでない文字列」はここから。
◯ONE PIECE
◯ichikara-instruction LLMのための日本語インストラクションデータの作成
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A6-3.pdf)
◯ゲンロン戦記
【サポーターコミュニティへの加入はこちらから!】
https://yurugengo.com/support)
【親チャンネル:ゆる言語学ラジオ】
【実店舗プロジェクト:ゆる学徒カフェ】
【おたよりフォーム】
※皆様からの楽しいおたよりをお待ちしています!
【お仕事依頼はこちら!】
【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
【水野太貴プロフィール】 名古屋大学文学部卒。専門は言語学。某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
【姉妹チャンネル】