- 学部・研究科
Faculty/Graduate School - 総情
- 時間割コード
Course Code - 70604
- 科目名
Course title
サブテーマ
Subtitle - テキストマイニング実習
- 授業形態/単位
Term/Credits - クラス
Class -
- 秋/1
- 担任者名
Instructor - 山西 良典
- 曜限
Day/Period - 木4
- 授業概要
Course Description
到達目標
Course Objectives -
授業種別 / Teaching Types
実験・実習・製図(対面型)
言語 / Language
日本語(Japanese)
授業概要 / Course Description
テキストマイニングは,テキストデータから様々な意味ある情報を抽出することを言う.人間は物事を言語化することによって情報処理を行い,データとして蓄積していく.現在は,様々な形式で記述されたテキストデータがインターネット上に多数存在しており,それらのテキストデータは,多くの貴重な情報を含んでいる可能性がある.本講義では,このようなテキストデータから言語解析や統計処理などを用いて情報抽出可能にするためのプログラミングを実習する.プログラミング言語には,Pythonを用いる.テキストマイニングに必要となる詳細な技術などについては,極力,ライブラリパッケージを用いることで,テキストデータが与えられたときに容易に情報抽出が可能となる知識と技術を獲得することを講義の到達目標とする.
学位授与方針との関係 / Related Diploma Policy
(総合情報学部)
1.知識・技能
2.思考力・判断力・表現力等の能力
3.主体的な態度
到達目標 / Course Objectives
①知識・技能の観点
Python言語によって言語データを扱うための技術を身につける.
Python言語でライブラリを適切に用いる技術を身につける.
テキストマイニングの基礎的な技術を身につける.
②思考力・判断力・表現力等の能力の観点
与えられたデータに対して適切な分析方法を判断し,データを処理するアルゴリズムを考えられる思考力を身につける.
また,得られた結果を考察しできるためのデータの見方に関する能力を身につける.授業手法 / Teaching Methods
・教員による資料等を用いた説明や課題等へのフィードバック
・学生による学習のふりかえり
・課題探究(プロジェクト学習、課題解決型学習、ケーススタディ等含む)
- 授業計画
Course Content -
授業計画 / Course Content
以下の分析方法をヒントに従いながら,自分自身でプログラムを実装することによってテキストマイニングの基礎技術を身につける.
・単語の出現頻度に基づく分析:分布と要約
・文章の感情分析
・単語の分散表現に基づく分析:クラスタリングと検索
なお,プログラミング言語はPythonとして,ライブラリを積極的に利用することにより,実用的なプログラミングを短時間で容易に実現するための基礎を学ぶ.
また,それまでに学習した技術をもとにして自らテキストマイニング技術を応用したサービスを考案するテキストマイニングを用いたアイデアソンを実施することで
・どのような対象のどのようなことを調べたいのか
・そのためにどのようなデータ分析をするのか
といったデータサイエンティストに必要不可欠な考え方を学ぶ.
【各単元での予定】
1.テキストマイニングの概要とPythonプログラムの基礎・環境
2.文字列に対するPythonでの処理
3.単語の役割を意識した分析
4.文書中の単語の統計分析
5.複数文書に対する統計分析
6.TF-IDFによる単語重要度の計算
7.TF-IDFを用いた文書要約
8.形態素解析
9.言語に応じた文書要約
10.英語に対しての感情分析
11.日本語に対しての感情分析
12.単語分散表現による単語類似度
13.単語分散表現を利用した類似文書検索
14.テキストマイニング・アイデアソン
15.テキストマイニング・アイデアソン授業時間外学習 / Expected work outside of class
講義時間中に終了しなかった部分については,各自で進めることとする.その他については,講義時間中に指示する
- 成績評価の方法・基準・評価
Grading Policies /
Evaluation Criteria -
方法 / Grading Policies
定期試験を行わず、平常試験(小テスト・レポート等)で総合評価する。
各単元での成果物80%,小テスト10%,最終レポート10%基準・評価 / Evaluation Criteria・Assessment Policy
①知識・技能の観点
Python言語を用いた言語データの処理に関する技術を評価する.
②思考力・判断力・表現力等の能力の観点
データの性質と分析目的を考慮した分析方法を判断できる能力を評価する.
- 教科書
Textbooks
適宜指示する
-
参考書
References 山内 長承 Pythonによるテキストマイニング入門 株式会社オーム 978-4-274-22141-5
榊 剛史,石野 亜耶,小早川 健,坂地 泰紀,嶋田 和孝,吉田 光男 実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門 講談社 4065274109
- フィードバックの方法
Feedback Method
- 担任者への問合せ方法
Instructor Contact 口頭, LMSを通して問い合わせ
- 備考
Other Comments