Proposal for Natural Language Processing by Measuring and Analizing Writing Activities
Transcript of Proposal for Natural Language Processing by Measuring and Analizing Writing Activities
編集操作の測定でアプローチする 自然言語処理の提案
山口琢(元公立はこだて未来大学大学院、 大場みち子(はこだて未来大学)、高橋慈子(ハーティネス)、 小林龍生(スコレックス)、高橋修(はこだて未来大学)
v1.1 補足 2015-05-31 v1 発表 2015-05-31
http://www.slideshare.net/yamahige
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 0
• Writing Analytics http://writing-analytics.appspot.com/ – 分析サーバー
• CrossConcept Topic Writer https://topic-writer.appspot.com/ – エディター – 本発表の「測定」を実装している – 文章を利用者のDropboxに保存
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 1
アジェンダ • 位置づけ • 作文行為の測定 ← 測定データ
• 分析実験 – 編集操作の共起分析
• 考察 • 今後と今後の遠望 2015-05-31 人工知能学会全国大会 Taku Yamaguchi 3
「デジタル化した自然言語」の 処理・研究
自然言語処理 ⊃ 読み書きの測定・分析
編集 操作
xxx"xxxx"xxx"xxx"xx"xx"xxxx
log
著者
文章
▲▲ ▲
測定
読み 操作
log
測定
▲▲ ▲
読者
▲▲ ▲
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 5
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 6
編集 操作
xxx"xxxx"xxx"xxx"xx"xx"xxxx
log
著者
文章
▲▲ ▲
測定
読み 操作
log
測定
▲▲ ▲
読者
▲▲ ▲
""
作文の研究
編集 操作
xxx"xxxx"xxx"xxx"xx"xx"xxxx
log
著者
▲▲ ▲
測定
読み 操作
log
測定
▲▲ ▲
読者
文章
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 7
▲▲ ▲
(wri*ng) "(text"produc*on)
作文の測定と分析
編集 操作
xxx"xxxx"xxx"xxx"xx"xx"xxxx
log
著者
文章
▲▲ ▲
測定
読み 操作
log
測定
▲▲ ▲
読者
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 8
▲▲ ▲
"
作文行為の測定
• いつ(日時)、なにを(対象、文章の単位)、 どこで(コンテキスト、軸、見出し)編集したか
• 文章編集の単位 ≒ 段落と今回は考えてください
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 10
• 1つの操作に対応する記録のRDF表現 • 入力したテキストは記録しないが…
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 11
1
2014710723T08:31:21.287Z cc_12
cc_25
hBps://matrixwriter.wordpress.com/2014/10/20/mail/"
ID
ID
…公開ワークシートを使っていると、操作対象 cc_12に、"返信の要・不要"という見出しがついていることが分かる。
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 12
cc_12
cc_25
hBps://matrixwriter.wordpress.com/2014/10/20/mail/"
ID
ID
ちなみに…複数の軸を設定できる → マトリックス型テキスト編集モデル
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 13
2014710723T08:31:21.287Z cc_12
cc_25hBps://matrixwriter.wordpress.com/2014/10/20/mail/"
ID
ID
cc_45
ID
ID
cc_36
ID
ID
ロジカルライティングの講義 受講生: 7人 -> 7個の作文 • 課題a: メール – 2014/10/21(火) 12:00に課題を提示 – 〆切: 10/24(金) 17:00
• 課題b: プレゼン評価 – 2014/11/17(月) 14:30に課題を提示 – 〆切: 11/21(金) 17:00
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 16
分類実験
データ数(文章数)が少ないので… • #1 – 対象: プレゼン評価、3項目の作文 – Xとして納得できる分類を与える方式Aを選ぶ
• #2 – 対象: メール、5項目の作文 – 方式Aの分類結果を、Xとして納得できるか?
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 17
分類
テキスト分析での、典型的な手法を適用してみる。 • N-gram、時系列、… • 階層型クラスタリング、被階層型クラスタリング、…
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 18
共起(collocation)
文字列の共起 • 共起する場所・区間
– 文字列 – 文字列上で近い単位同士は、関係が強いだろう
• N-gram – 連続するN個の単位 – 連続するN文字
編集操作の共起 • 共起する場所・区間
– 時間、編集操作列 – 時間軸上や編集操作列上で近い操作の対象である文章の単位同士は関係が強いだろう
• N-gram – 連続するN回の操作
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 20
分類実験(再掲)
データ数(文章数)が少ないので… • #1 – 対象: プレゼン評価、3項目の作文 – Xとして納得できる分類を与える方式Aを選ぶ
• #2 – 対象: メール、5項目の作文 – 方式Aの分類結果を、Xとして納得できるか?
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 27
• 編集対象の2-gramの組み合わせ(n回目とn+1回目の順列)を列に並べ、各作文行為での頻度を行に並べる。
• "fee1c…930a"などは文書のID • 文書間の距離としてeuclidean、canberra、…などを、 クラスター形成の方法としてward.D、completeなどを試す。
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 29
X: 戻り、ジャンプの有無(多寡)で分類 分類方式A: canberra距離 / complete法による分類 ↑ 分類方式Aによる結果は、Xという分類として納得できる。
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 32
• 小規模だが、 作文行為(プロセス)を分類できた
• 「戻り」「ジャンプ」が多いクラスターに分類された作文の数が、 プレゼン評価とメールとで異なる。 ≠ 書き手の分類
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 38
• 「プレゼン評価」と「メール」の違い 同じ受講生が同じ講師の指導のもとで、同じツールを使って作文したのに… – 偶然 – ワークシートの枠数の違い – ワークシートの見出しに書かれたテキスト同士の関係の強さの違い
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 39
テキスト分析との関係 • ワークシートの見出しに書かれたテキスト同士の関係の強さの違い…かもしれない
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 40
編集 操作
xxx"xxxx"xxx"xxx"xx"xx"xxxx著者
読み 操作
▲▲ ▲
▲▲ ▲
読者
テキスト分析との関連: 例
• 書き方の類似性 ↔ 作家の文体の類似性 – 書き方の類似性と文体の類似性は似てるのか?
– 文体の類似性と合致する、書き方の分類器とは?
2015-05-31 人工知能学会全国大会 Taku Yamaguchi 41
• ライティング授業での利用継続・拡大 – 社会人、別の大学、…
• 別の作文: エントリーシート、など • 生データの公開 – 公開済み https://topic-writer.appspot.com/ • ライティング授業で使っているエディター • 共起行列、散布図
– データ形式の決定(EDUPUBに合わせる方針) 2015-05-31 人工知能学会全国大会 Taku Yamaguchi 43