Proposal for Natural Language Processing by Measuring and Analizing Writing Activities

44
編集操作の測定でアプローチする 自然言語処理の提案 山口琢(公立はこだて未来大学大学院、 大場みち子(はこだて未来大学)、高橋慈子(ハーティネス)、 小林龍生(スコレックス)、高橋修(はこだて未来大学) v1.1 補足 2015-05-31 v1 発表 2015-05-31 http://www.slideshare.net/yamahige 2015-05-31 人工知能学会全国大会 Taku Yamaguchi 0

Transcript of Proposal for Natural Language Processing by Measuring and Analizing Writing Activities

編集操作の測定でアプローチする 自然言語処理の提案

山口琢(元公立はこだて未来大学大学院、 大場みち子(はこだて未来大学)、高橋慈子(ハーティネス)、 小林龍生(スコレックス)、高橋修(はこだて未来大学)

v1.1 補足 2015-05-31 v1 発表 2015-05-31

http://www.slideshare.net/yamahige

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 0

•  Writing Analytics http://writing-analytics.appspot.com/ –  分析サーバー

•  CrossConcept Topic Writer https://topic-writer.appspot.com/ –  エディター –  本発表の「測定」を実装している –  文章を利用者のDropboxに保存

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 1

アジェンダ •  位置づけ •  作文行為の測定 ← 測定データ

•  分析実験 – 編集操作の共起分析

•  考察 •  今後と今後の遠望 2015-05-31 人工知能学会全国大会 Taku Yamaguchi 3

位置づけ

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 4

「デジタル化した自然言語」の 処理・研究

自然言語処理 ⊃ 読み書きの測定・分析

編集 操作

xxx"xxxx"xxx"xxx"xx"xx"xxxx

log

著者

文章

▲▲ ▲

測定

読み 操作

log

測定

▲▲ ▲

読者

▲▲ ▲

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 5

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 6

編集 操作

xxx"xxxx"xxx"xxx"xx"xx"xxxx

log

著者

文章

▲▲ ▲

測定

読み 操作

log

測定

▲▲ ▲

読者

▲▲ ▲

""

作文の研究

編集 操作

xxx"xxxx"xxx"xxx"xx"xx"xxxx

log

著者

▲▲ ▲

測定

読み 操作

log

測定

▲▲ ▲

読者

文章

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 7

▲▲ ▲

(wri*ng) "(text"produc*on)

作文の測定と分析

編集 操作

xxx"xxxx"xxx"xxx"xx"xx"xxxx

log

著者

文章

▲▲ ▲

測定

読み 操作

log

測定

▲▲ ▲

読者

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 8

▲▲ ▲

"

作文行為の測定 位置づけ

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 9

作文行為の測定

•  いつ(日時)、なにを(対象、文章の単位)、 どこで(コンテキスト、軸、見出し)編集したか

•  文章編集の単位 ≒ 段落と今回は考えてください

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 10

•  1つの操作に対応する記録のRDF表現 •  入力したテキストは記録しないが…

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 11

1

2014710723T08:31:21.287Z cc_12

cc_25

hBps://matrixwriter.wordpress.com/2014/10/20/mail/"

ID

ID

…公開ワークシートを使っていると、操作対象 cc_12に、"返信の要・不要"という見出しがついていることが分かる。

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 12

cc_12

cc_25

hBps://matrixwriter.wordpress.com/2014/10/20/mail/"

ID

ID

ちなみに…複数の軸を設定できる → マトリックス型テキスト編集モデル

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 13

2014710723T08:31:21.287Z cc_12

cc_25hBps://matrixwriter.wordpress.com/2014/10/20/mail/"

ID

ID

cc_45

ID

ID

cc_36

ID

ID

分析実験

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 14

「ワークシートによる作文」の測定 •  ロジカルライティング講義 •  ワークシートを使用

( )

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 15

ロジカルライティングの講義 受講生: 7人 -> 7個の作文 •  課題a: メール – 2014/10/21(火) 12:00に課題を提示 – 〆切: 10/24(金) 17:00

•  課題b: プレゼン評価 – 2014/11/17(月) 14:30に課題を提示 – 〆切: 11/21(金) 17:00

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 16

分類実験

データ数(文章数)が少ないので… •  #1 – 対象: プレゼン評価、3項目の作文 – Xとして納得できる分類を与える方式Aを選ぶ

•  #2 – 対象: メール、5項目の作文 – 方式Aの分類結果を、Xとして納得できるか?

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 17

分類

テキスト分析での、典型的な手法を適用してみる。 •  N-gram、時系列、… •  階層型クラスタリング、被階層型クラスタリング、…

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 18

編集操作のN-GRAM、共起

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 19

共起(collocation)

文字列の共起 •  共起する場所・区間

–  文字列 –  文字列上で近い単位同士は、関係が強いだろう

•  N-gram –  連続するN個の単位 –  連続するN文字

編集操作の共起 •  共起する場所・区間

–  時間、編集操作列 –  時間軸上や編集操作列上で近い操作の対象である文章の単位同士は関係が強いだろう

•  N-gram –  連続するN回の操作

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 20

編集操作の共起行列

2-gram

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 21

n回目とn+1回目の編集操作

6 :"cc_8

7"(="6"+"1) :"cc_12

+1

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 22

"

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 23

"…

cc_8 cc_12 ""

cc_8 cc_12 "

"

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 24

書き方はさまざま

•  同じ課題 •  同じエディター •  異なる書き手 ↓ •  異なる編集操作パターン

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 25

結果

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 26

分類実験(再掲)

データ数(文章数)が少ないので… •  #1 – 対象: プレゼン評価、3項目の作文 – Xとして納得できる分類を与える方式Aを選ぶ

•  #2 – 対象: メール、5項目の作文 – 方式Aの分類結果を、Xとして納得できるか?

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 27

#1 •  「プレゼン評価」の共起行列 •  戻り、ジャンプ(先へ飛ぶ)に特徴がありそうだ。

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 28

•  編集対象の2-gramの組み合わせ(n回目とn+1回目の順列)を列に並べ、各作文行為での頻度を行に並べる。

•  "fee1c…930a"などは文書のID •  文書間の距離としてeuclidean、canberra、…などを、 クラスター形成の方法としてward.D、completeなどを試す。

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 29

canberra距離、complete法による分類

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 30

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 31

( )" ( )"

X: 戻り、ジャンプの有無(多寡)で分類 分類方式A: canberra距離 / complete法による分類 ↑ 分類方式Aによる結果は、Xという分類として納得できる。

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 32

#2 メールの作文を、分類方式Aで分類した結果を、Xとして納得できるか?

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 33

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 34

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 35

cc_27

結果

メールに対する分類方式Aによる分類結果は、戻り、ジャンプの有無(多寡)での分類として納得できる。

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 36

考察

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 37

•  小規模だが、 作文行為(プロセス)を分類できた

•  「戻り」「ジャンプ」が多いクラスターに分類された作文の数が、 プレゼン評価とメールとで異なる。 ≠ 書き手の分類

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 38

•  「プレゼン評価」と「メール」の違い 同じ受講生が同じ講師の指導のもとで、同じツールを使って作文したのに… – 偶然 – ワークシートの枠数の違い – ワークシートの見出しに書かれたテキスト同士の関係の強さの違い

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 39

テキスト分析との関係 •  ワークシートの見出しに書かれたテキスト同士の関係の強さの違い…かもしれない

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 40

編集 操作

xxx"xxxx"xxx"xxx"xx"xx"xxxx著者

読み 操作

▲▲ ▲

▲▲ ▲

読者

テキスト分析との関連: 例

•  書き方の類似性 ↔ 作家の文体の類似性 – 書き方の類似性と文体の類似性は似てるのか?

– 文体の類似性と合致する、書き方の分類器とは?

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 41

今後

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 42

•  ライティング授業での利用継続・拡大 – 社会人、別の大学、…

•  別の作文: エントリーシート、など •  生データの公開 – 公開済み https://topic-writer.appspot.com/ •  ライティング授業で使っているエディター •  共起行列、散布図

– データ形式の決定(EDUPUBに合わせる方針) 2015-05-31 人工知能学会全国大会 Taku Yamaguchi 43

•  他のコンテンツもやりませんか? – 作曲 – 算数の問題 – 協調学習 …

2015-05-31 人工知能学会全国大会 Taku Yamaguchi 44