コミュ障だから明日が僕らをよんだって返事もろくにしなかった

何かを創る人に憧れたからブログをはじめたんだと思うよ

怪文書 vs 人工知能

怪文書人工知能の力で解読させてみる

世の中にはどこの誰が何のために残したのかわからない怪文書と呼ばれる文章が存在しています。一説にはそれはアカシックレコードの一種なのではないかと噂されており、それを解読できたものが次の時代の覇者になると言われています [要出典]。


まあそういうのいいや。ふと上述したようなわけわかんないことを思ったのでAIの力を借りて怪文書の文章要約をしてみようと思ったのでした。


今回利用するやつ
Text Summarization API|PRODUCT|A3RT

Text Summarization APIでは、文章ごとの意味を分類し特徴的な文章を抽出します。
リクルートには文章要約を行う複数のアルゴリズムが存在しますが、
今回公開するversion1は、Doc2Vecを用いたモデルのみになります。

リクルートAPIを使って、また遊んでいきます。

とりあえず今回は使い勝手を見るために、サンプルにあるcurlで確認していきます。

curl -X POST -d 'apikey=APIキー' --data-urlencode 'sentences=要約する文章。' 'https://api.a3rt.recruit-tech.co.jp/text_summarization/v1/'

要約できる1文の最大文字数は200文字、且つ最大文章数は10だそうです。


あ、ここで使っているDoc2Vecは文章をベクトル化して、その単語の近くの単語を予想するやつらしいですよ。

まあ、僕のざっくりしたよくわかんない説明よりもここのスライドを見ればおおよその何やってる処理か理解できると思う。


とりあえず使ってみる

ということでまずはどんな感じになるのか使ってみます。とりま、電通のやつを食わせてみます。

食わせたデータ

仕事は自ら創るべきで、与えられるべきでない。仕事とは、先手先手と働き掛けていくことで、受け身でやるものではない。大きな仕事と取り組め、小さな仕事はおのれを小さくする。難しい仕事を狙え、そしてこれを成し遂げるところに進歩がある。取り組んだら放すな、殺されても放すな、目的完遂までは……。周囲を引きずり回せ、引きずるのと引きずられるのとでは、永い間に天地のひらきができる。計画を持て、長期の計画を持っていれば、忍耐と工夫と、そして正しい努力と希望が生まれる。自信を持て、自信がないから君の仕事には、迫力も粘りも、そして厚味すらがない。頭は常に全回転、八方に気を配って、一分の隙もあってはならぬ、サービスとはそのようなものだ。摩擦を怖れるな、摩擦は進歩の母、積極の肥料だ、でないと君は卑屈未練になる。

いわゆる電通の鬼の十則です。

自信を持て、自信がないから君の仕事には、迫力も粘りも、そして厚味すらがない

なんか要約したらいいこと言ってるみたいになった。


ついでなんで責任三ヵ条もやってみましょうか。
食わせたデータ

命令・復命・連絡・報告は、その結果を確認しその効果を把握するまではこれをなした者の責任である。その限度内に於ける責任は断じて回避出来ない。一を聞いて十を知り、これを行う叡智と才能がないならば、一を聞いて一を完全に行う注意力と責任感を持たねばならぬ。一を聞いて十を誤る如き者は百害あって一利ない。正に組織活動の癌である。削除せらるべきである。我々にとっては、形式的な責任論はもはや一片の価値もない。我々の仕事は突けば血を噴くのだ。我々はその日その日に生命をかけている。

一を聞いて十を知り、これを行う叡智と才能がないならば、一を聞いて一を完全に行う注意力と責任感を持たねばならぬ

要約したら割と普通のこと言ってるようになった気がする。というよりも文章の一部抽出って感じですね。


怪文書を要約してみる

それじゃあ、こちらから適当に文章をお借りして要約してみます。本当は某文書でやりたかったんですけど、もう存在していないのでね……。

怪文書保存館

Linuxで何ができるんですか」より
Q1.最近Linuxが話題になっていますが何ができるんですか

つまりLinuxでは何でもできるのです

わかる。

他も色々試した結果よくわかんない罵倒語が除去されるので精神衛生的にはよくなる気がした。文意がつながるかどうかはよくわかんないです。文字数の制限がかなりきついので要約できてるのかAPIだとよくわかんないってのが個人的な印象。


おわり