NO_WAIT

主にプログラミング。趣味的なWebサービスをたくさん作りたいのですが何事も遅々として進みません…

あたまのわるいニュース分類

あたまのわるいニュース分類

というWebサイトを作りました。 これは、 Twitter のニュース系アカウント(主に新聞社やニュースサイトの公式アカウント) のツイートを収集し、自動分類した結果を直近1週間分表示するだけのシンプルなサイトです。 ツイートにそれと関連があると思われる Wikipedia のカテゴリを紐づけることで分類しています。

機能

主な機能はカテゴリ・リストでのカテゴリ選択とその下部のツイート表示です。

カテゴリ・リスト

カテゴリ・リスト上のカテゴリを選択すると、 そのカテゴリに分類されたツイートがツイート表示部に表示されます。 カテゴリ・リストは左右のボタン(<,>)でスクロールできます。

ツイート表示部

選択したカテゴリに分類されたツイートが表示されます。 Twitter アイコンのボタンを押すと、元のツイートにジャンプできます。 これは Twitter のサイトに飛ばしているだけです。 ツイートの表示にはいわゆる Twitter Widgets は使用せず、 テキストだけの簡易的な表示にとどめています。

その他

上部のナビゲーションバーにあるタイトルをクリックするとメイン画面に戻ります。

#たぐいろいろはそれぞれ直近1週間で検出されたハッシュタグWikipediaカテゴリを 一度に表示する画面を呼び出します。(あまり使用することはないと思われます。)

分類例

f:id:shinaisan:20181101223328p:plain

興福寺に関するツイートを「鎌倉時代の建築」に分類しました。 これは妥当そうです。歴史に疎い作者は、 Wikipedia なり Google なりで 検索してみたくなります。 これには、「こちらもどうぞ…」と提案されたリンクをクリックすることで 表示されるダイアログから"W"や"G"のボタンを押すことで検索が可能です。

f:id:shinaisan:20181101223348p:plain

このダイアログから他のWikipediaカテゴリを選択することもできます。 (「奈良市の寺」など)

もう一つ例を挙げます。 f:id:shinaisan:20181101223409p:plain

「ブランコ」や「キャラメル」って「ポルトガル語からの借用語」なんですか?

分類はうまくいっていそうだ

f:id:shinaisan:20181101223401p:plain

ほう、「プラスチック危機」のニュースが「代数的数」に分類されましたよ。 これは興味深い。 ところが、「プラスチック」という単語だけに反応し、 「プラスチック数」に無理やりこじつけただけのようです。

すでに相当雲行きが怪しい

f:id:shinaisan:20181101223442p:plain

「工場ロボがカフェに転職」というニュースが なぜ「井上陽水の楽曲」に分類されてしまうのでしょうか? これまた「ルンバ」に反応して「コーヒールンバ」ですか? 「カフェ」の文字列があるからといってあまりにも強引なこじつけです。 (曲自体は井上陽水以外からもカバーされているらしいですが、詳しいことは何も知りません。 というかこの曲自体も…)

これはひどい

f:id:shinaisan:20181101223502p:plain f:id:shinaisan:20181101223522p:plain

人名を含む学術記事はしばしばスポーツ選手の名前その他に誘導され(そして誤爆し)ます。 だいたい「メラー=プレセット法」と「セットプレー」など 何の関係もありません。これは単語の分ち書きに失敗した例です。 (セットプレー -> プレー+セット -> プレセット) いくらなんでもこれは…

女性になんてものを…

f:id:shinaisan:20181101223548p:plain

女性に「ローマ皇帝」を履かせてどうする!? 「ゲタ」違い…

これは極め付けの誤分類で、 関連記事検索の質(やや専門的には適合度のスコア)を考慮していなかった開発中の一時期の産物です。

どうしてこんなことに…

f:id:shinaisan:20181101223603p:plain

アメリカ合衆国の大統領」と「玩具」の区別すらつきません。 このような残念な結果はすべて分類器の頭の悪さに起因しています。 これらの誤分類例からもわかる通り、 情報検索技術のみに頼り、字面だけを見て意味内容を見ずに処理しているため、頭の悪さは当然と言えます。

とりあえず 後悔 公開

ほかにも様々な問題を抱えていますが、対処しているときりがないので、 頭の悪い分類という言い訳がましい体でネタサイトとして一旦は完成としました… アイコンはぶっこわれたAndroidをイメージしてAndroidロゴをぶっこわしてつくりました。

あまりにもひどい分類に時には笑わされ、時にはムカつきながらも、 スマートフォン使用時には片手だけでだらだらニュースツイートを 物色できるので、サイトの作りは個人的には気に入っています。

もっとも、ページを閲覧しながら関連情報を 収集したいというだけなら 非常に優れたスマホブラウザ"Smooz(スムーズ)"がありますし、 ニュースサイトならSmartNewsなりGunosyで足りるわけで、 普通の人はこんなサイトに用はないわけですが…