1: 一般国民 ★ 2019/07/12(金) 04:35:09.76 ID:CAP_USER
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝

【科学(学問)ニュース+】

no title

(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏

 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

no title

(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない

 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

no title

明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

no title

(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。

■■以下、略

2: ニュースソース検討中@自治議論スレ 2019/07/12(金) 04:39:28.03 ID:taourUqC
読めないようにしてきたんじゃないかね

10: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:24:09.13 ID:z7V4WmKC
>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。

39: ニュースソース検討中@自治議論スレ 2019/07/12(金) 10:07:34.49 ID:Nwhtdr6Y
>>2
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ

3: ニュースソース検討中@自治議論スレ 2019/07/12(金) 04:54:14.32 ID:jFOmPVIq
タリン・カラーヌワット女史

タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する

11: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:24:22.78 ID:topiQE+E
>>3
ひたすら感謝だわ。ほんとありがとう。

崩し字読めないアマチュア勢も古文書から情報読み取れるようになるから、
色々面白い研究成果が生まれそう。

14: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:43:20.97 ID:oFUsX1nA
>>3
タイ人→源氏物語→くずし字
こりゃ大変だったろうな
ありがとう

20: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:15:58.63 ID:MshbsGTn
>>3
素晴らしい。

31: ニュースソース検討中@自治議論スレ 2019/07/12(金) 08:44:48.70 ID:2/uPUTnv
>>3
タイ人なのにってより、文系なのにってところで感心するわ。

「好き」って大事だな。
俺も宇宙の研究やりたかった。

64: ニュースソース検討中@自治議論スレ 2019/07/12(金) 12:46:59.86 ID:eJo2rLSF
>>31
初めて買ってもらったPCのおまけで
プログラミングの入門書がついてて、その方面も強くなったらしい
これって文系理系で分ける発想がそもそもなかったからこその成果だよね

4: ニュースソース検討中@自治議論スレ 2019/07/12(金) 05:22:04.40 ID:/3s2Oryf
くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな

129: ニュースソース検討中@自治議論スレ 2019/07/15(月) 11:46:54.55 ID:hesyCvM8
>>4
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね

6: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:03:39.12 ID:PbHZXaOR
何処で翻訳してくれるんだよ

9: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:09:52.58 ID:MDxFwwFe
直接英訳した方が早そうだな

12: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:30:44.39 ID:ng+bSJdz
俺んちもそんな巻物があるんだけど解読できなくてなあ
とにかく在野の歴史マニア歓喜だろ

13: ニュースソース検討中@自治議論スレ 2019/07/12(金) 06:34:20.92 ID:mNaeYk7+
くずし字って英語の筆記体みたいなもんだろ

103: ニュースソース検討中@自治議論スレ 2019/07/13(土) 02:16:04.87 ID:kkYsHTk/
>>13
筆記体なんて今さら覚える必要あるのかよって中坊の頃に思ってたけど
大学入ったら英語圏の先生は筆記体で板書きするから読めなかったら講義受けられねーぞって脅されてた
でも80年代にはもう博士様すらブロック体で書くと言われていた現実

17: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:09:08.42 ID:fhu+pVUO
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを

19: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:12:19.74 ID:HauSnpME
英語も筆記体見なくなったよな

22: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:21:52.89 ID:Ru4lYaKe
狂喜乱舞って久々に聞いた

23: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:41:11.77 ID:CXUjQHor
すごいなAI。翻訳ツールが何を開発したのか気になる

24: ニュースソース検討中@自治議論スレ 2019/07/12(金) 07:54:50.06 ID:rzv8Dyz5
昔の人はよく読めてたなってほんと思う

25: ニュースソース検討中@自治議論スレ 2019/07/12(金) 08:06:50.69 ID:WNz8Ffr9
すごいけど日本語で外国人に先越されるなんて日本人なにやってんだよほんと

26: ニュースソース検討中@自治議論スレ 2019/07/12(金) 08:13:30.83 ID:6RY+2KLd
これは素晴らしい
文化勲章を差し上げたい

32: ニュースソース検討中@自治議論スレ 2019/07/12(金) 09:37:24.43 ID:csupAlXt
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの

35: ニュースソース検討中@自治議論スレ 2019/07/12(金) 09:44:02.95 ID:xcnBq66z
>>32
どっちかいうと後者じゃないかなぁ

107: ニュースソース検討中@自治議論スレ 2019/07/13(土) 10:09:22.45 ID:5uZfEwj8
>>35
日本だと文系はあくまでも文系って人ばっかりだからね。

33: ニュースソース検討中@自治議論スレ 2019/07/12(金) 09:43:28.69 ID:CHBCtbh1
ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな

36: ニュースソース検討中@自治議論スレ 2019/07/12(金) 09:55:40.86 ID:O06XyrAk
欲しい!
今欲しい!

37: ニュースソース検討中@自治議論スレ 2019/07/12(金) 09:57:04.64 ID:+fas7KGb
これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが

38: ニュースソース検討中@自治議論スレ 2019/07/12(金) 10:00:36.69 ID:lNne9+0c
現代日本人が読めなくなったくずし字をタイ人が解決するって面白いなぁ
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝

50: ニュースソース検討中@自治議論スレ 2019/07/12(金) 10:50:56.18 ID:aTIm5XFr
アホには翻訳後の翻訳が必要なんだが

83: ニュースソース検討中@自治議論スレ 2019/07/12(金) 14:26:54.15 ID:vILUWq4Y
すげえな
ありがたい

97: ニュースソース検討中@自治議論スレ 2019/07/12(金) 20:50:59.31 ID:WaLRWOIQ
ちょいちょい間違えてるな
https://www.nihu.jp/ja/publication/nihu_magazine/037
no title


1行目 給は → 給ける 
6行目 更し  → 更衣
7行目 みやづか人 → みやづかへ
7~8行目 うちみを → うらみを
9行目 いよく →いよいよ

98: ニュースソース検討中@自治議論スレ 2019/07/12(金) 20:51:47.82 ID:WaLRWOIQ
>>97
画像間違えた
no title

54: ニュースソース検討中@自治議論スレ 2019/07/12(金) 12:03:11.05 ID:Ui262f28
日本ファンのタイ人研究者さん、ありがとう。




引用元:https://egg.5ch.net/test/read.cgi/scienceplus/1562873709/