Skip to content

takayuki/natume

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

なつめ -- Haskellによるかな漢字変換の実装 (version 0.13)
README

目次
 1 なつめとは
 2 謝辞
 3 著作権
 4 使用条件
 5 インストール
 6 うまく変換するコツ
 7 すでに判明している問題
 8 (ずっと先の)将来の予定
 9 連絡先
10 リンク
11 参考文献

1. なつめとは

なつめは、Haskellで実装されたかな漢字変換サーバです。
単語の接続コストを統計データに基づいて評価することにより、
ストレスの少ないかな漢字変換の実現を目指しています。
サーバ-クライアント間の通信に、Canna互換プロトコルを採用しているため、
あなたが使っているCannaクライアントをそのまま利用することができます。

「なつめ」という名称は、形態素解析のアルゴリズムを学ばせてもらった
奈良先端科学技術大学院大学の茶筌から連想できるものを選びました。
それから、かんな、なつめ。うまく尻取りにもなってるでしょう?

2. 謝辞

本ソフトウェアは、奈良先端科学技術大学院大学で開発された茶筌がなければ、
ぜったいに存在しませんでした。わたしは、日本語の形態素解析について、
ほとんどすべてを茶筌のソースコードから学んだといっても過言ではありません。
長年に渡って蓄積された研究成果を、高品質なソースコードという形で公開して
いただいていることに深く感謝いたします。

また、茶筌に付属しているipadicの存在も忘れることはできません。
正確な文法情報が付加されている30万語にものぼる辞書の整備に、
文字通り桁違いの時間と忍耐が必要とされたことは想像に難くありません。
こちらの作業に携わってきた方々にも、重ねて感謝を申し上げます。

version 0.3以降、cannadicも使わせていただいていました。
すぎもとまさおさんをはじめとするcannadicの開発者の方々、
それから、cannadicに取り込まれている多くの辞書の編さんに関わった方々、
ほんとうにありがとうございました。

version 0.12以降、cannadic改を使わせていただいています。


3. 著作権

なつめは、臼井崇行が著作権を保持しています。
ipadicは、奈良先端科学技術大学院大学が著作権を保持しています。
cannadicは、すぎもとまさおさんが著作権を保持しています。

4. 使用条件

なつめは、Free Software FoundationのGNU General Public Licensenのもとで
公開されています。GPLに従う限り自由に再配布・改変することができます。
もちろん、GPLであることは、同時に無保証であることも意味しています。
詳しくは、この配布物に含まれているCOPYINGというファイルを参照してください。

また、なつめはipadicを利用しています。したがって、なつめの利用者は、
ipadicの使用条件も理解しておく必要があります。インストールをはじめる前に、
ipadic-2.7.0/COPYINGを確認してください。

version 0.12から、cannadic改を使い始めました。インストールをはじめる前に、
alt-cannadic-110208/README_euc.txtを確認してください。


5. インストール

INSTALLを参照してください。


6. うまく変換するコツ

なつめは、文節がたくさんあった方が正確に候補を絞り込めます。
一度になるべく長い文章を入力してみてください。

句読点もコストの計算に影響を与えるので、
"。"や"、"までしっかり入力してから変換したほうが文末が正確に変換されます。


7. すでに判明している問題

たくさんあります。
おおざっぱに分類するなら、アルゴリズムに関する問題と辞書に由来する問題です。
これからしばらくの間は、前者を優先して対応してゆく予定です。
そのまえに、もっと日本語を勉強せねば。日本語ってほんとうに難しいですよね。


8. (ずっと先の)将来の予定

単語の共起関係を利用して、必ずしも隣接していない単語の接続コストも考慮する
アルゴリズムを開発したいと思っています。いったい、いつになることやら。

なつめがきっかけとなって、Haskellにもう少しだけ注目が集まるように。


9. 連絡先

臼井崇行
takayuki.usui at gmail dot com

10. リンク

なつめ
http://natume.sourceforge.jp/
http://sourceforge.jp/projects/natume/
https://github.com/takayuki/natume

茶筌
http://chasen.naist.jp/

ipadic
http://chasen.naist.jp/stable/ipadic/ipadic-2.7.0.tar.gz

Haskell
http://www.haskell.org/


11. 参考文献

自然言語処理 岩波講座ソフトウェア科学15
長尾真(編)
岩波書店,1996

単語と辞書 言語の科学3
松本裕治ほか
岩波書店,2004


About

An Implementation of Kana-Kanji Conversion in Haskell

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published