BudouXは日本語のウェブページにおいて改行位置を適切に判断して読みやすい表示を実現するオープンソースのライブラリです。従来の日本語のウェブページでは単語と単語の間にスペースがないため、文章が折り返されてしまうことがありましたが、BudouXは機械学習モデルを利用して分かち書きを行うことで、改行位置を正確に判断し改善します。また、BudouXはJavaScript、Python、Javaのライブラリが用意されており、さまざまなプラットフォームで利用することができます。
BudouXの特徴として、Nグラムと呼ばれる数文字ずつ並べた表現を特徴量として使用し、そのNグラムに対して機械学習モデルを適用しています。京都大学情報学研究科とNTTコミュニケーション科学基礎研究所の共同研究ユニットによる解析済みブログコーパスを用いてモデルの学習を行っており、精度の向上に努めています。
BudouXはAdobeのウェブサイトでも活用されており、日本語の改行処理の問題を解決するために導入されました。導入時にはいくつかの課題もありましたが、ルールベースの禁則処理を追加するなどして解決しました。
BudouXの改行処理の効果はデモでも確認できます。また、JavaScript、Python、Javaの各言語で利用する方法も提供されています。
BudouXはUnicodeおよび国際化と地域化に関するICUの一部となっており、Android 14やChrome 119などのプラットフォームでも採用される予定です。BudouXは今後もさらなる進化が期待されるライブラリです。
この &Buzzニュースは、Gigazine.netのニュースをAndbuzzが独自にまとめたもの。
