Sudachi Tokenizer causes character corruption on Ubuntu 22.04 LTS environment

Created on 18 February 2025, about 2 months ago

Problem/Motivation

Ubuntu 22.04 LTS 環境で Sudachi Tokenizer を使うと添付の画像の通りで文字化けします。

Steps to reproduce

JRE を次の手順でインストール

sudo apt install default-jre

公式サイトのチュートリアルに則って Sudachi をサーバーへインストールする。使用するバージョンは 0.7.5。

モジュールの README に従い、Search API のインデックス設定で Sudachi Tokenizer のプロセッサーを有効化。

Search API Sudachi test form (/admin/config/search/search-api-sudachi/test ) で文字列を入力。

添付のようにASCII以外の文字列が ? となって出力される

なお、MeCab Tokenizer では同様の事象が発生しない

Proposed resolution

文字化けしないように文字コードなどを調整する実装を追加する

Remaining tasks

なし

User interface changes

なし

API changes

なし

Data model changes

なし

🐛 Bug report
Status

Active

Version

1.0

Component

Code

Created by

🇯🇵Japan u7aro Japan

Live updates comments and jobs are added and updated live.
Sign in to follow issues

Comments & Activities

Production build 0.71.5 2024