pygeonlp.api.service module
- class pygeonlp.api.service.Service(db_dir: str | bytes | PathLike | None = None, geoword_rules: dict = {}, **options)
ベースクラス:
object
文の解析や地名語の検索機能を提供する低水準APIサービスクラスです。
- _dict_cache
辞書ID(整数)をキー、辞書identifier(文字列)を値にもつ マッピングテーブル(キャッシュ用)。
- Type:
dict
- capi_ma
C 実装の拡張形態素解析機能を利用するためのオブジェクト。
- Type:
pygeonlp.capi オブジェクト
- db_dir
このサービスが利用するデータベースディレクトリのパス。
- Type:
str
- __init__(db_dir: str | bytes | PathLike | None = None, geoword_rules: dict = {}, **options)
このサービスが利用する辞書や、各種設定を初期化します。
- パラメータ:
db_dir (PathLike, optional) -- 利用するデータベースディレクトリのパス。 省略した場合は
api.get_db_dir()
で決定します。geoword_rules (dict, optional) -- 地名語を解析するルールセットを指定します。
options (dict, optional) -- その他の解析オプションを指定します。
注釈
地名語抽出ルールとして指定できる項目は以下の通りです。
- suffixlist of str
地名接尾語を定義します。通常、一般名詞などの前に地名がくる場合、 地名修飾語として解析されます。 例:千代田区立 -> 千代田(名詞・固有名詞・地名語)+区立(名詞・一般)
地名接尾語として「立」を定義すると、 千代田区(名詞・固有名詞・地名語)+立(名詞・接尾・地名語)と 解析されるようになります。 地名接尾辞は "立,リツ,リツ" のように表層形、読み、発音を カンマで区切った文字列として定義してください。 デフォルト値は ["前,マエ,マエ", "内,ナイ,ナイ", "立,リツ,リツ", "境,サカイ,サカイ", "東,ヒガシ,ヒガシ", "西,ニシ,ニシ", "南,ミナミ,ミナミ", "北,キタ,キタ"] です。
- excluded_wordlist of str
非地名語を定義します。 地名解析辞書に登録されている語は地名語として解析されます。 例:本部に行く -> 本部(名詞・固有名詞・地名語)+に(助詞)…… しかし特定の語を地名語として解析したくない場合は非地名語として 定義してください。 デフォルト値は ["本部","一部","月"] です。 環境変数 GEONLP_EXCLUDED_WORD でデフォルト値を設定できます。
その他の解析オプションは以下の通りです。
- address_classstr
住所要素とみなす固有名クラスを正規表現で指定します。 たとえば固有名クラスが「都道府県」である地名語から始まる住所表記だけを 住所として解析したい(市区町村から始まる場合は無視したい)場合は r"^都道府県" を指定します。 デフォルト値は r"^(都道府県|市区町村|行政地域|居住地名)(/.+|)" です。 環境変数 GEONLP_ADRESS_CLASS でデフォルト値を設定できます。
- system_dic_dirstr
MeCab システム辞書のディレクトリを指定します。 省略した場合はデフォルトシステム辞書を利用します。 環境変数 GEONLP_MECAB_DIC_DIR でデフォルト値を設定できます。
- activateDictionaries(idlist=None, pattern=None)
指定した辞書を再び利用するようにします。 既に利用可能な辞書は指定しなくても利用可能なままになります。 新たに利用可能になった辞書のリストを返します。
- パラメータ:
idlist (list) -- 利用する辞書の内部 id または identifier のリスト。
pattern (str) -- 利用する辞書の identifier を指定する正規表現。
- 戻り値:
新たに利用可能になった辞書の identifier のリスト。
- 戻り値の型:
list
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> sorted(service.disactivateDictionaries(pattern=r'.*')) ['geonlp:geoshape-city', 'geonlp:geoshape-pref', 'geonlp:ksj-station-N02'] >>> [x.get_identifier() for x in service.getActiveDictionaries()] [] >>> service.activateDictionaries(pattern=r'ksj-station') ['geonlp:ksj-station-N02'] >>> [x.get_identifier() for x in service.getActiveDictionaries()] ['geonlp:ksj-station-N02']
注釈
idlist と pattern を同時に指定した場合、どちらか一方の条件に 一致する辞書は利用可能になります。
- disactivateDictionaries(idlist=None, pattern=None)
指定した辞書を一時的に除外し、利用しないようにします。 既に除外されている辞書は除外されたままになります。 新たに除外された辞書のリストを返します。
- パラメータ:
idlist (list) -- 除外する辞書の内部 id または identifier のリスト。
pattern (str) -- 除外する辞書の identifier を指定する正規表現。
- 戻り値:
新たに除外された辞書の identifier のリスト。
- 戻り値の型:
list
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.disactivateDictionaries(pattern=r'geonlp:geoshape') ['geonlp:geoshape-city', 'geonlp:geoshape-pref'] >>> [x.get_identifier() for x in service.getActiveDictionaries()] ['geonlp:ksj-station-N02'] >>> service.disactivateDictionaries(pattern=r'ksj-station') ['geonlp:ksj-station-N02'] >>> [x.get_identifier() for x in service.getActiveDictionaries()] []
注釈
idlist と pattern を同時に指定した場合、どちらか一方の条件に 一致する辞書は除外されます。
- getActiveClasses()
解析に利用する固有名クラスの一覧を返します。 デフォルトは '.*' で、全ての固有名クラスが利用されます。
一時的に特定の固有名クラスだけを解析対象としたい場合、 setActiveClasses() で対象クラスを指定できます。
- 戻り値:
利用する固有名クラス(正規表現)のリスト。
- 戻り値の型:
list
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.getActiveClasses() ['.*']
- getActiveDictionaries()
インストール済み辞書のうち、解析に利用する辞書のメタデータ一覧を返します。 デフォルトでは全てのインストール済み辞書を利用します。
一時的に辞書を利用したくない場合、
disactivateDictionaries()
で除外できます。 除外された辞書はactivateDictionaries()
で再び利用可能になります。- 戻り値:
Metadata インスタンスのリスト。
- 戻り値の型:
list
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> sorted([x.get_identifier() for x in service.getActiveDictionaries()]) ['geonlp:geoshape-city', 'geonlp:geoshape-pref', 'geonlp:ksj-station-N02']
- getWordInfo(geolod_id)
指定した geolod_id を持つ語の情報を返します。 id が辞書に存在しない場合は None を返します。
- パラメータ:
geolod_id (str or Iterable) -- 語の ID または ID のリストを返すイテレータ。
- 戻り値:
geolod_id をキー、語の情報を値に持つ dict。
- 戻り値の型:
dict
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.getWordInfo('Bn4q6d') {'body': '国会議事堂前', 'dictionary_id': 3, 'entry_id': 'LrGGxY', 'geolod_id': 'Bn4q6d', 'hypernym': ['東京地下鉄', '4号線丸ノ内線'], 'institution_type': '民営鉄道', 'latitude': '35.674845', 'longitude': '139.74534166666666', 'ne_class': '鉄道施設/鉄道駅', 'railway_class': '普通鉄道', 'suffix': ['駅', ''], 'dictionary_identifier': 'geonlp:ksj-station-N02'}
- ma_parse(sentence)
センテンスを形態素解析した結果を MeCab 互換の文字列として返します。
- パラメータ:
sentence (str) -- 解析する文字列。
- 戻り値:
解析結果の改行区切りテキスト。
- 戻り値の型:
str
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> print(service.ma_parse('今日は国会議事堂前まで歩きました。')) 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 国会議事堂前 名詞,固有名詞,地名語,Bn4q6d:国会議事堂前駅/cE8W4w:国会議事堂前駅,*,*,国会議事堂前,, まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ 歩き 動詞,自立,*,*,五段・カ行イ音便,連用形,歩く,アルキ,アルキ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 EOS
- ma_parseNode(sentence)
センテンスを形態素解析した結果を MeCab 互換のノード配列として返します。
- パラメータ:
sentence (str) -- 解析する文字列。
- 戻り値:
解析結果のリスト。
- 戻り値の型:
list
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.ma_parseNode('今日は国会議事堂前まで歩きました。') [{'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '*', 'pos': 'BOS/EOS', 'prononciation': '*', 'subclass1': '*', 'subclass2': '*', 'subclass3': '*', 'surface': '', 'yomi': '*'}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '今日', 'pos': '名詞', 'prononciation': 'キョー', 'subclass1': '副詞可能', 'subclass2': '*', 'subclass3': '*', 'surface': '今日', 'yomi': 'キョウ'}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': 'は', 'pos': '助詞', 'prononciation': 'ワ', 'subclass1': '係助詞', 'subclass2': '*', 'subclass3': '*', 'surface': 'は', 'yomi': 'ハ'}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '国会議事堂前', 'pos': '名詞', 'prononciation': '', 'subclass1': '固有名詞', 'subclass2': '地名語', 'subclass3': 'Bn4q6d:国会議事堂前駅/cE8W4w:国会議事堂前駅', 'surface': '国会議事堂前', 'yomi': ''}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': 'まで', 'pos': '助詞', 'prononciation': 'マデ', 'subclass1': '副助詞', 'subclass2': '*', 'subclass3': '*', 'surface': 'まで', 'yomi': 'マデ'}, {'conjugated_form': '五段・カ行イ音便', 'conjugation_type': '連用形', 'original_form': '歩く', 'pos': '動詞', 'prononciation': 'アルキ', 'subclass1': '自立', 'subclass2': '*', 'subclass3': '*', 'surface': '歩き', 'yomi': 'アルキ'}, {'conjugated_form': '特殊・マス', 'conjugation_type': '連用形', 'original_form': 'ます', 'pos': '助動詞', 'prononciation': 'マシ', 'subclass1': '*', 'subclass2': '*', 'subclass3': '*', 'surface': 'まし', 'yomi': 'マシ'}, {'conjugated_form': '特殊・タ', 'conjugation_type': '基本形', 'original_form': 'た', 'pos': '助動詞', 'prononciation': 'タ', 'subclass1': '*', 'subclass2': '*', 'subclass3': '*', 'surface': 'た', 'yomi': 'タ'}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '。', 'pos': '記号', 'prononciation': '。', 'subclass1': '句点', 'subclass2': '*', 'subclass3': '*', 'surface': '。', 'yomi': '。'}, {'conjugated_form': '*', 'conjugation_type': '*', 'original_form': '*', 'pos': 'BOS/EOS', 'prononciation': '*', 'subclass1': '*', 'subclass2': '*', 'subclass3': '*', 'surface': '', 'yomi': '*'}]
- searchWord(key)
指定した表記または読みを持つ語の情報を返します。 一致する語が辞書に存在しない場合は None を返します。
- パラメータ:
key (str) -- 語の表記または読み。
- 戻り値:
geolod_id をキー、語の情報を値に持つ dict。
- 戻り値の型:
dict
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.searchWord('国会議事堂前') {'Bn4q6d': {'body': '国会議事堂前', 'dictionary_id': 3, 'entry_id': 'LrGGxY', 'geolod_id': 'Bn4q6d', 'hypernym': ['東京地下鉄', '4号線丸ノ内線'], 'institution_type': '民営鉄道', 'latitude': '35.674845', 'longitude': '139.74534166666666', 'ne_class': '鉄道施設/鉄道駅', 'railway_class': '普通鉄道', 'suffix': ['駅', ''], 'dictionary_identifier': 'geonlp:ksj-station-N02'}, 'cE8W4w': {'body': '国会議事堂前', 'dictionary_id': 3, 'entry_id': '4NFELa', 'geolod_id': 'cE8W4w', 'hypernym': ['東京地下鉄', '9号線千代田線'], 'institution_type': '民営鉄道', 'latitude': '35.673543333333335', 'longitude': '139.74305333333334', 'ne_class': '鉄道施設/鉄道駅', 'railway_class': '普通鉄道', 'suffix': ['駅', ''], 'dictionary_identifier': 'geonlp:ksj-station-N02'}}
- setActiveClasses(patterns=None)
解析対象とする固有名クラスの正規表現リストを指定します。 いずれかの正規表現に一致する固有名クラスは解析対象となります。
'-' から始まる場合、その正規表現に一致する固有名クラスは対象外となります。
- パラメータ:
patterns (list, optional) -- 解析対象とする固有名クラス(str)のリスト。 省略した場合 ['.*'] (全固有名クラス)を対象とします。
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.getActiveClasses() ['.*'] >>> service.searchWord('東京都') {'QknGsa': {...'dictionary_identifier': 'geonlp:geoshape-pref'}} >>> service.setActiveClasses(['.*', '-都道府県']) >>> service.searchWord('東京都') {} >>> service.setActiveClasses() >>> service.getActiveClasses() ['.*']
- setActiveDictionaries(idlist=None, pattern=None)
インストール済み辞書のうち、解析に利用する辞書を指定します。
- パラメータ:
idlist (list, optional) -- 利用する辞書の id または identifier のリスト。
pattern (str, optional) -- 利用する辞書の identifier の正規表現。
サンプル
>>> from pygeonlp.api.service import Service >>> service = Service() >>> service.setActiveDictionaries(pattern=r'geonlp:geoshape') >>> sorted([x.get_identifier() for x in service.getActiveDictionaries()]) ['geonlp:geoshape-city', 'geonlp:geoshape-pref']
注釈
idlist と pattern のどちらかは指定する必要があります。
- class pygeonlp.api.service.ServiceError
ベースクラス:
RuntimeError
サービス実行時に例外が起こると、このクラスが発生します。