連濁の生起率に基づく日本語複合語の分類: 連濁データベースによる研究

Translated title of the contribution: Classification of Japanese Compounds Based on the Frequency of Rendaku: A Study Using the Rendaku Database

太田 聡, 太田 真理, OHTA Satoshi, Shinri Ohta

Research output: Contribution to journalArticle

Abstract

連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90%,複合動詞では40%であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33% and 66%, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90% and 40% for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.
Original languageJapanese
Pages (from-to)179-191
Number of pages13
Journal国立国語研究所論集
Issue number10
DOIs
Publication statusPublished - Jan 2016

Cite this

連濁の生起率に基づく日本語複合語の分類 : 連濁データベースによる研究. / 太田聡; 太田真理; Satoshi, OHTA; Ohta, Shinri.

In: 国立国語研究所論集, No. 10, 01.2016, p. 179-191.

Research output: Contribution to journalArticle

@article{951d4fec02474adab5ba376f66cdf5e8,
title = "連濁の生起率に基づく日本語複合語の分類: 連濁データベースによる研究",
abstract = "連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90{\%},複合動詞では40{\%}であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33{\%} and 66{\%}, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90{\%} and 40{\%} for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.",
author = "聡 太田 and 真理 太田 and OHTA Satoshi and Shinri Ohta",
year = "2016",
month = "1",
doi = "10.15084/00000814",
language = "Japanese",
pages = "179--191",
journal = "国立国語研究所論集",
issn = "2186-134X",
publisher = "国立国語研究所",
number = "10",

}

TY - JOUR

T1 - 連濁の生起率に基づく日本語複合語の分類

T2 - 連濁データベースによる研究

AU - 太田, 聡

AU - 太田, 真理

AU - Satoshi, OHTA

AU - Ohta, Shinri

PY - 2016/1

Y1 - 2016/1

N2 - 連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90%,複合動詞では40%であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33% and 66%, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90% and 40% for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.

AB - 連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90%,複合動詞では40%であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33% and 66%, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90% and 40% for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.

U2 - 10.15084/00000814

DO - 10.15084/00000814

M3 - 記事

SP - 179

EP - 191

JO - 国立国語研究所論集

JF - 国立国語研究所論集

SN - 2186-134X

IS - 10

ER -