クラスター分析とフレーム分析による語彙のジャンル別特徴 : 「現代日本語書き言葉均衡コーパス」を用いて

Translated title of the contribution: Genre Specific Characteristics of Lexicon from the Perspectives of Cluster Analysis and Frame Analysis: A Case Study of BCCWJ

内田 諭, 藤井 聖子

Research output: Contribution to journalArticle

Abstract

本研究は、『現代日本語書き言葉均衡コーパス』における語彙頻度情報に基づき、語彙使用の特徴をジャンル別に明らかにすることを目的とする。基本語彙の特徴を明らかにするため、量的なアプローチとして動詞および名詞の高頻度語彙を対象にコーパスのジャンル間の共起関係を調べ、統計的な類似度の尺度の1つであるコサイン係数によって類似性を測定し、クラスター分析を行った。その結果、名詞・動詞ともに書籍コーパスと教科書コーパスで大きな違いがあること、また文系・理系の分野間では類似性が見られることなどが明らかになった。次に、ジャンルごとの特徴を意味的に明らかにするため、各ジャンルにおける特徴的な動詞について、フレーム意味論およびFrameNetに基づき、フレームの観点から質的な分析を行った。その結果、各ジャンルには典型的に喚起されるフレームが存在することが明らかとなった。FrameNetにおけるフレーム間関係を用いて分析すると、例えば「文学」のジャンルでは「感情」「知覚」「身体動作」などに関するフレームが特徴的に見られることが分かり、これまで明らかにされてこなかったジャンルごとの意味的な特徴が浮かび上がる。This study aims to clarify the genre specific characteristics of lexicon based on the frequency list of Balanced Corpus of Contemporary Written Japanese (BCCWJ). A quantitative approach was adopted to reveal the tendency of frequently-used words by examining co-occurrences of verbs and nouns among each genre of the corpus, which was converted into cosine coefficient to conduct a cluster analysis. The results indicate a clear difference between book subcorpora and textbook subcorpora, and at the same time, similarities within scientific genres and arts genres respectively, both for nouns and verbs. Then, a qualitative approach was employed with the genre specific verbs based on frame semantics and FrameNet to illustrate their semantic characteristics, which implied the existence of genre-specific frames. Using the frame-to-frame relations in FrameNet, it is clear that the genre of literature, for example, is closely associated with the frames of Emotions, Perception, and Body-movement indicating semantic characteristics of a particular genre, a point which previous studies have not successfully explained.
Original languageJapanese
Pages (from-to)21-34
Number of pages14
Journal言語文化論究
Issue number34
DOIs
Publication statusPublished - 2015

Cite this

@article{c987895739ff4988bba8a13361704cf4,
title = "クラスター分析とフレーム分析による語彙のジャンル別特徴 : 「現代日本語書き言葉均衡コーパス」を用いて",
abstract = "本研究は、『現代日本語書き言葉均衡コーパス』における語彙頻度情報に基づき、語彙使用の特徴をジャンル別に明らかにすることを目的とする。基本語彙の特徴を明らかにするため、量的なアプローチとして動詞および名詞の高頻度語彙を対象にコーパスのジャンル間の共起関係を調べ、統計的な類似度の尺度の1つであるコサイン係数によって類似性を測定し、クラスター分析を行った。その結果、名詞・動詞ともに書籍コーパスと教科書コーパスで大きな違いがあること、また文系・理系の分野間では類似性が見られることなどが明らかになった。次に、ジャンルごとの特徴を意味的に明らかにするため、各ジャンルにおける特徴的な動詞について、フレーム意味論およびFrameNetに基づき、フレームの観点から質的な分析を行った。その結果、各ジャンルには典型的に喚起されるフレームが存在することが明らかとなった。FrameNetにおけるフレーム間関係を用いて分析すると、例えば「文学」のジャンルでは「感情」「知覚」「身体動作」などに関するフレームが特徴的に見られることが分かり、これまで明らかにされてこなかったジャンルごとの意味的な特徴が浮かび上がる。This study aims to clarify the genre specific characteristics of lexicon based on the frequency list of Balanced Corpus of Contemporary Written Japanese (BCCWJ). A quantitative approach was adopted to reveal the tendency of frequently-used words by examining co-occurrences of verbs and nouns among each genre of the corpus, which was converted into cosine coefficient to conduct a cluster analysis. The results indicate a clear difference between book subcorpora and textbook subcorpora, and at the same time, similarities within scientific genres and arts genres respectively, both for nouns and verbs. Then, a qualitative approach was employed with the genre specific verbs based on frame semantics and FrameNet to illustrate their semantic characteristics, which implied the existence of genre-specific frames. Using the frame-to-frame relations in FrameNet, it is clear that the genre of literature, for example, is closely associated with the frames of Emotions, Perception, and Body-movement indicating semantic characteristics of a particular genre, a point which previous studies have not successfully explained.",
author = "諭 内田 and 聖子 藤井",
year = "2015",
doi = "10.15017/1500408",
language = "Japanese",
pages = "21--34",
journal = "言語文化論究",
issn = "1341-0032",
publisher = "九州大学大学院言語文化研究院",
number = "34",

}

TY - JOUR

T1 - クラスター分析とフレーム分析による語彙のジャンル別特徴 : 「現代日本語書き言葉均衡コーパス」を用いて

AU - 内田, 諭

AU - 藤井, 聖子

PY - 2015

Y1 - 2015

N2 - 本研究は、『現代日本語書き言葉均衡コーパス』における語彙頻度情報に基づき、語彙使用の特徴をジャンル別に明らかにすることを目的とする。基本語彙の特徴を明らかにするため、量的なアプローチとして動詞および名詞の高頻度語彙を対象にコーパスのジャンル間の共起関係を調べ、統計的な類似度の尺度の1つであるコサイン係数によって類似性を測定し、クラスター分析を行った。その結果、名詞・動詞ともに書籍コーパスと教科書コーパスで大きな違いがあること、また文系・理系の分野間では類似性が見られることなどが明らかになった。次に、ジャンルごとの特徴を意味的に明らかにするため、各ジャンルにおける特徴的な動詞について、フレーム意味論およびFrameNetに基づき、フレームの観点から質的な分析を行った。その結果、各ジャンルには典型的に喚起されるフレームが存在することが明らかとなった。FrameNetにおけるフレーム間関係を用いて分析すると、例えば「文学」のジャンルでは「感情」「知覚」「身体動作」などに関するフレームが特徴的に見られることが分かり、これまで明らかにされてこなかったジャンルごとの意味的な特徴が浮かび上がる。This study aims to clarify the genre specific characteristics of lexicon based on the frequency list of Balanced Corpus of Contemporary Written Japanese (BCCWJ). A quantitative approach was adopted to reveal the tendency of frequently-used words by examining co-occurrences of verbs and nouns among each genre of the corpus, which was converted into cosine coefficient to conduct a cluster analysis. The results indicate a clear difference between book subcorpora and textbook subcorpora, and at the same time, similarities within scientific genres and arts genres respectively, both for nouns and verbs. Then, a qualitative approach was employed with the genre specific verbs based on frame semantics and FrameNet to illustrate their semantic characteristics, which implied the existence of genre-specific frames. Using the frame-to-frame relations in FrameNet, it is clear that the genre of literature, for example, is closely associated with the frames of Emotions, Perception, and Body-movement indicating semantic characteristics of a particular genre, a point which previous studies have not successfully explained.

AB - 本研究は、『現代日本語書き言葉均衡コーパス』における語彙頻度情報に基づき、語彙使用の特徴をジャンル別に明らかにすることを目的とする。基本語彙の特徴を明らかにするため、量的なアプローチとして動詞および名詞の高頻度語彙を対象にコーパスのジャンル間の共起関係を調べ、統計的な類似度の尺度の1つであるコサイン係数によって類似性を測定し、クラスター分析を行った。その結果、名詞・動詞ともに書籍コーパスと教科書コーパスで大きな違いがあること、また文系・理系の分野間では類似性が見られることなどが明らかになった。次に、ジャンルごとの特徴を意味的に明らかにするため、各ジャンルにおける特徴的な動詞について、フレーム意味論およびFrameNetに基づき、フレームの観点から質的な分析を行った。その結果、各ジャンルには典型的に喚起されるフレームが存在することが明らかとなった。FrameNetにおけるフレーム間関係を用いて分析すると、例えば「文学」のジャンルでは「感情」「知覚」「身体動作」などに関するフレームが特徴的に見られることが分かり、これまで明らかにされてこなかったジャンルごとの意味的な特徴が浮かび上がる。This study aims to clarify the genre specific characteristics of lexicon based on the frequency list of Balanced Corpus of Contemporary Written Japanese (BCCWJ). A quantitative approach was adopted to reveal the tendency of frequently-used words by examining co-occurrences of verbs and nouns among each genre of the corpus, which was converted into cosine coefficient to conduct a cluster analysis. The results indicate a clear difference between book subcorpora and textbook subcorpora, and at the same time, similarities within scientific genres and arts genres respectively, both for nouns and verbs. Then, a qualitative approach was employed with the genre specific verbs based on frame semantics and FrameNet to illustrate their semantic characteristics, which implied the existence of genre-specific frames. Using the frame-to-frame relations in FrameNet, it is clear that the genre of literature, for example, is closely associated with the frames of Emotions, Perception, and Body-movement indicating semantic characteristics of a particular genre, a point which previous studies have not successfully explained.

U2 - 10.15017/1500408

DO - 10.15017/1500408

M3 - 記事

SP - 21

EP - 34

JO - 言語文化論究

JF - 言語文化論究

SN - 1341-0032

IS - 34

ER -