田中久美子 (東京大学)
概要 :
言語を複雑さによって類別しようとする代表的な考え方に、チョムスキー階層があり、定性的な類別を与えている。本発表では、プログラムや自然言語に成立する経験則を通して、定量的に言語の複雑さの差異を捉えることを試みる。分析の対象として、Githubなどアーカイブをクロールして集積したC++,pythonなどのプログラムソースを利用する。人の言語には、1.どのような時系列部分をとってきても、語彙の多くが1回限りであること(hapax legomena) 2.時系列の離れた二部分に相関があること(長相関)、との二大特徴があり、それぞれ経験的に冪則として、特徴を計量することができる。本発表では、特に符号化レートならびにFluctuation解析を通し、プログラムの自然言語との共通性と差異を検証し、人の記号列に内在するフラクタル的な性質を考察する。