|
Автор: Ю. Н. Орлов |
Издательство: Синергия |
Год: 2010 |
Cтраниц: 1 |
Формат: PDF |
Размер: 0 |
ISBN: 978-5-457-38494-1 |
Качество: excellent |
Язык: |
|
 |
Описание:
|
В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.
|
Просмотров: 66 Пресс - релиз
string(4) "true"
int(290)
|