Информатика сообществ и формирование социальных сетей
Компьютерный анализ текстов
Информационные технологии
А.В. Соловьев, В.А. Тищенко "Проблемы построения алфавитного классификатора (на примере массива СУБД НИКА)"
Системное регулирование национальной и региональной экономики
Управление рисками и безопасностью
А.В. Соловьев, В.А. Тищенко "Проблемы построения алфавитного классификатора (на примере массива СУБД НИКА)"

Аннотация.

Рассматриваются проблемы, возникающие при построении алфавитного классификатора достаточно больших массивов текстовых ключей. По причине неравномерности распределения слов (текстовых ключей) по буквенным сочетаниям возникает проблема, связанная с построением оптимальной структуры алфавитного классификатора для перехода на заданный ключ. Рассматриваются характеристики классификатора, как случайное распределение длины ключа и распределение числа вершин в группе. Предлагается модель регрессионной зависимости с использованием ортогональных полиномов средней длины ключа в группе от максимального числа в ней вершин. Приводится пример построения такой зависимости для поля ФИО. На разных примерах зависимостей анализируется их вид и диапазон применения. Приводится пример зависимости, построенной на основе модели нечеткого регрессионного анализа.

Ключевые слова:

многоуровневый алфавитный классификатор, регрессионная зависимость, длина ключа в классификаторе, число вершин в группе.

Стр. 63-73

Полная версия статьи в формате pdf. 

Литература

1. Bast H., Weber I. Type less, find more: fast autocompletion search with a succinct index // Proc. of SIGIR’06 conference. August 6-11, 2006. P. 364-371.
2. Тищенко В.А. Применение автозаполнения для перехода по ключевым словам на искомые значения в массиве СУБД НИКА // Материалы XXIII Ежегодной богословской конференции ПСТГУ. Т.1. 2013. с. 325-328.
3. Кнут Д.Э. Искусство программирования. Том 3. Сортировка и поиск / Пер. с англ. М.: Вильямс, 2013. Т. 3. 832 с. (Knuth D.E. The Art of Computer Programming. Sorting and Searching. – 2-nd ed. – N.Y.: Addison-Wesley, 1998. Vol.3. 782 p.).
4. Годунов А.Н., Емельянов Н.Е., Косьмынин А.Н., Солдатов В.А. СУБД НИКА // Системы управления базами данных и знаний. М.: Финансы и статистика. 1991. с.208-249.
5. Крамер Г. Математические методы статистики. / Пер. с англ. – М.: Мир, 1975. 648 с. (Cramér H. Mathematical Methods of Statistics. Princeton: Princeton University Press, 1946. 575 p.)
6. Емельянов Н.Е., Тищенко В.А. Методология построения многоуровневого индекса ключевого массива по лексикографическому признаку на основе метода регрессионного анализа на примере СУБД НИКА // Обработка информационных и графических ресурсов / Труды ИСА РАН. Т.58. 2010. С. 6-17.
7. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. – М.: Финансы и статистика, 1986. (Draper N.R., Smith H. Applied regression analysis. – 2nd ed. – N.Y.: John Wiley & Sons, 1966).
8. Орлов А.И. Прикладная статистика. Учебник. М.: Экзамен. 2005. 672 с.
9. Большев Л.Н., Смирнов Н.В. Таблицы прикладной статистики. М.: Наука. 1983. С.416.
10. Кобзарь А.И. Прикладная математическая статистика. Для инженерных и научных работников. М.: Физматлит. 2006. С.816.
11. Орлов А.И., Луценко Е.В. Методы снижения размерности пространства статистических данных // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2016. № 119.
12. Могиленко А.В. Теория нечетких множеств. Нечеткий регрессионный анализ. Томск: Печат. Мануфактура. 2004. С.61.

2024-74-1
2023-73-4
2023-73-3
2023-73-2

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".