 |
А.В. Соловьев, В.А. Тищенко "Проблемы построения алфавитного классификатора (на примере массива СУБД НИКА)" |
 |
Аннотация. Рассматриваются проблемы, возникающие при построении алфавитного классификатора достаточно больших массивов текстовых ключей. По причине неравномерности распределения слов (текстовых ключей) по буквенным сочетаниям возникает проблема, связанная с построением оптимальной структуры алфавитного классификатора для перехода на заданный ключ. Рассматриваются характеристики классификатора, как случайное распределение длины ключа и распределение числа вершин в группе. Предлагается модель регрессионной зависимости с использованием ортогональных полиномов средней длины ключа в группе от максимального числа в ней вершин. Приводится пример построения такой зависимости для поля ФИО. На разных примерах зависимостей анализируется их вид и диапазон применения. Приводится пример зависимости, построенной на основе модели нечеткого регрессионного анализа. Ключевые слова:многоуровневый алфавитный классификатор, регрессионная зависимость, длина ключа в классификаторе, число вершин в группе. Стр. 63-73 Полная версия статьи в формате pdf. Литература1. Bast H., Weber I. Type less, find more: fast autocompletion search with a succinct index // Proc. of SIGIR’06 conference. August 6-11, 2006. P. 364-371. 2. Тищенко В.А. Применение автозаполнения для перехода по ключевым словам на искомые значения в массиве СУБД НИКА // Материалы XXIII Ежегодной богословской конференции ПСТГУ. Т.1. 2013. с. 325-328. 3. Кнут Д.Э. Искусство программирования. Том 3. Сортировка и поиск / Пер. с англ. М.: Вильямс, 2013. Т. 3. 832 с. (Knuth D.E. The Art of Computer Programming. Sorting and Searching. – 2-nd ed. – N.Y.: Addison-Wesley, 1998. Vol.3. 782 p.). 4. Годунов А.Н., Емельянов Н.Е., Косьмынин А.Н., Солдатов В.А. СУБД НИКА // Системы управления базами данных и знаний. М.: Финансы и статистика. 1991. с.208-249. 5. Крамер Г. Математические методы статистики. / Пер. с англ. – М.: Мир, 1975. 648 с. (Cramér H. Mathematical Methods of Statistics. Princeton: Princeton University Press, 1946. 575 p.) 6. Емельянов Н.Е., Тищенко В.А. Методология построения многоуровневого индекса ключевого массива по лексикографическому признаку на основе метода регрессионного анализа на примере СУБД НИКА // Обработка информационных и графических ресурсов / Труды ИСА РАН. Т.58. 2010. С. 6-17. 7. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. – М.: Финансы и статистика, 1986. (Draper N.R., Smith H. Applied regression analysis. – 2nd ed. – N.Y.: John Wiley & Sons, 1966). 8. Орлов А.И. Прикладная статистика. Учебник. М.: Экзамен. 2005. 672 с. 9. Большев Л.Н., Смирнов Н.В. Таблицы прикладной статистики. М.: Наука. 1983. С.416. 10. Кобзарь А.И. Прикладная математическая статистика. Для инженерных и научных работников. М.: Физматлит. 2006. С.816. 11. Орлов А.И., Луценко Е.В. Методы снижения размерности пространства статистических данных // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2016. № 119. 12. Могиленко А.В. Теория нечетких множеств. Нечеткий регрессионный анализ. Томск: Печат. Мануфактура. 2004. С.61.
|