Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации
Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации
ДИПЛОМНЫЙ ПРОЕКТ
Выпускная квалификационная работа дипломированного специалиста
Специальность 230102
Автоматизированные системы обработки информации и управления
АВТОМАТИЗИРОВАННАЯ ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА КЛАССИФИКАЦИИ ИНФОРМАЦИОННЫХ СООБЩЕНИЙ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ
Содержание
Введение
1. Обзор и анализ существующих систем
2. Общесистемные решения
2.1 Пояснительная записка к техническому проекту
2.2 Описание схемы организационной структуры управления информационных и аналитических технологий аппарата администрации Тульской области
2.3 Описание автоматизируемых функций и схемы функциональной структуры АИС «Классификатор»
2.4 Описание постановки задачи
3 Информационное обеспечение
3.1 Перечень входных данных
3.2 Перечень выходных данных и документов
3.3 Описание информационного обеспечения АИС «Классификатор»
3.4 Описание организации информационной базы
4 Математическое обеспечение
4.1 Математическая постановка задачи классификации информационных сообщений СМИ
4.2 Описание метода нечеткого поиска
4.3 Описание запросов
4.4 Описание схемы работы системы
5. Техническое обеспечение
5.1 Описание комплекса технических средств
5.2 Инструкция по эксплуатации комплекса технических средств
6 Программное обеспечение
6.1 Описание программного обеспечения
6.2 Описание контрольного примера
7 Организационное обеспечение
7.1 Описание организационной структуры
7.2 Руководство пользователя
Заключение
Библиографический список
Приложения
1. Структура входных и выходных документов
2. Текст программы.
ВВЕДЕНИЕ
При современном уровне развития информационных технологий использование компьютера для хранения любых видов информации становится единственным способом, предоставляющим широчайшие возможности по управлению информацией.
В настоящее время идет постоянный и быстрый рост объемов информации. Значительную часть этой информации составляют текстовые данные. В связи с этим встает проблема создания средств доступа к текстовой информации.
Технически существует возможность доступа к значительной части имеющихся текстов, но практически доступна лишь малая часть. Это связано с несовершенством средств доступа. Современные средства поиска, каталогизации, описания текстов не удовлетворяют нарастающим потребностям пользователей. Требуется их развитие в направлении повышения эффективности поиска информации и упрощения взаимодействия с пользователем.
Возможным путем решения проблемы является создание технико-информационных средств описания смысла имеющихся текстов с возможностью дальнейшего осмысленного поиска в массиве текстовой информации. Причем большие и постоянно увеличивающиеся объемы текстовой информации требуют, чтобы такие средства работали в автоматическом режиме.
Наиболее важным направлением автоматизации деятельности предприятий является использование современных информационных технологий для хранения, систематизации и эффективной обработки информации, поступающей из различных источников, а также использования этой информации в целях выработки рекомендаций для принятия управленческих решений.
Проблема использования большого объема накопленных данных является ключевой во многих организациях. Проблема работы с большим количеством информации имеет два аспекта:
- автоматический сбор информации;
- автоматический разбор поступившей информации по данной тематике, проведенный на основе анализа текста документа.
В связи с этим, во-первых, появляется задача загрузки информации в систему. Процесс загрузки заключается в занесении данных с носителя информации в хранилище данных. Поставляющие информацию оперативные системы далеко не всегда обладают достаточным уровнем качества данных, поэтому процесс загрузки этих данных в хранилище не ограничивается простым копированием, а включает в себя очистку, согласование и контроль качества. Хранилища данных загружают и постоянно обновляют огромные объемы данных из различных источников, поэтому вероятность попадания в них "грязных данных" весьма высока. Поэтому появляется проблема поиска и выборки необходимой информации из больших массивов текстовых данных.
Эффективность поиска в большом информационном массиве существенно повысится, если его разбить на части по некоторому критерию, связанному с целями поиска. Следовательно, во-вторых, появляется проблема классификации сообщений. Для решения задачи анализа текстовой информации и последующего автоматического распределения ее по требуемым тематикам необходимо в первую очередь сформировать рубрикатор, то есть задать список рубрик и словарь, наиболее точно характеризующие исследуемую область знаний. Классификация документов позволяет сузить область поиска и не только увеличить его скорость, но и значительно повысить точность результатов. Поэтому технологии автоматической классификации документов отводится важное место в системах управления электронным документооборотом.
Суть задачи классификации состоит в автоматическом распределении поступающих в систему документов в зависимости от их типа и содержания по рубрикам.
В настоящее время в структуре областной исполнительной власти ответственность за поддержание информационного тонуса в регионе возложена на управление информационных и аналитических технологий аппарата администрации Тульской области (УИАТ ТО), одной из задач которого является создание условий для удовлетворения информационных потребностей органов власти, населения.
В целях обеспечения информацией органов власти и населения все больше внимание уделяется совершенствованию профессионального мастерства рабочего персонала отдела технологий отображения информации (ОТОИ) УИАТ ТО, повышению оперативности и эффективности работы. ОТОИ осуществляет свою деятельность в сфере управления процессами создания и внедрения передовых информационных технологий и в сфере управления вопросами графической обработки и отображения информации.
Внедрение системы автоматизации в технологические процессы отделов по управлению информацией позволяет максимально использовать их возможности:
- автоматизация процесса загрузки информационных сообщений СМИ в информационную базу системы позволяет улучшить качество данных, выявить и удалить ошибки несоответствий в данных;
- автоматизация процесса поиска позволяет частично снять нагрузку с работника и сократить время по отслеживанию необходимой информации;
- автоматизация процесса классификации информационных сообщений СМИ позволяет автоматически распределить поступающие в систему информационные сообщения в зависимости от их типа и содержания по рубрикам.
Управление процессами в отделах по управлению информацией должно выполняться в режиме реального времени для более успешного развития предприятия. Также необходимы такие возможности, чтобы система быстро реагировала на возникающие изменения.
Одним из путей повышения эффективности деятельности отделов по управлению информацией является совершенствование работы процессов по формированию информации. Поэтому важное место занимает проблема автоматизации работы консультанта ОТОИ, связанной с обработкой информации и присвоение ей классифицирующих атрибутов.
1 ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ КЛАССИФИКАЦИИ ИНФОРМАЦИИ
В настоящее время задача автоматического разнесения информационного потока по тематическим рубрикам является одной из важнейшей в области обработки информации в системах электронного документооборота. Главное внимание при организации работ по управлению информацией сосредоточено на проблему автоматизации процессов классификации информационных сообщений СМИ. Наиболее актуальными являются задачи загрузки информационных сообщений в информационную базу, обработки текстовой и цифровой информации, переход к структурированным сообщениям, оперативная корректировка структуры рубрикатора и словаря.
В настоящее время в отделах документооборота началось активное использование программных продуктов для автоматизации процесса классификации.
Наибольшее распространение в отделах документооборота получили программные продукты: поисково-аналитическая система «Галактика-Зум», система «Термин-5», информационно-аналитическая система «Астарта», информационно-аналитическая система INLINE Technologies.
Каждый из вариантов имеет свои преимущества и недостатки. Наиболее распространенные зарубежные системы хорошо отлажены, но имеют гораздо более высокую стоимость, недостаточно приспособлены к принятым в организациях технологиям, стандартам и форматам, что требует их серьезной и дорогостоящей адаптации.
Отставание отечественных систем объясняется в основном тем, что при отсутствии значительных финансовых инвестиций российские системы используют в качестве базового программного обеспечения бесплатные или дешевые пакеты программ, которые не предназначены для создания высокотехнологичных систем.
Учитывая сложившуюся ситуацию, целесообразно осуществить анализ отечественных систем с целью доработки их до уровня полной конкурентоспособности.
Рассмотрим ряд автоматизированных систем по процессу классификации информации.
Поисково-аналитическая система «Галактика-Зум» предназначена для компаний и организаций, которым необходимо автоматизировать процесс классификации.
Программа предоставляет следующие возможности:
- определение «информационного портрета» запрашиваемой темы, то есть набор упорядоченных по значимости ключевых слов и словосочетаний, характерный именно для данной выборки;
- решение задачи ранжирования документов выборки по значимости - по наибольшему соответствию инфопортрету выборки количества значимых тем и их ранга в рассматриваемом документе;
- корректирование полученных инфопортретов;
- сравнение инфопортрета документа с инфопортретами рубрик, с отсечение малохарактерных инфопортретов.
Информационно-аналитическая система «Астарта» предназначена для компаний и организаций, которым необходимо автоматизировать и кардинальным образом повысить эффективность сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов, СМИ и т.д. Программное решение базируется на технологии «Евфрат» и предназначено для сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов СМИ и других источников.
К недостаткам данных систем можно отнести следующее:
- неудобный для работы интерфейс;
- отсутствие достаточно полного словаря для процесса классификации информационных сообщений;
- отсутствие необходимых для эффективной работы функций формирования рекомендаций для принятия решений и отчетов.
Таким образом, учитывая возможности и недостатки существующих систем, необходимо разработать систему, которая предоставляла бы следующие возможности:
- создание информационной базы для автоматизированного процесса классификации статей по категориям рубрикатора;
- загрузка информационных сообщений СМИ в информационную базу;
- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;
- классификация информационных сообщений с использованием метода ранжирования;
- возможность оперативной корректировки структуры рубрикатора и словаря;
- формирование рекомендаций для принятия решений;
- формирование отчетов.
2 ОБЩЕСИСТЕМНЫЕ РЕШЕНИЯ
2.1 Пояснительная записка к техническому проекту
Полное наименование системы: Автоматизированная интеллектуальная система классификации информационных сообщений средств массовой информации (СМИ). Условное обозначение: АИС «Классификатор».
Заказчик: Управление информационных и аналитических технологий аппарата администрации Тульской области (УИАТ ТО), отдел технологий отображения информации (ОТОИ).
Разработчик: студентка Тульского государственного университета факультета Экономики и права кафедры Автоматизированных информационных и управляющих систем группы 730211 Жиренкова Ирина Юрьевна.
Плановые сроки начала и окончания работы по созданию системы:
- начало работ: 1 сентября 2006 года;
- окончание работ: 1 декабря 2006 года.
Разрабатываемая АИС «Классификатор» предназначена для обеспечения более удобной, эффективной и качественной работы консультанта ОТОИ, связанной с обработкой информации и присвоение ей классифицирующих атрибутов.
Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Система позволит освободить человека от необходимости рутинной работы по отслеживанию необходимой информации, принадлежащей к той или иной рубрике, а также сократить время на их обработку.
АИС «Классификатор» включает в себя следующие подсистемы:
1) подсистема ведения информационной базы;
2) подсистема обработки информационных сообщений СМИ;
3) подсистема настройки параметров;
4) подсистема классификации информационных сообщений СМИ.
Подсистема ведения информационной базы должна выполнять следующие функции:
1) формирование информационной базы;
2) добавление записи;
3) изменение записи;
4) удаление записи;
5) сохранение записи.
Подсистема обработки информационных сообщений СМИ должна выполнять следующие функции:
1) открытие списка текстовых файлов в каталоге;
2) открытие файла;
3) считывание строки из файла;
4) запись информационных сообщений СМИ в базу;
5) закрытие файла.
Подсистема настройки параметров должна выполнять следующие функции:
1) определение каталога с файлами;
2) настройка расширения файлов с исходными данными;
3) настройка параметров классификации.
Подсистема классификации информационных сообщений СМИ должна выполнять следующие функции:
1) поиск записей по различным ключам словаря с помощью метода нечеткого поиска;
2) классификация сообщений по результатам поиска;
3) формирование рекомендаций для принятия решений;
4) формирование отчетов.
Информационное обеспечение организовано в соответствии с принципами развития, совместимости, стандартизации и унификации.
Входными данными являются:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
Выходными данными являются результаты классификации информационных сообщений СМИ.
Выходными документами являются:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
АИС «Классификатор» была разработана в среде программирования Borland Delphi 7.0, основным инструментом которого является Object Pascal. На магнитных носителях сведения о сообщениях хранятся в виде базы, которая разработана в системе MS Access. Сами информационные сообщения хранятся в файлах на жестком диске. Программное обеспечение реализовано с помощью модульного принципа и функционирует независимо от аппаратной части.
Для функционирования АИС «Классификатор» разработан комплекс технических средств, включающий в себя ПЭВМ на базе процессора Intel Celeron с тактовой частотой 2 ГГц, клавиатуру, мышь, монитор SVGA, 2 Гбайт на жестком диске, 512 Мбайт оперативной памяти (RAM), операционную систему Windows Me, 2000, XP.
Для ввода системы в эксплуатацию необходима персональная ЭВМ с набором периферийных устройств рабочего места. Также необходимо провести ознакомление консультанта ОТОИ с принципами работы данной системы.
2.2 Описание схемы организационной структуры управления информационных и аналитических технологий аппарата администрации Тульской области
Руководит управлением информационных и аналитических технологий аппарата администрации Тульской области начальник управления. В непосредственном подчинении у начальника находится заместитель начальника управления. У заместителя в подчинении определенное количество подразделений (отделов). Схема организационной структуры управления информационных и аналитических технологий приведена на рисунке 2.1.
ОТОИ осуществляет свою деятельность в сфере управления процессами создания и внедрения передовых информационных технологий и в сфере управления вопросами графической обработки и отображения информации.
Основными задачами и функциями отдела являются:
- участие в подготовке управленческих решений (нормативно-правовых актов губернатора и администрации Тульской области) в сфере информатизации;
- участие в организации информационного взаимодействия федеральных и региональных органов власти, органов местного самоуправления путем отработки технологии изготовления и распространения информационных и информационно-правовых электронных и печатных бюллетеней и сборников;
- подготовка справочных, информационных и аналитических материалов в целях повышения информированности и компетентности представителей органов власти;
- сбор и обработка информации о деятельности органов исполнительной власти, аппарата администрации Тульской области, органов местного самоуправления региона в целях создания государственных информационных ресурсов;
- техническое, информационное, лингвистическое, организационное участие в наполнении сайта (портала) администрации Тульской области, включая разработку интернет-страниц;
- подготовка предложений по применению в органах исполнительной власти новых технических средств и компьютерных технологий ввода, обработки и отображения графической, текстовой, гипертекстовой, аудио- и видеоинформации;
- подготовка информационных материалов для публикации в федеральных изданиях.
В целях организации информационного обмена между структурными подразделениями областной администрации, муниципальными образованиями области и органами власти регионов экономического Центра России
осуществляется выпуск информационно-правового периодического издания «Вестник администрации Тульской области», периодических электронных бюллетеней «Опыт регионов» и «В Туле и области».
Подготовка этих материалов включает в себя разработку тематики и композиционной структуры каждого выпуска, стилистическое и техническое редактирование материалов.
Основополагающими принципами организации выпуска информационных материалов являются:
- соответствие задачам, решаемым местными органами власти;
- оперативность и достоверность предоставляемой информации;
- читабельность выпускаемых материалов (техническая грамотность, доходчивость изложения, лаконичность).
Необходимо автоматизировать работу консультанта, который от Центра правительственной связи (ЦПС) по Тульской области регулярно получает объемный массив информации, основанный на публикациях СМИ различных регионов. Перед специалистом департамента стоит задача переработать его до читабельного объема и удобной для пользователей формы.
Должностная инструкция консультанта отдела технологий отображения информации
Эффективно организует служебную деятельность во взаимосвязи с государственными органами и органами местного самоуправления Тульской области, государственными и муниципальными служащими Тульской области, организациями, гражданами.
Владеет современными средствами, методами и технологией работы с информацией и документами.
Владеет оргтехникой и средствами коммуникации.
Разрабатывает проекты законов и иных нормативных правовых актов по направлению деятельности.
Ведет служебный документооборот, исполняет служебные документы, подготавливает проекты ответов на обращения организаций, граждан.
Систематизирует и подготавливает аналитический, информационный материал, в том числе для средств массовой информации.
7. Осуществляет сбор, обработку и предоставление информации о деятельности региональных и муниципальных органов власти области в виде информационных (электронных и печатных) бюллетеней, сборников, буклетов и т.д.
8. Подготавливает материалы для сайта (портала) администрации Тульской области.
9. Определяет тематику, сроки предоставления и оформления аналитических и иных материалов, размещаемых в официальном информационно-правовом издании «Вестник администрации Тульской области», электронных информационных бюллетенях и на сайте администрации области.
2.3 Описание автоматизируемых функций и схемы функциональной структуры АИС «Классификатор»
Используя методологию IDEF0 при проектировании АИС «Классификатор» была получена ее функциональная модель.
Главной функцией системы (А0) является автоматизация процесса классификации информационных сообщений СМИ. Для реализации данной функции необходимо реализовать следующие функции:
А0 Автоматизировать процесс классификации информационных сообщений СМИ
А1 Обработать информационные сообщения СМИ
А11 Открыть файл
А12 Считать информационные сообщения из файла
А13 Сформировать сообщения СМИ для занесения в информационную базу
А2 Вести информационную базу
А21 Создать информационную базу
А22 Добавить запись
А23 Изменить запись
А24 Удалить запись
А25 Сохранить запись
А3 Настроить параметры
А31 Определить каталог с файлами
А32 Задать расширение файлов
А33 Настроить параметры классификации
А4 Выполнять классификацию информационных сообщений СМИ
А41 Найти запись по различным ключам словаря
А42 Классифицировать информационных сообщений СМИ
А43 Выдавать результаты классификации
А5 Формировать отчеты
Дерево узлов, разработанной модели представлено на рисунке 2.2. Контекстная диаграмма А-0 и ее дочерние диаграммы представлены в приложении Б.
2.4 Описание постановки задачи
Целью создания системы является автоматизация процесса классификации информационных сообщений СМИ. Комплекс задач, реализуемых разрабатываемой системой, должен обеспечивать удобную, быструю и качественную работу консультанта ОТОИ.
Основными задачами АИС «Классификатор» будут следующие:
- создание информационной базы для автоматизированного процесса классификации статей к той или иной категории;
- загрузка информационных сообщений СМИ в базу;
- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;
- классификация информационных сообщений с использованием метода ранжирования;
- открытость структуры рубрикатора и словаря, то есть возможность оперативной их корректировки;
- формирование рекомендаций для принятия решений;
- формирование отчетов.
Входной информацией для реализации задач системы являются:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
Выходными данными являются результаты классификации информационных сообщений СМИ.
Выходными документами являются:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
3 ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ
3.1 Перечень входных данных
Для разработки АИС «Классификатор» используются следующие входные данные:
- информационные сообщения СМИ;
- параметры классификации;
- рубрикатор тем;
- словарь.
3.2 Перечень выходных данных и документов
Выходными данными будут результаты классификации информационных сообщений СМИ.
Выходными документами будут:
- отчет по результатам классификации;
- отчет по обработанным сообщениям СМИ.
3.3 Описание информационного обеспечения АИС «Классификатор»
3.3.1 Описание структуры входных информационных сообщений и выходных данных и документов
Информационные сообщения СМИ подготавливаются в виде текстовых файлов.
Текстовые файлы формируются в формате MS DOS в кодировке ASCII.
Имя текстового файла состоит из собственного имени, занимающего 6 знакомест, и 3 символов расширения. Порядок образования имени текстового файла имеет следующую структуру:
ГГЧЧММ.smi,
где ГГ - наименование города, из которого пришло информационное сообщение (2 знакоместа);
ЧЧ - число месяца (2 знакоместа), за которое подготовлено информационное сообщение;
ММ - месяц, в котором подготовлено информационное сообщение;
smi - расширение информационного сообщения СМИ.
3.3.2 Описание структуры информационной части сообщения СМИ
Текстовый файл сформирован без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).
В состав текстового файла может входить несколько информационных сообщений.
При формировании текстового файла с 1-ой позиции на отдельной строке без пропуска строк введена информационная часть сообщения.
Информационная часть сообщения имеет следующую структуру:
АО ХХХХХХХ
==/СМИ
01/ХХХХ
02/ДДММГГ
03/ХХХХХХХХ
04/ХХХХХХХХ
05/ХХ
06/ключевые слова и текст статьи
07/наименование статьи
08/автор статьи
===
где АО ХХХХХХХ - адрес отправителя;
АО - заглавные буквы русского алфавита;
ХХХХХХХ - семизначный код отправителя.
Между буквами (АО) и кодом допускается один пробел.
==/ - признак начала информационной части (два символа "равно" и слеш - справа налево);
СМИ - принадлежность сообщения СМИ.
Каждое информационное сообщение отделяется этим набором символов.
Далее заполняются атрибуты с 1-й позиции по 8-ю:
01/ - четырехзначный код источника информации (код или наименование газеты);
02/ - дата публикации в формате ДДММГГ;
03/ - шести- или восьмизначный код региона;
04/ - наименование населенного пункта (или его 8-разрядный код), о котором пи-шется в статье газеты.
Атрибут заполняется заглавными буквами без указаний г., п., пгт. Под населенным пунктом подразумевается город, село, но не район области, не район города.
05/ - двузначный код отрасли, о которой идет речь в соответствии с классификатором отраслей. Если в статье газеты затрагивается нескольких отраслей, то код каждой из них дается отдельной строкой с указателем - 05/;
06/ - ключевые слова и текст статьи.
Первая строка атрибута - ключевые слова по тематике, отраженной в статье. Ключевые слова отделяются друг от друга точкой. Например:
Бюджет. Задолженность.
Содержание статьи, отражающее существо затронутой проблемы. Оно имеет неограниченную длину, но с учетом ограничений объема сообщений в сетях. Продолжение статьи во второй и последующих строках начинается с 4-й позиции, длина строки должна быть не более 55 знаков.
07/ - наименование статьи. Заносится в атрибут полностью, как в оригинале статьи газеты;
08/ - автор статьи.
Все значения атрибутов заносятся сразу же после слеша без пропуска пустых знакомест.
=== - признак завершения информационного сообщения (три символа "равно").
Пример заполнения информационной части сообщения приведен в приложении В.
3.3.3 Основные требования, предъявляемые к подготовке сообщений СМИ в части орфографии
К подготовке информационных сообщений СМИ предъявляются следующие требования:
1. Текст сообщения подготавливается в виде текстового файла.
2. Информация в текстовом файле размещается в одну колонку и не форматируется.
3. Текстовый файл формируется без разбиения на страницы с сохранением оригинальной структуры публикаций (абзацы, красные строки и др.).
4. Информация в текстовый файл вводится прописными и строчными буквами как в статье газеты.
5. В текстовый файл вводятся наименование рубрики, подзаголовок (если они присутствуют) и текст статьи отдельными абзацами.
6. Абзацы, перечень пунктов и т.п. в тексте не отделяются "пустой" строкой.
7. Русские слова текста не должны содержать букв латинского алфавита; римские цифры - русских букв.
8. Текст не должен содержать незаконченных предложений и обрывов в словах.
9. В текстовый файл не заносятся:
- рекламные вставки, фотографии, таблицы, графики, диаграммы и другие графические материалы;
- название города, стоящее в начале или в конце текста статьи, так как оно заносится в атрибут 04/;
- спецсимволы, отсутствующие на клавиатуре ПЭВМ.
Если в конце текста статьи имеется ссылка на источник, из которого напечатан текст, то она заносится на первой строке перед текстом. Например:
По материалам российского радио.
10. Если к статье газеты дается аннотация или комментарий, выделенные
другим шрифтом, заключенные или не заключенные в рамку, то они вводятся после текста статьи в обычном шрифте без рамки, отделяя словами:
Комментарий (фамилия автора).
11. Фамилия от инициалов отделяется пробелом.
12. Слова текста, напечатанные в разрядку (через пробел) вводятся слитно. Ключевые слова в тексте должны быть полными без разрывов и сокращения.
13. Аббревиатуры вводятся без точек и разрядки.
14. Сокращения типа: т.д., т.п., с.г., т.г. вводятся без разрядки.
15. В числах между цифрами не должно быть пробелов.
16. Римские цифры вводить на латинском регистре большими буквами. Например: XXIV.
17. Спецсимволы, встречающиеся в математических формулах, должны быть заменены на буквы русского или латинского алфавита.
18. Химические элементы, единицы измерения, математические выражения и прочая информация вводится в текстовый файл в соответствии с таблицей значений (приложение Г).
19. Примечание (сноска) вводится в текстовый файл с красной строки после текста, отделяется чертой. Например:
_________________
(прим.2) - ...
*) ....
20. Если в газете под одним наименованием несколько сообщений из разных регионов, то каждое сообщение оформляется отдельным текстовым файлом.
21. Если статья газеты имеет продолжение в следующем номере газеты, то ее текстовый файл готовится обычным способом, а в конце текста с красной строки вводится: «Продолжение в N ». Если статья является продолжением предыдущего номера газеты, то в начале текста вводится: «Начало в N ».
22. Текст сообщения должен быть отредактирован. Все спецсимволы в
тексте должны быть заменены следующим образом:
- кавычки («») на кавычки (" ");
- номер (№) на номер (латинская буква N);
- длинное тире () на тире (-);
- буква (ё) на букву (е);
- апостроф (') на твердый знак.
Характерными ошибками в текстовых файлах являются:
- орфографические ошибки в русских словах: пропуск букв(ы), лишняя(ие) буква(ы), замена букв(ы), латинская(ие) буква(ы);
- слова написаны слитно без пробела;
- в сложных словосочетаниях пропуск дефиса;
- после сокращения и знаков препинания отсутствует пробел;
- пропуск точки в сокращении и в единицах измерения;
- вместо запятой стоит точка и наоборот;
- вместо номера (латинской буквы N) стоит другой символ.
Параметры классификации включают в себя задание количества совпадений по названию статьи, по тексту статьи и по ключевым словам текста статьи. Здесь же задается порог нечеткого поиска в процентах от 40 до 100. Чем выше процент, тем четче поиск.
Рубрикатор тем представляет собой перечень рубрик на бумажных носителях и имеет следующую структуру:
- рубрики 1-го уровня;
- рубрики 2-го уровня, раскрывающие суть рубрик 1-го уровня;
- рубрики 3-го уровня, раскрывающие суть рубрик 2-го уровня;
- рубрики 4-го уровня, раскрывающие суть рубрик 3-го уровня.
Рубрикам 3-го и 4-го уровней соответствуют свои словари, представляющие собой перечень ключевых слов. Рубрикатор тем и словарь приведены в приложении Д.
Результаты классификации информационных сообщений СМИ содержат код рубрики, наименование рубрики, количество совпадений по названию, тексту, ключевым словам статьи, и окончательный результат
классификации.
Отчет по результатам классификации содержит данные по каждой статье: дату, выбранный файл, название статьи, ключевые слова статьи, автора, текст статьи, количество совпадений по названию, тексту и ключевым словам статьи.
Отчет по обработанным сообщениям СМИ содержит результаты классификации по каждому файлу и включает: дату, название статьи, ключевые слова статьи, автора, текст статьи и сопоставленные рубрики.
Структура выходных данных и документов представлена в приложении Е.
3.4 Описание организации информационной базы
3.4.1 Описание организации внутримашинной базы
Все сведения о сообщениях СМИ хранятся в базе данных, которая состоит из следующих таблиц:
- статьи;
- газета;
- регион;
- отрасль;
- справочник отраслей;
- рубрики;
- классификация;
- рубрикатор 1;
- рубрикатор 2;
- рубрикатор 3;
- рубрикатор 4;
- словарь рубрикатора 3;
- словарь рубрикатора 4.
Их описание представлено в таблицах 3.1 - 3.13 соответственно.
Таблица 3.1 - Таблица «Статьи»
Первичный ключ
|
Атрибуты
|
Тип данных
|
Описание
|
|
|
Код газеты
|
Числовой
|
Длина 2 символа
|
|
|
Код региона
|
Числовой
|
Длина 8 символов
|
|
|
Код статьи
|
Счетчик
|
Последовательное значение
|
|
Уникальный ключ
|
Наименование
|
Текстовый
|
Длина 150 символов
|
|
|
Ключевые слова
|
Текстовый
|
Длина 255 символов
|
|
|
Текст
|
Поле MEMO
|
|
|
|
Дата
|
Дата/время
|
Краткий формат даты
|
|
|
Автор
|
Текстовый
|
Длина 150 символов
|
|
|
Файл
|
Текстовый
|
Длина 255 символов
|
|
|
Классифицировано
|
Логический
|
Истина/ложь
|
|
|
Страницы: 1, 2
|