Портал THERMOPHYSICS.RUJIHT.RU - ОИВТ РАННациональный комитет по теплофизическим свойствам веществ
Тематика документов на портале охватывает основные разделы теплофизики, включая техническую термодинамику, теплофизические свойства веществ и материалов, тепломассообмен, и т.п. Конкретный выбор ресурсов и сервисов ориентирован на подготовку в российской высшей школе специалистов по теплоэнергетике и теплотехнике и соответствует сложившимся традициям преподавания в МЭИ. Портал разработан в рамках совместной программы «Интеграция фундаментальной науки и высшей школы» с участием ОИВТ РАН и МЭИ и функционирует с 2003 года.

;

Главная страница Вопросы и ответы Раздел портала - Предметные области Раздел портала - Категории URL - ссылки Загрузка программ,файлов и т.п. из портала
  Поиск:  
В.Ю. Зицерман, Г.А. Кобзев, Л.Р. Фокин Свойства веществ и материалов: возможности и перспективы информационных технологий в подготовке и распространении справочных данных.
Категория : НАУКА /3. Депозитарий научных работ
Тема : Информационные технологии

Данные по свойствам веществ рассматриваются как информационный ресурс с определенными требованиями к выбору информационных технологий. Показано, что новые технологии, исходно созданные для бизнеса, оказываются пригодными для плохо формализуемых проблем подготовки справочных данных, включающих экспертный анализ, выявление закономерностей, работу с искаженными данными, протоколирование рабочего процесса и проч. В итоге открываются возможности перехода от традиционной статистической к интеллектуальной обработке данных с выявлением «скрытых» знаний и адекватной оценкой достоверности.
Справочные данные по свойствам веществ (СДСВ) являются одним из основных продуктов естественнонаучной деятельности. При этом сама работа по подготовке справочных фондов по своим масштабам, организации, характеру труда выходит за рамки конкретной дисциплины (физика, химия, материаловедение) и включает многие компоненты информационной деятельности: компиляция и обработка данных, создание компьютерных средств их хранения, обработки, распространения, обновления и проч.
Сегодня все указанные стадии немыслимы без использования информационных технологий (ИТ), таких как базы данных (БД) и знаний, сетевые ресурсы и сервисы, электронные издания и проч. Активное использование информатики в сфере производства и бизнеса дало мощный толчок развитию ИТ, включая появление средств интеллектуальной обработки данных, систем искусственного интеллекта, нечеткой логики и проч. Возникает вопрос, насколько все эти средства востребованы в практике естественнонаучных коллективов и, прежде всего, в их работах со справочными данными, где автоматизация обработки обширных массивов численной, текстовой и графической информации выходит на первый план. Интересно посмотреть на проблему и с другой стороны – не предъявляет ли эта деятельность каких-либо особых (специфических) требований к ИТ в плане решаемых задач, программного обеспечения (ПО) и проч. По финансовым возможностям именно бизнес и производство являются основными заказчиками и постановщиками задач при создании современного ПО, что наложило отпечаток на создаваемые продукты и технологии.

Цель статьи – поставить на обсуждение несколько вопросов, одинаково важных как для научного сообщества, так и для всей сферы НТИ, особенно связанной с внедрением новых ИТ:

(1) какова специфика СДСВ как информационного ресурса (ИР) и какие требования это предъявляет к ИТ;
(2) каков на сегодняшний день технологический уровень работ по созданию и распространению этого ресурса, какие здесь видятся перспективы в плане внедрения и использования новых ИТ;
(3) наконец, как согласуется действующая и перспективная практика научно-методических работ по СДСВ с основными концепциями и стандартами информационного общества.
При этом, авторы в основном опираются на хорошо знакомую им сферу СД по физико-химическим и теплофизическим свойствам веществ и материалов, наиболее широко используемых в науке и технологии. Нельзя исключить, что практика работы с ядерно-физическими константами или данными по биотканям может предъявлять несколько иные требования к ИТ. Во всех случаях, однако, процесс разработки СДСВ включает примерно одни и те же этапы:

(1) сбор и компиляция исходных данных;
(2) их экспертный анализ с выявлением согласованности, оценкой погрешностей, подбором моделей и т. п.
(3) статистическая обработка, связанная с определением значимых параметров модели и оценкой погрешностей справочных данных;
(4) распространение итоговых данных в виде печатных или электронных публикаций, формирование БД;
(5) использование данных в вычислительных программах, обеспечивающих расчет природных или технологических процессов.

При ограниченных масштабах работ обычно не возникает потребности в тотальной информатизации рабочего процесса – использование численных методов охватывает лишь стадию 3 (статобработка) и 5 (моделирование процессов). Но по мере увеличения масштабов (по числу веществ, свойств, объему данных) потребность в ИТ возникает на всех стадиях, включая компиляцию данных, их экспертизу, распространение, координацию совместной работы и проч. Еще один фактор, определяющий важность и степень использования ИТ при подготовке СДСВ, это соотношение эмпирического и теоретического начал в оценке данных. При наличии хорошо обоснованной модели, определяющей качественную зависимость свойств веществ от выбора своих переменных, сокращается число параметров и требования к объему экспериментальной информации. Напротив, в отсутствие модели (как скажем, в материаловедении) требуется хранение огромных объемов исходных данных и использование специальных технологий интеллектуального анализа (см. ниже) для выявления закономерностей.

Cпецифика СДСВ как ИР – требования, предъявляемые к ИТ. Собственно научные требования к качеству СДСВ (в части полноты, точности и т. п.), равно как и требования по их использованию в БД, сетях и приложениях, обеспечивающих моделирование и расчет физических процессов, определяют целую совокупность характеристик, отражающих структуру и типологию этого ИР:

1) Фонд СДСВ включает как первичные (сырые) данные, полученные непосредственно из эксперимента, так и вторичные, прошедшие экспертизу и процедуру согласования, в частности, статистическую обработку. По объему и структуре вторичные (рекомендованные) данные могут заметно отличаться от первичных экспериментальных данных.

2) Для целей хранения и распространения применимы многообразные формы представления данных: табличная, графическая, в виде аналитических функций (например, уравнений состояния) или программных кодов.

3) Вне зависимости от формы представления, данные по свойствам имеют логическую структуру (в простейшем случае в виде таблицы), строго соответствующую физической модели для веществ данного класса. Возможные вариации логической структуры для отдельных наборов данных (например, для разных веществ) дают основания квалифицировать их как слабоструктурированные (semistructured data), в соответствии с типологией, принятой в теории БД [1]. Изменчивость логической структуры данных означает, что типовая форма в виде перечня атрибутов (свойств), приписываемых объекту (веществу, материалу) может заметно меняться в зависимости от класса вещества, его изученности, диапазона параметров и т. д. Обычный набор физико-химических свойств, включающий данные по точкам кипения, плавления и критической точке становится непредставителен при переходе к высоким температурам, когда в смеси появляются компоненты, не выделяемые как отдельное вещество (радикалы, ионы и проч.). Сложный состав пара таких веществ как S, Se, HF, диссоциирующий водяной пар требует расширенного описания объекта, включая данные как по веществу в целом, так и по компонентам смеси. При подготовке справочника [2] авторы не раз сталкивались с необходимостью менять форму представления реальных свойств газов в зависимости от их особенностей; однако, если в печатном издании это требует лишь соответствующих комментариев, то для формализованной структуры БД, интерфейсов и приложений это создает немалые проблемы.
Специалистам по БД [1, 3] эта проблема знакома на примере временных рядов, когда приходится отслеживать изменения не только показателей, но и классификаторов, номенклатуры и т. п., с тем, чтобы обеспечить совместное использование данных c изменяющейся во времени структурой.

4) Данные по свойствам в скрытом виде содержат «знания» в виде математической модели, определяющей зависимость свойств от параметров состояния, фазы, вещества или класса веществ, и «в идеале» оценки достоверности модели. Выявленные в ходе обработки эти знания позволяют:
(1) провести верификацию данных на предмет их достоверности с учетом согласованности;
(2) выполнить экстраполяцию и интерполяцию по параметрам;
(3) расширить номенклатуру свойств, доступных для пользователя;
(4) построить (или выбрать из предопределенного множества) математическую модель - зависимость свойства (комплекса свойств) от параметров состояния в виде аналитической функции или программного кода. Особое значение в технологиях подготовки СДСВ имеет верификация согласованности данных. Так называемая, совместная обработка данных (multiproperty or simultaneous analysis), когда физическая модель восстанавливается по данным различной природы, что дает одновременный контроль достоверности всей совокупности данных и наиболее надежную оценку параметров модели, стала в настоящее время одной из основных технологий при подготовке СДСВ [4, 5]. Например, потенциал межмолекулярного взаимодействия (базовая информация для молекулярно-кинетической теории) надежно определяют на основе множества разнородных данных: термодинамических, транспортных, спектральных, по молекулярным пучкам и проч. Знание потенциала позволяет создать систему внутренне согласованных данных о втором вириальном и кинетических коэффициентах для разреженных газов, а для инертных газов и для плотного флюида. Анализ согласованности включает критический анализ исходных данных, экспериментальных методов, полноты учета погрешностей и т. п. Заключенные в данных физические знания существенно меняют организацию БД или всей информационной системы, включающей многообразные приложения, используемые как потребителями данных, так и экспертами, отвечающими за наполнение фондов. Возможность эффективной свертки исходной информации позволяет резко сократить объем вторичных данных, возложив решение пользовательских задач на приложения. Так вся совокупность рекомендованных термодинамических данных может быть сведена к набору параметров, определяющих уравнение состояния и теплоемкость идеального газа. Активное использо вание знаний при подготовке СДСВ означает практически, что эксперт работает не с одной моделью, а с целым множеством, заранее выбранным на основе определенных физических представлений. Например, для обработки теплофизических данных привлекают потенциалы различной структуры в зависимости от типа молекулы (ее формы, мультипольных моментов) и доступности данных. Точно также при построении PVT-поверхности варьируют ее форму, меняя либо число параметров в заранее выбранном аналитическом выражении, либо его структуру, добавляя, к примеру, скэйлинговый фрагмент для прецизионного описания критической области. В практике обработки данных эти процедуры являются достаточно рутинными и привычными, но именно они предъявляют серьезные требования к построению ИТ. Множественность моделей (структурная оптимизация), во-первых, усиливает значимость данных, структура которых меняется от экземпляра к экземпляру (полуструктурированные данные). С другой стороны, в задачу БД входит теперь манипуляция не только данными, но и знаниями, то есть подбор моделей, адекватных поставленной задаче: типу вещества, свойства, диапазону параметров и проч. От БД как основного элемента ИТ происходит постепенный переход к базе знаний (БЗ), способной кодировать накопленные знания о предметной области и продуцировать новые знания [6].

5) Из предыдущего пункта следует, что данные для определенного свойства определенного вещества должны быть согласованы как с известными закономерностями (например, со строгими термодинамическими соотношениями), так и с другими данными: по другим свойствам, другим веществам, например, в рамках теории соответственных состояний.

6) Данные по свойствам имеют ценность для пользователя только при наличии соответствующей информации о достоверности, представленной либо в виде оценок погрешностей свойств либо в виде вариационно-ковариационной матрицы параметрической модели. Информация о точности (в более общем плане, достоверности) данных является важнейшим фрагментом СДСВ. Без этой информации невозможно:
(1) сопоставлять различные наборы данных для оценки их качества и надежности;
(2) проверять согласованность разнородных данных, скажем данных по сжимаемости и энтальпии;
(3) использовать данные в расчетах и моделировании;
(4) выделять из данных физически значимую информацию, например о критических постоянных или параметрах потенциала. В статье [7] специально подчеркивалось, что оценка неопределенности выделяет СД из всех ИР, придавая им особое качество: вводится дополнительная информация («знание о незнании»), которая хранится в сознании человека или памяти компьютера и используется в процессе принятия решений. В целом, проблеме оценки достоверности СДСВ посвящена обширная литература, включая нормативные документы Госстандарта [8].

7) Массивы СДСВ постоянно обновляются и расширяются (как исходные, так и рекомендованные) в связи с новыми экспериментами, моделями, методами обработки и т. п.

8) Объем, структура и форма представления данных должны быть соотнесены с задачами их последующего использования для целей математического моделирования природных или технологических процессов. Преимущественное использование в задачах моделирования предъявляет целый набор требований в части полноты фонда, формы представления, диапазона параметров, логической структуры данных и проч. Прежде всего, разработчик данных согласует перечень веществ и свойств, с физической моделью процесса. Например, для типовых задач технологии основного органического синтеза многолетняя практика позволила выбрать примерно 400 органических и простейших неорганических веществ и около 20 характерных параметров, позволяющих оценить основные физико-химические свойства отдельных веществ и композиций [9]. Однако, номенклатура веществ и свойств резко меняется при переходе к задачам высокотемпературной химии: процессы горения, плазмохимия, металлургические процессы и проч. [10, 11]. Своя номенклатура есть в БД для задач металлургии, геохимии, теплоэнергетики. Естественно, что заметно меняется и диапазон параметров в зависимости от предметной области. Например, для химической технологии верхняя температура, как правило, составляет 1000 0С, в то время, как в термохимических БД для высокотемпературных процессов верхний предел достигает (20000-60000) гр. К.

Указанные особенности ИР определяют набор требований к выбору ИТ и соответствующего программного обеспечения (ПО):

Требование интеллектуализации, то есть, способности к выявлению «скрытых» знаний и манипулированию не только данными, но и знаниями (моделями). На сегодняшний день использование при подготовке СДСВ развитых технологий управления знаниями (knowledge manage) является скорее исключением, чем правилом. Выше уже отмечалось, что соотношение данных и знаний по их объему и значимости сильно меняется в зависимости от предметной области. БД, используемые в химической промышленности, по преимуществу основаны на предсказании всей совокупности макросвойств по ограниченному объему данных для индивидуального вещества (данных о точке плавления, критических постоянных и т.п.). В этом случае объем данных невелик, и вся тяжесть справочно-информационной работы переносится на методики: их выбор из большого множества, проверка на адекватность, оценка точности и проч. Встречаются и крайние случаи, когда модель допускает априорное (почти без использования макроскопических данных) предсказание свойств, как, например, квантово-статистические модели плотно сжатого вещества [12]. Напротив, в материаловедении типична ситуация, когда нет априорных моделей или корреляций, и опытные данные являются единственно значимым источником информации. Примерно такова же ситуация в таких областях как полимерная химия, фармакология и пр., где в отсутствие работоспособных моделей накоплен огромный фактический материал по структуре, свойствам и эксплуатационным характеристикам веществ. Именно в таких ситуациях оправдано использовать статистические методы или методы глубинного анализа (DATA MINING) [1, 3], чтобы из «сырых» данных вычленить закономерности типа «структура-свойство». Поэтому, интеллектуализация ИТ, понимаемая, как способность технологий к формализованному представлению на равных основаниях данных и знаний, становится, по-видимому, важной тенденцией при работе с данными.

Требования, связанные с адекватной оценкой неопределенности. Здесь мы выделим лишь те аспекты, которые существенны при выборе ИТ. Прежде всего, сведения о достоверности должны включаться как в первичные, так и во вторичные (рекомендованные) наборы данных. Достоверность первичных данных является базовой характеристикой при их обработке, а достоверность вторичных данных позволяет оценить неопределенность технологического расчета или проекта, где они используются. При этом, первичные данные должны включать как исходные (авторские) оценки погрешностей, так и те, что получены экспертом при их анализе и/или обработке, поскольку экспертиза данных и проверка на согласованность часто вскрывают неучтенные авторами случайные и систематические ошибки. Сведения о достоверности данных включают погрешности значений, а также качественную информацию: о надежности экспериментального метода, согласии с данными других авторов, степени изученности вещества или класса веществ и проч. Все эти сведения эксперт использует, принимая решения о назначении статистических весов, выборе/исключении отдельных точек или наборов данных и т. п. После этого проводятся формализованные процедуры обработки, частично показывающие, насколько обоснованы априорные предположения эксперта. Между тем, в практике построения информационно-аналитических систем уже давно применяются алгоритмы нечеткой логики (fuzzy logic) [3], допускающей произвольные значения истинности информации в интервале от 1 (истинная) до (0) (ложная), что позволяет на равных основаниях включать в обработку количественные и качественные оценки достоверности. Есть интересные примеры ИТ, использующих при обработке численных данных, в частности, временных рядов, экспертной информации, включающей качественные оценки и суждения [13].

Требования по документированию технологического процесса подготовки СДСВ. Вся процедура ревизии и обработки данных достаточно трудоемка и включает много звеньев, так что желательно для последующей работы фиксировать не только исходные данные и оценки их погрешностей, но и весь протокол рабочего процесса, приведшего к новым оценкам. Поэтому актуальна задача построить технологию подготовки СДСВ на базе подходов, развитых для управления электронным документооборотом (ЭД), широко применяемым в последние годы для коллективной работы с массивным потоком документов [14]. Под термином ЭД понимается формализованная совокупность процедур сбора, хранения, передачи и обработки документов в их жизненном цикле. Соответствующая система управления ЭД алгоритмизирует движение документа, автоматически фиксируя его модификации, после работы каждого исполнителя; в случае со СД система могла бы фиксировать, каким образом и на каком этапе обработки эксперт сделал заключения о погрешности данных. Фиксировать желательно различные промежуточные решения: исключение отдельных точек или наборов данных, пересмотр априорных оценок погрешностей, указания о несогласованности данных, о наличии систематической погрешности, о методе обработки и т. п. Из всего спектра задач по манипуляции документами, решаемых системами ЭД, технологии подготовки СДСВ наиболее близка задача управления потоком работ (workflow) [1, 14]. В основном, она включает, так называемую, систему маршрутизации и контроля исполнения. Разработано несколько подходов к маршрутизации рабочего процесса: документо-ориентированный (маршрутизируется документ как основной объект, а остальные параметры маршрутизации ассоциируются), работо-ориентированный (основным объектом является работа, к которой прикрепляют разнообразный список документов и прил ожений), жесткая маршрутизация документов по заранее определенным маршрутам с контролем исполнения, свободная маршрутизация с назначением маршрута по результатам движения документов и ряд др. Поддержание и хранение протоколов движения документов, если они включают наборы данных и параметры моделей, необходимы для оценки результатов работы эксперта, пересмотра ключевых физических величин, учета изменения температурной шкалы и многих других задач. Напомним (см. п. 7 в перечне характеристик СДСВ как ИР), что работа над их пересмотром и корректировкой практически не прекращается в связи с перманентным появлением новых данных, физических моделей, расширением диапазона параметров и т. п. Хранение и использование всей информации о процедурах предыдущего этапа позволяет облегчить и формализовать последующие работы по ревизии и обновлению данных. Подобные протоколы могут помочь также в решении относительно новой проблемы, с которой столкнулись специалисты по компьютерной обработке данных: принципиальной невоспроизводимости результатов при статистической обработке с использованием многопараметрических моделей [15]. Для решения этой проблемы предложен специальный формат воспроизводимых электронных документов (ReDoc), который должен информировать об использованном ПО, исходных данных, последовательности обработки и проч. Протокол потока работ, по сути, может решать ту же задачу, если в дополнение к сведениям по достоверности будет включать информацию о ПО. Уместно отметить также важнейшую проблему сохранения исходной и промежуточной информации при смене поколений научных работников.

Требования, связанные с использованием СДСВ. Требования, предъявляемые к ИТ и к самим СДСВ в значительной степени продиктованы практикой их использования: предметной областью, кругом задач, и т. п. Для моделирования предпочтительным является формат представления в виде стандартизованных аналитических функций или программных кодов. Возможны весьма специфические требования к применяемым алгоритмам и ПО, например, к выбору независимых переменных. Так в теплотехнике используют одну из пар термодинамических переменных (температура-энтропия, энтальпия-энтропия и др.), а не температуру и давление, как в большинстве научно-технических приложений. Весьма разнообразны варианты выдачи данных по составу смесей и растворов: мольные доли, числа молей, моляльности и т. п., в зависимости от удобства постановки последующих расчетов. Для многовариантных расчетов иногда приходится отказываться от прецизионных данных в пользу упрощенных моделей, с целью сократить временные затраты. Табличную (или графическую) форму сохраняют лишь для качественного анализа, приближенных оценок, иллюстраций, преподавания и т. п., хотя в задачах материаловедения графическая форма представления диаграмм состояния, по-прежнему, является основной. Есть большая литература [10, 11 и ссылки там], где подробно освещаются адаптация БД к вычислительным потребностям в различных предметных областях. Выполнен ряд исследований, позволивших методом Монте-Карло переносить погрешности справочных данных на результат моделирования (например, на неопределенность в оценке КПД, выхода целевого продукта и т. п.) и на этой основе оценить желаемый уровень точности СДСВ [16].

Отражение особенностей СДСВ как ИР в применяемых ИТ

Оценить степень использования новых ИТ в работе над СД можно по многочисленным публикациям, содержащим описание БД и/или интегрированных сред, обеспечивающих обработку и распространение данных по свойствам, а также из материалов WEB-серверов, поддерживаемых Центрами данных. Относительно подробный обзор дан в публикациях авторов [17] и в недавней монографии [11]. Хотя конкретные технологии различаются достаточно сильно, необходимые заключения можно сделать по описанию наиболее распространенных систем, например БД Термодинамического исследовательского Центра (TRC) США [18] или крупных систем, интегрирующих несколько БД и вычислительных средств для расчета фазовых равновесий и построения диаграмм состояния, таких как F*A*C*T (Facility for the Analysis of Chemical Thermodynamics) и ThermoCalc. Система БД TRC [18], одного из наиболее известных в мире центров по физико-химическим свойствам органических веществ, может служить ярким примером того, как при высоком уровне внедрения ИТ, их возможности далеко не в полной мере используются, чтобы обеспечить требуемую эффективность процедур обработки и распространения этого ИР. В полном соответствии со спецификой СДСВ пользователи TRC получают доступ к двум основным БД: исходных экспериментальных данных (БД SOURCE) и обработанных рекомендованных данных (TRC TABLE). Однако, вся процедура превращения «сырых» данных в рекомендованные скрыта от пользователя, и каких либо сведений об ее протоколировании и последующем использовании не приводится.
Распространяются данные TRC по сети ИНТЕРНЕТ в виде рабочих файлов для БД ACCESS, расположенной на компьютере пользователя. Это значительно более эффективный способ распространения в сравнении с традиционным (текст, включающий таблицы), поскольку открывает множество возможностей поиска данных, их представления в табличной или графической форме, формульной аппроксимации и т.п. Файлы MS ACCESS не являются динамическими документами (как и обычный справочник) в том смысле, что отражают уровень и объем данных на момент создания, и с появлением новых источников не подвергаются перестройке; пользователь в этом случае должен запрашивать на сервере новую версию БД. Эта же особенность присуща и всем БД, распространяемым на CD, вне зависимости от конкретных форматов данных и файлов.
Надо сказать, что создатели БД TRC [18] отчетливо видят необходимость перехода к динамически компонуемым документам, позволяющим перманентно и без участия пользователя обновлять фонд с появлением новых исходных данных и повторением процедур обработки. Авторы [18] предложили создать распределенную систему хранения и пополнения архива теплофизических данных, позволяющую любому из пользователей сгенерировать в момент запроса динамический документ, отражающий тот объем данных и знаний, который доступен на момент обращения к системе. В основу проекта положена современная технология БД с удаленным доступом, средствами проверки данных, копирования и восстановления, способностью работать на разных платформах. Предполагается, что таблицы экспериментальных данных должны быть «слинкованы» с полнотекстовыми документами, содержащими исходную публикацию. Большое место в проекте уделено, так называемым, метаданным, которые разъясняют смысл и формат числовой информации. Метаданные позволяют проводить автоматический отбор и обработку данных, различая, например, прямые результаты эксперимента или сглаженные данные из опубликованных отчетов. Для дистанционной загрузки опытных данных разработана специальная программа LOADER2, которая проверяет внутреннюю согласованность исходной информации и дополняет отсутствующие данные приближенными оценками. Сочетание этой программы и дистанционно пополняемой БД TRC SOURCE составляет основу технологии генерации динамических документов для представления СДСВ. Заметим, однако, что эта технология пока не получила развитие и намечена лишь как перспективная.
Достаточно слабо представлена линия на интеллектуализацию БД с постепенным ее превращением в БЗ. Каждое из рекомендованных свойств представлено в отрыве от других без проверки разнородных термодинамических данных на внутреннюю согласованность. Использование интегрирующего начала в виде единого уравнения состояния, функции Гельмгольца или потенциала межмолекулярного взаимодействия, могло бы быть первым шагом к переходу от разрозненных данных к системе знаний, описывающих закономерности поведения вещества и прогнозирующих широкий спектр числовых характеристик. Другой шаг в переходе от данных к знаниям – сочетание экспериментальных данных с прогнозными методиками, например основанными на групповых вкладах, учитывающих особенности структуры молекулы, также (согласно [18]) намечен лишь как необходимая тенденция развития. В работах Центра не поставлена задача документирования и управления процессам подготовки новых данных, по-видимому, с учетом того, что используются довольно тривиальные процедуры, без построения многопараметрических моделей, согласования и отбраковки данных и т. п. Переупрощены и структуры данных, практически не выходящие за пределы типовой табличной формы, что не предполагает активное использование метаданных для изменчивых логических структур, которые постоянно встречаются при охвате широкого круга соединений или привлечении множества физических моделей. При использовании достаточно производительных БД, таких как ORACLE и многоярусной системы активных сетевых серверов, уровень обработки и представления данных не сильно изменился в сравнении с 70-80 годами прошлого века, и в целом заметно ниже, чем в работах с другими сегментами НТИ (например, с каталогами астрофизических и географических данных, данными биоинформатики и т. п.), не говоря уже о многочисленных сферах использования деловой и производственной информации [1, 3, 6, 14]. Заметим при этом, что речь идет об одном из наиболее авторитетных в мире Центров данных, обеспеченном техникой, ПО и кадрами специалистов по ИТ.

Анализ упомянутых выше систем (F*A*C*T, ThermoCalc), решающих задачи вычислительной термодинамики (расчет равновесий, построение диаграмм состояния) демонстрирует те же ограничения в использовании логико-информационных и интеллектуальных ресурсов ИТ: преимущественная работа с рекомендованными данными типовой структуры, крен в сторону использования приложений, а не данных, упрощенные процедуры обработки без документирования рабочего процесса, без формализации экспертного анализа и т. п. Разумеется, речь идет лишь о тенденциях, а в конкретных разработках БД можно найти попытки решения упомянутых проблем. Так ведущий в России центр данных ТЕР МОЦЕНТР им. акад. В.П. Глушко, наряду с машинными средствами хранения и распространения справочных данных, имеет сложную человеко-машинную систему, обеспечивающую сбор, хранение и экспертно-статистический анализ первичных данных о молекулярных постоянных, теплотах реакций и термодинамических функциях веществ в стандартном состоянии [2, 11]. В БД по фазовым диаграммам полупроводниковых систем [19] весьма широко представлена исходная информация наряду с полученной в ходе расчета и согласования данных, но сама процедура обработки данных выведена за рамки БД и не доступна пользователю. В системе ЭПИДИФ [20], обеспечивающей хранение и обработку данных по теплофизическим свойствам разреженных газов, пользователю выдается согласованная система данных с оценками погрешностей этих свойств.

Один из немногих примеров ИТ, используемых для интеллектуализации работ со СДСВ дает система Cranium [21], для которой основной задачей является свободное манипулирование молекулярными структурами и методиками оценки физико-химических свойств, аналогично тому, как БД манипулирует численными и текстовыми данными по свойствам. В отличие от прикладных программ, работающих с фиксированной структурой данных, БЗ подбирает программный код, реализующий методику оценки из обширного фонда, обеспечивая по отношению к методикам типовые операции, такие как добавление, удаление, редактирование, копирование и т. п. Объектно-ориентированная технология позволяет системе Cranium на равных условиях управлять как данными (например, данными о молекулярной структуре, точкам кипения и плавления, термохимических константах и проч.), так и алгоритмами (методиками), каждый из которых трактуется в системе как объект, с которым допускаются те же действия, что и с фрагментами данных. Объектно-ориентированная технология обеспечивает простоту создания и поддержки БЗ, содержащих сотни методик оценки. Для каждой методики БЗ хранит своеобразный набор данных, называемый преамбулой. Преамбула содержит код, который проверяет данные по структуре молекулы или по составу смеси, чтобы определить применимость методики к данному объекта. Например, многие из методик не способны предсказывать свойства полярных или ассоциированных соединений или не пригодны для водородсодержащих смесей. В случае применимости, преамбульный код дает сведения о точности методики. Таким образом, БЗ пригодна для манипулирования исходными данными, методиками (моделями), и сведениями о применимости или достоверности той или иной модели.

Анализируя состояние работ по СДСВ, интересно сопоставить, насколько практика использования ИТ при работе с этим важнейшим из ресурсов НТИ соотносится с некоторыми из общих тенденций развития информационного общества. В числе этих тенденций можно назвать охват ИТ все новых сторон человеческой деятельности, введение безбумажного документооборота, размещение в сети научно-технических и деловых ресурсов, активное использование электронных публикаций и т. п. Все эти тенденции налицо и в деятельности Центров, занимающихся подготовкой СДСВ. Еще одна интересная тенденция ѕ переход от хорошо алгоритмируемых задач, с которых начиналось развитие вычислительной техники (математическая физика, теория управления, задачи оптимизации и проч.) к задачам плохо формализуемым, которые лежат в основе всех видов бизнеса и большинства дисциплин, изучающих природу и человека: науки о Земле, медицина, психология, общественные науки и т. п. Для плохо формализуемых задач неизвестны аналитические зависимости или цепочки действий, приводящие к результату без вмешательства человека, а исходные данные отличаются неполнотой, противоречивостью и искажениями. Специфика этих задач состоит также и в том, что на одно из первых мест выходит организация хранения и выборки данных. Только на основе накопленных больших массивов численной (а также текстовой и графической) информации удается отстроить процедуры анализа и обработки, позволяющие выявить и использовать «скрытые» в исходной информации знания. Для таких задач появились специальные математические средства, реализованные в виде программных кодов: нечеткая логика, нейронные сети, эволюционные (в частности, генетические) алгоритмы. Есть специальные программные технологии, объединенные под названием DATA MINING [1, 3], которые, используя эту математику, вне зависимости от предметной области решают задачу интеллектуальной обработки данных с поиском закономерностей, аномалий и прогнозов.
Работа со СДСВ, понимаемая в широком смысле, относится именно к плохо формализуемым задачам. Поэтому столь сложной и многозвенной является оценка качества данных, включающая их проверку на полноту, согласованность и достоверность [7]. В основе их анализа лежит обработка массивов данных с многочисленными искажениями: систематическими и случайными ошибками, пропусками, промахами и т. п. При анализе необходимо учесть неформализуемые сведения об уровне эксперимента (надежность и полнота данных, их соответствие известным закономерностям и пр.). Результатом обработки являются замкнутые аналитические выражения, составляющие основу достоверного знания о свойствах вещества, что в конечном итоге позволяет резко сократить объем рекомендуемых данных, сохраняя только константы аналитических формул. Хотя статистическая обработка в различных вариантах является основной процедурой при подготовке данных, практически используются традиционные методы нелинейной регрессии. При этом экспертные оценки влияния неполноты информации, несовершенства эксперимента и т.п. не совсем строго включаются в оценки статистических весов и не совсем последовательно переносятся на оценки погрешностей результатов. Здесь имеется открытое поле деятельности для специалистов по математической статистике
Из новых алгоритмов работы с «плохими» (искаженными или зашумленными) данными в работе по свойствам веществ, в основном, нашли применение только нейросетевые алгоритмы [3, 22]. Считается, что нейронные сети позволяют максимально использовать доступную информацию при ограниченном объеме экспериментальных данных. Другое их достоинство – возможность аппроксимации в задачах очень большой размерности, при том, что точность аппроксимации при таких методах не зависит от размерности.
Другой класс методов, активно применяемых сейчас для крупномасштабных и плохо формализуемых задач в сфере бизнеса и технологии – генетические и вообще эволюционные алгоритмы. Они применяются везде, где необходим перебор вариантов с выбором наилучшей из альтернатив. В задачах обработки данных – это выбор модели, то есть подбор функционального выражения, наилучшим образом воспроизводящего физические зависимости, и определение параметров модели по совокупности разнородных данных, причем во многих случаях речь идет о нахождении с высокой точностью нескольких десятков или сотен параметров. Известно, что традиционные методы нелинейного программирования, использующие представления о поведении функции в окрестности экстремума, были мало эффективны при наличии многих локальных экстремумов, оврагов и других особенностей поверхности, что резко ограничивало возможности решения многоэкстремальных задач. В основе новых (эволюционных или генетических) методов лежат формализованные принципы, имитирующие естественный эволюционный процесс, за счет сочетания элементов случайности и детерминированности, точно так, как происходит в природе.
Детерминированность состоит в моделировании природных процессов отбора, размножения и наследования по строго определенным правилам. В качестве случайного элемента используется аналог процесса мутации, когда характеристики решения изменяют случайно, чтобы найти новое направление в процессе эволюции решения. Генетические алгоритмы решают задачи, работая с популяцией из некоторого числа наугад взятых решений, которые по аналогии с дарвиновской «борьбой за существование»: скрещиваются (crossover), порождают разнообразных «детей», соперничают за ограниченные ресурсы, мутируют, и в конечном счете, умирают. Появилась обширная литература, описывающая методологию и практику эволюционных вычислений. [3, 23]. Разработчики СДСВ достаточно редко обращаются к новым методам вычислений, хотя специфика области, казалось бы, дает для этого все основания. Широко использует эволюционные методы статистической обработки группа Вагнера и Спана [24], одна из авторитетных групп по подготовке уравнений состояния и термодинамических таблиц. Используемый ими алгоритм определяет наиболее подходящую форму математической модели (здесь это уравнение состояния, описывающее PVT-поверхность) путем выбора наилучшей комбинации выражений из корзины регрессоров, обширного математического набора, включающего все мыслимые слагаемые, которые могли бы быть включены в модель. В процессе работы алгоритм комбинирует детерминистские элементы регрессионного метода с процедурами эволюционных вычислений такими, как мутация и оптимизация популяций. Всего с использованием этого алгоритма было построено до 20 уравнений состояния для компонентов воздуха, инертных газов, углеводородов и др. На этом пути удается на 50% сократить размерность задачи в сравнении с традиционными методами нелинейной регрессии при той же точности и добиться лучшей способности модели к экстраполяции.
Отмеченные выше особенности СДСВ показывают, что это именно тот ИР, работа с которым требует средств интеллектуального анализа данных, таких как инженерия знаний, нечеткая логика и др., значительно выходящих по своим возможностям за рамки стандартных процедур вычислительной математики и статистики. На этом пути можно надеяться на эффективное совмещение традиционной обработки с плохо формализуемыми экспертными сведениями о качестве и надежности данных, а в конечном итоге, вычленении из «сырых» опытных данных физических знаний с всесторонним учетом их достоверности. Возникает вопрос, почему эти средства до сих пор слабо востребованы в практической работе, а большинство Центров по подготовке и распространению данных ор иентируются на традиционные методы, хотя широко используют БД, пригодные для хранения, как исходного материала, так и рекомендованных данных. Представляется, что ведущую роль здесь играют традиции, сложившиеся в естественнонаучных коллективах: строгая формализация задач, использование классических методов статистики, игнорирование расплывчатых и субъективных оценок, составляющих суть экспертного анализа. Новые технологии и присущие им математические средства пришли из мира бизнеса, где до их появления обработка данных с выявлением знаний и закономерностей была просто невозможной. Есть и некоторые особенности, отличающие СДСВ от прочих ИР с точки зрения логической структуры, требований к процессу обработки, форме представления и т. п., скажем требования к согласованию разнородных данных, перманентное повторение процедуры обработки и проч., что не позволяет воспользоваться готовым ПО без его перестройки и адаптации к научным задачам. По-видимому, потребуются дополнительные усилия, чтобы обеспечить активную миграцию новых ИТ в естественнонаучную среду, возможно, и не только для поддержки работ по СДСВ. В результате можно было бы заметно поднять и масштаб, и уровень работ по СДСВ, равно как и то место, которое они могли бы занять во всей системе НТИ.

Литература

1. Когаловский М.Р. Энциклопедия технологий баз данных: Эволюция технологий. Технологии и стандарты. Инфраструктура. Терминология. – М.: Финансы и статистика, 2002, - 798 c.
2. Гурвич Л.В. и др. Термодинамические свойства индивидуальных веществ. Справочное изд. В 4 томах. Под ред. акад. В.П. Глушко. - М:НАУКА, 1978-1982.
3. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. - М.: Изд-во "НОЛИДЖ", 2001 – 351 c.
4. Фокин Л.Р. Методика создания справочных данных о теплофизических свойствах веществ и ее реализация на примере свойств рабочих тел и конструкционных материалов в энергетике. Автореф. дисс. на соискание уч. степени д.т.н. – Москва: ОИВТ РАН, 1990 – 33 с.
5. Barker J.A. Interatomic potentials for inert gases from experimental data. In “Rare gas solids”, V. 1 - NY, 1976. - P 1-121.
6. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. – СПб: ПИТЕР, 2001 – 382 c.
7. Фокин Л.Р. Справочные данные в системе научно-технической информации //. НТИ. сер. 1. – 1987. - №5. – C. 4-6.
8. Фокин Л.Р., Козлов А.Д., Рабинович В.А., Карпова Г.А. Методика оценки достоверности справочных данных о свойствах веществ и материалов //. Измерительная техника. – 1988. - №11. – C. 7-9.
9. Reid R.C., Prausnitz J.M., Poling B.E. The Properties of Gases and Liquids. 4th edn., - NY: McGraw-Hill, 1987- p.
10. Байбуз В.Ф., Зицерман В.Ю., Голубушкин Л.М., Чернов Ю.Г. Химическое равновесие в неидеальных системах. Под ред. В.С. Юнгмана. - М.: ИВТАН, 1985. – 227 c.
11. Белов Г.В. Термодинамическое моделирование: методы, алгоритмы, программы.- М.: НАУЧНЫЙ МИР, 2002.- 181 c.
12. Никифоров А.Ф., Новиков В.Г., Уваров В.Б. Квантово-статистические модели высокотемпературной плазмы, методы расчета росселандовых пробегов и уравнений состояния. - М.: Наука: Физматлит, 2000. -399 с.
13. Головченко В.Б. Прогнозирование временных рядов по разнородной информации -Новосибирск: НАУКА, 1999 – c..
14. Клименко С.В., Крохин И.В., Куц В.М., Лагутин Ю.Л. Электронные документы в корпоративных сетях. - М.: "АНКЕЙ" – "Эко-Трендз", 1999 – 271 c.
15. Левкович-Маслюк Л., «Воспроизводимое и невоспроизводимое» // КОМПЬЮТЕРРА. - 2002 - №3.
16. Macchietto S., Maduabeuke G., Szczepanski R. Exact Determination of Process Sensitivity to Physical Properties. // Fluid Phase Equilibria. –1986. V. 29. - №1. – P. 59-67.
17. Трахтенгерц М.С., Зицерман В.Ю. Ресурсы ИНТЕРНЕТ для теплофизиков и теплоэнергетиков. Методическое пособие. - М.:ИВТ РАН. Часть 1. Препринт №8-424, 1998, - 58 c. Часть 2. Препринт №8-444, 2000, - 60 c.
18. Yan X., Dong Q., Frenkel M., Hall K.R. Window-Based Applications of TRC Databases: Structure and Internet Distribution // Int. J. Thermophys. – 2001. – V.22. № 1. – P.. 227-241.
19. Христофоров Ю.И., Хорбенко В.В., Киселева Н.Н. и др. База данных по фазовым диаграммам полупроводниковых систем с доступом из ИНТЕРНЕТ // Материалы электронной техники. – 2001. - №1. - C. 50-53.
20. Fokin L., Popov V., Kalashnikov A. et al. Joint Russian and Bulgarian Academies of Sciences Database of Intermolecular Potentials and Diffusion Coefficients for Components of the CVD Processes in Microelectronics // Int. J. Thermophys.-2001.- V. 22. - №5. – P.1497-1506.
21. Joback K.G. Knowledge bases for computerized physical property estimation // Fluid Phase Equilibria. – 2001. - V.185. №1-2. – P. 45-52.
22. Bunz A.P., Braun B., Janowsky R. Quantitative structure-property relations and neural networks: correlation and prediction of physical properties of pure components and mixtures from molecular structure // Fluid Phase Equilibria. – 1999. - V.158. - №1. – P.367-374.
23. Батищев Д. И. Генетические алгоритмы решения экстремальных задач. Под ред. Львовича Я.Е.: Учеб. пособие. - Воронеж, 1995. – 69 c.
24. Span R., Collmann H.-J., Wagner W. Simultaneous Optimization as a Method to Establish Generalied Functional Forms for Empirical Equations of State // Int. J. of Thermophysics. - 1998. - V. 19. - №2. - P. 491-500.

Уточнения по литературе Reid R.C., Prausnitz J.M., Poling B.E. The Properties of Gases and Liquids. 4th edn., - NY: McGraw-Hill, 1987- p.
Головченко В.Б. Прогнозирование временных рядов по разнородной информации –



Разместил: admindep [15/12/2003]



[ Назад]


Напечатать текущую страницу  Напечатать текущую страницу
Отправить статью другу  Отправить статью другу

67 гостей и 0 пользователей.

Вы Анонимный пользователь. Вы можете зарегистрироваться, нажав здесь.

НАУКА
  • 1. Проекты
  • 2. Диссертации
  • 3. Депозитарий научных работ
  • 4. Ресурсы сети
  • 5. Периодика

    НОВОСТИ
  • 1. Конференции и семинары
  • 2. Новые публикации
  • 3. Юбилеи и знаменательные события

    ОБРАЗОВАНИЕ
  • 1. Учебные планы и программы
  • 2. Учебные пособия
  • 3. Образовательные ресурсы сети

    ОРГАНИЗАЦИИ И КОЛЛЕКТИВЫ
  • HKTCB

    ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

    СПРАВОЧНЫЕ ИЗДАНИЯ И БАЗЫ ДАННЫХ


  • · Предметные области

  • Техническая термодинамика

  • Теплофизические свойства веществ

  • Тепломассобмен

  • Механика жидкостей и газов

  • Топливо и его подготовка на ТЭС

  • Свойства водных растворов, используемых на ТЭС

  • Конструкционные материалы

  • Информационные технологии

  • Теплотехнический эксперимент

  • Наноматериалы и нанотехнологии



  • Информационно-налитическая система ТРИПТИХ

    Портал отечественных теплофизиков THERMOPHYSICS.RU

    PHP-Nuke по-русски

    ПО ТЕПЛОФИЗИКЕ И РОДСТВЕННЫМ ПРОБЛЕМАМ
    · Национальный комитет по теплофизическим свойствам веществ
    · Национальный комитет по тепло- и массообмену
    · Научный совет РАН по комплексной проблеме «Теплофизика и теплоэнергетика»
    · 



    ::  Контакт с авторами портала ::  Рекомендовать Нас

    Портал создан на основе системы PHP-Nuke распостраняемой по лицензии GNU/GPL.
    Администратор портала: Еркимбаев Адильбек Омирбекович
    Web site engine's code is Copyright © 2003 by PHP-Nuke. All Rights Reserved. PHP-Nuke is Free Software released under the GNU/GPL license.
    Открытие страницы: 0.077 секунды