рефераты рефераты
Домой
Домой
рефераты
Поиск
рефераты
Войти
рефераты
Контакты
рефераты Добавить в избранное
рефераты Сделать стартовой
рефераты рефераты рефераты рефераты
рефераты
БОЛЬШАЯ ЛЕНИНГРАДСКАЯ БИБЛИОТЕКА
рефераты
 
МЕНЮ
рефераты Разработка программных средств конвертирования HTML-текстов в семантические сети рефераты

БОЛЬШАЯ ЛЕНИНГРАДСКАЯ БИБЛИОТЕКА - РЕФЕРАТЫ - Разработка программных средств конвертирования HTML-текстов в семантические сети

Разработка программных средств конвертирования HTML-текстов в семантические сети

Московский Государственный Университет Путей сообщения

(МИИТ)

Кафедра АСУ

Курсовой проект

«Разработка программных средств конвертирования HTML текстов в

семантическую сеть»

Выполнила:

Студентка 5-го курса группы УИС-511

Болотова Е.А.

Проверил: Саркисян Р.Е.

Москва 2001

Содержание:

Что такое семантическая сеть …………………………..3

Основные сведения о языке HTML …………………….3

1.Введение ………………………………………….3

2.Сруктура HTML-документа ……………………..4

Что такое фреймы ……………………………………….7

Возможности представления знаний на базе

языка HTML ……………………………………………...8

TextAnalyst 2.0 – персональная система

автоматического анализа текста ………………………..14

Принцип работы HTML-конвертора …………………...17

Список использованных источников …………………..21

Что такое семантическая сеть

Семантическая сеть – структура для представления знаний в виде

ориентированного графа, в котором вершины – это понятия, а дуги -

отношения. Термин семантическая означает "смысловая", а сама семантика –

это наука, устанавливающая отношения между символами и объектами, которые

они обозначают, что есть наука, определяющая смысл знаков.

Самые первые семантические сети были разработаны в качестве языка-

посредника для систем машинного перевода. Однако последние версии

семантических сетей стали более мощными и гибкими и составляют конкуренцию

логическому программированию, фреймовым системам и другим языкам

представления.

На сегодняшний день существует множество вариантов семантических сетей.

Их терминология и структура различаются, но существуют сходства, присущие

всем семантическим сетям:

1. Узлы семантических сетей представляют собой концепты предметов,

событий, состояний

2. различные узлы одного концепта относятся к различным значениям,

если они не помечены как относящиеся к одному концепту

3. дуги семантических сетей создают отношения между узлами-

концептами (пометки над дугами указывают на тип отношения)

4. некоторые отношения между концептами представляют собой

лингвистические падежи, такие как агент, объект, реципиент и

инструмент (другие означают временные, пространственные,

логические отношения и отношения между отдельными предложениями

5. концепты организованы по уровням в соответствии со степенью

обобщенности так, как, например, сущность, живое существо,

животное, плотоядное.

Несмотря на некоторые различия, сети удобны для чтения и обработки

компьютером, а также достаточно мощны, чтобы представить семантику

естественного языка.

Наиболее часто в семантических сетях используются следующие отношения:

- связь типа "часть-целое" ("класс-подкласс", "множество-

подмножество" и т.п.)

- функциональные связи, определяемые обычно глаголами

"производит", "принадлежит" и т.п.)

- количественные ("больше", "меньше", "равно" и т.п.)

- пространственные ("близко от", "далеко от" и т.п.)

- временные ("раньше", "позже" и т.п.)

- логические связи ("и", "или" и т.п.)

- лингвистические связи и т.д.

Основные сведения о языке HTML

1. Введение

Все стандартные броузеры для сети Интернет используют способы

представления текстов, основанные на языке HTML. HTML (Hyper Text Markup

Language) – это язык разметки гипертекста. Этот язык «понимают» все

компьютеры, он довольно прост, но при этом имеет достаточные выразительные

средства для удобного описания разных типов документов. Язык позволяет

хранить текст в «чистом» виде (не кодируя его), что делает возможным

просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык

предоставляет авторам Интернет - публикаций средства:

- представления документов, включающих заголовки, тексты, таблицы,

списки, «картинки» и т.п. элементы;

- осуществления навигации по отдельным документам и множеству

документов путем использования гиперссылок;

- конструирования диалоговых форм для взаимодействия с удаленными

сервисами, доступными в сети;

- включения в документы вычисляемых форм (spread-sheets), видео и

звука, равно как и разнообразных приложений.

Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского

Центра ядерных исследований (CERN). В дальнейшем язык претерпел

существенные изменения. К середине 90-х годов произошла стандартизация его

версий, которая стала курироваться международными организациями. В

настоящее время наиболее развитой является версия языка HTML 4.0, в которой

представлены новые возможности аппаратуры и требования производителей

программного обеспечения броузеров, а также пожелания Интернет – авторов.

2. Структура HTML-документа

В HTML – файле находится символьная информация. Часть ее – это данные,

составляющие содержимое документа, а другая часть – HTML – теги, языковые

конструкции, используемые для разметки документа и управляющие его

отображением. Для выделения тегов в тексте HTML – документа эти конструкции

берутся в угловые скобки. Обычно теги используются парами: открывающий и

закрывающий тег.

Типичный HTML – документ имеет следующую структуру:

< ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”

“http://www.w3.org/TR/REC-html40/strict.dtd”>

<HTML>

<HEAD>

<title>Наименование документа </title>

<META> name=keywords content=”Ключевые слова”>

</HEAD>

<body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">

<tr>

<td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Наименование документа </font></td>

</tr>

</table>

<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">

<tr>

<td></td>

</tr>

</table>

<table width="778" border="0" align="center" cellpadding="0" cellspacing="0">

<tr>

<td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">

<tr>

<td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>

<td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>

<td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>

<td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>

<td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>

<td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>

<td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">

<!-- CLX 343x60 -->

block

<!-- CLX 343x60 -->

</div></td>

<td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>

</tr>

<tr>

<td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>

<td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>

<td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>

<td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>

<td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>

</tr>

<tr>

<td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td bgcolor="ead292" align="center">

<!-- CLX 468x60 -->

<script>//<!--

document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');

// --></script>

<!-- CLX 468x60 -->

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td bgcolor="ead292">

Тело документа

<br>

<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">

<tr>

<td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Наименование документа "</b> в избранное нажмине <b>Ctrl+D</b></font></td>

</tr>

</table>

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td align="center" bgcolor="ead292">

<!-- CLX 468x60 rotator-->

<script>//<!--

document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');

// --></script>

<!-- CLX 468x60 rotator-->

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>

E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>

</span></td>

<td width="597"><div align="right">

<!--LiveInternet counter--><script language="JavaScript"><!--

document.write('<a href="http://www.liveinternet.ru/click" '+

'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+

escape(document.referrer)+((typeof(screen)=='undefined')?'':

';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?

screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+

';'+Math.random()+

'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+

'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->

<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">

<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>

</a>

<!-- HotLog -->

<script language="javascript">

hotlog_js="1.0";

hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+

escape(window.location.href);

document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");

</script><script language="javascript1.1">

hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>

<script language="javascript1.2">

hotlog_js="1.2";

hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+

(((navigator.appName.substring(0,3)=="Mic"))?

screen.colorDepth:screen.pixelDepth)</script>

<script language="javascript1.3">hotlog_js="1.3"</script>

<script language="javascript">hotlog_r+="&js="+hotlog_js;

document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+

" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+

hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>

<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img

src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0

width="88" height="31" alt="HotLog"></a></noscript>

<!-- /HotLog -->

<!-- SpyLOG f:0211 -->

<script language="javascript"><!--

Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;

Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();

Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();

Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;

if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";

//--></script><script language="javascript1.1"><!--

Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;

//--></script><script language="javascript1.2"><!--

Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;

Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;

//--></script><script language="javascript1.3"><!--

Msl="1.3";//--></script><script language="javascript"><!--

My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";

My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);

My+="' border=0 width=88 height=31 alt='SpyLOG'>";

My+="</a>";Md.write(My);//--></script><noscript>

<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">

<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >

</a></noscript>

<!-- SpyLOG -->

  

</div></td>

</tr>

</table>

<br>

</body>

</HTML>

В приведенном фрагменте комментарий <!DOCTYPE …> фиксирует текущее

состояние спецификации версии языка HTML. Документ должен открываться тегом

<HTML>, закрываться тегом </HTML> и состоять из двух частей: заголовка и

тела документа.

Заголовок находится между тегами <HEAD> и </HEAD> и содержит служебную

информацию. В представленном выше фрагменте HTML – документа показаны два

компонента заголовка:

- <title>Заглавие </title> - строка символов, которая отображается

в заголовке окна броузера.

- <META> - дополнительная информация об HTML – документе (в нашем

примере этот тег с помощью параметров name и content фиксирует

значение первого атрибута как keywords, а второго – как ключевые

слова «Представление знаний» и «Мультиагентные системы»). Этот тег

ориентирован на аннотирование Интернет – документов и значительно

облегчает задачу индексирования их, например, с помощью сетевых

роботов.

Кроме этих компонентов заголовок может содержать еще и другие теги:

- <BASE> - базовый адрес, используемый при обработке относительных

URL,

- <LINK> - используется для связи HTML-документа с другими

источниками данных.

Собственно содержание документа находится в теле между тегами <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">

<tr>

<td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Заглавие </font></td>

</tr>

</table>

<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">

<tr>

<td></td>

</tr>

</table>

<table width="778" border="0" align="center" cellpadding="0" cellspacing="0">

<tr>

<td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">

<tr>

<td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>

<td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>

<td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>

<td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>

<td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>

<td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>

<td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">

<!-- CLX 343x60 -->

block

<!-- CLX 343x60 -->

</div></td>

<td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>

</tr>

<tr>

<td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>

<td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>

<td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>

</tr>

<tr>

<td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>

<td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>

<td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>

</tr>

<tr>

<td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>

<td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td bgcolor="ead292" align="center">

<!-- CLX 468x60 -->

<script>//<!--

document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');

// --></script>

<!-- CLX 468x60 -->

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td bgcolor="ead292">

и

<br>

<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">

<tr>

<td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Заглавие "</b> в избранное нажмине <b>Ctrl+D</b></font></td>

</tr>

</table>

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">

<tr>

<td width="6" background="/images/tbl-left-top.gif"></td>

<td height="6" background="/images/tbl-top.gif"></td>

<td width="6" background="/images/tbl-right-top.gif"></td>

</tr>

<tr>

<td width="6" background="/images/tbl-left.gif"></td>

<td align="center" bgcolor="ead292">

<!-- CLX 468x60 rotator-->

<script>//<!--

document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');

// --></script>

<!-- CLX 468x60 rotator-->

</td>

<td width="6" background="/images/tbl-right.gif"></td>

</tr>

<tr>

<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>

<td height="6" background="/images/tbl-bottom.gif"></td>

<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>

</tr>

</table></td>

</tr>

<tr>

<td colspan="2"> </td>

</tr>

<tr>

<td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>

E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>

</span></td>

<td width="597"><div align="right">

<!--LiveInternet counter--><script language="JavaScript"><!--

document.write('<a href="http://www.liveinternet.ru/click" '+

'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+

escape(document.referrer)+((typeof(screen)=='undefined')?'':

';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?

screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+

';'+Math.random()+

'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+

'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->

<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">

<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>

</a>

<!-- HotLog -->

<script language="javascript">

hotlog_js="1.0";

hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+

escape(window.location.href);

document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");

</script><script language="javascript1.1">

hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>

<script language="javascript1.2">

hotlog_js="1.2";

hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+

(((navigator.appName.substring(0,3)=="Mic"))?

screen.colorDepth:screen.pixelDepth)</script>

<script language="javascript1.3">hotlog_js="1.3"</script>

<script language="javascript">hotlog_r+="&js="+hotlog_js;

document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+

" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+

hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>

<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img

src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0

width="88" height="31" alt="HotLog"></a></noscript>

<!-- /HotLog -->

<!-- SpyLOG f:0211 -->

<script language="javascript"><!--

Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;

Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();

Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();

Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;

if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";

//--></script><script language="javascript1.1"><!--

Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;

//--></script><script language="javascript1.2"><!--

Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;

Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;

//--></script><script language="javascript1.3"><!--

Msl="1.3";//--></script><script language="javascript"><!--

My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";

My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);

My+="' border=0 width=88 height=31 alt='SpyLOG'>";

My+="</a>";Md.write(My);//--></script><noscript>

<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">

<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >

</a></noscript>

<!-- SpyLOG -->

  

</div></td>

</tr>

</table>

<br>

</body>. Иногда вместо этих тегов можно встретить тег <FRAMESET>, который

определяет специальный тип документа – Web-страницу с кадрами или фреймами.

Как правило, тело HTML-документа состоит из последовательности

структурных единиц, базисными из которых являются:

- заголовки разного уровня (текст, заключенный между тегами <Hi> и

</Hi>), где i может меняться от 1 до 6;

- параграфы (текст, заключенный между тегами <P> и </P>).

Это минимальные средства форматирования документа. Естественно, что в

HTML эти средства значительно богаче (всевозможные выравнивания, табуляция,

несколько видов списков, таблицы и т.д.).

Наиболее важными базовыми конструкциями языка HTML являются якоря.

Синтаксически эти конструкции представлены тегами <A> и </A> с атрибутами

name и href. Якорем является конструкция вида:

<A name=«Метка»>Текст</A>

Эта конструкция обеспечивает уникальное в пределах документа имя начала

определенного фрагмента HTML-текста. При этом текст, заключенный между

тегами <A> и </A>, как правило, задает семантически значимое наименование

заголовка.

Для ссылок на помеченные таким образом части Интернет - документа

используются конструкции следующего вида:

1) <A href=«#Метка»/index.html#Метка»>Текст</A> - Задает локальную ссылку на часть

документа, начинающуюся с указанной метки

2) <A href=«URL»/index.html>Текст</A> - Задает глобальную ссылку на документ в

сети, однозначно идентифицируемый с помощью URL (Unified Resource

Locator) – Интернет – адрес: имя домена, уточненное названием

протокола и собственное имя документа, включая путь к нему в

пределах данного домена.

Важными конструкциями HTML также являются таблицы с богатыми

возможностями многоуровневых заголовков и формы, с помощью которых в язык

введены средства обеспечения диалога с читателями Интернет - документов.

Базисными конструкциями форм являются редактируемые текстовые поля,

элементы выбора, различные кнопки и т.д.

Пример создания таблицы:

<TABLE>

<TR>

<TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD>

</TR>

<TR>

<TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD>

</TR>

Простейший пример создания формы:

<FORM METHOD=”POST” …>

<P> Вы можете ввести в поле одну строку

<INPUT NAME=”entry”>

</P> Для обработки результатов ввода нажмите кнопку

<INPUT TYPE=”submit” VALUE=”Принять запрос”>

</P>

</FORM>

Еще одна важная конструкция – это фреймы (frames). С их помощью можно

разделить документ на части и представлять их в отдельных,

неперекрывающихся областях экрана. Такое представление информации

характерно для многооконных приложений.

Кроме этого имеются и другие конструкции разметки Интернет –

документов. Среди этих конструкций надо отметить более четкое разделение

между структурой документа и его представлением за счет использования

таблиц стилей, скриптов, поддерживающих, в частности, создание динамических

страниц, новый механизм интеграции текстовых и графических ссылок,

исполняемый на стороне клиента и стандартизацию механизма подключения к

HTML-документам базисных медиаобъектов и приложений.

Что такое фреймы

Термин фрейм был предложен в 70-е годы для обозначения структуры знаний

для восприятия пространственных сцен. Фрейм – это абстрактный образ для

представления некоего стереотипа восприятия. Фреймом также называется и

формализованная модель для отображения образа.

Различают:

- фреймы-образцы (прототипы) – хранятся в базе данных

- фреймы-экземпляры – создаются для отображения реальных фактических

ситуаций на основе поступающих данных

- фреймы-структуры – используются для обозначения объектов и понятий

- фреймы-роли

- фреймы-сценарии

- фреймы-ситуации

Обычно структура фрейма представляется как список свойств:

(ИМЯ ФРЕЙМА:

(имя 1-го слота: значение 1-го слота),

(имя 2-го слота: значение 2-го слота),

--------------------------

(имя N-го слота: значение N-го слота)

В качестве значения слота может выступать имя другого фрейма, так

образуется сеть фреймов.

Существует несколько способов получения слотом значений во фрейме-

экземпляре:

- по умолчанию от фрейма-образца (значение default)

- через наследование свойств от фрейма, указанного в слоте АКО (a

kind of)

- по формуле, указанной в слоте

- через присоединенную процедуру

- явно из диалога с пользователем

- из базы данных.

Возможности представления знаний на базе языка HTML

Рассмотрим, каким образом HTML-документ может быть представлен в виде

семантической сети. Нам необходимо выделить те конструкции языка, которые

могут быть полезными для решения этой задачи.

Прежде всего, к числу таких конструкций относятся теги типа <TITLE>,

<META…> и <A…>. Первый тег важен для фиксации семантики всего HTML –

документа, так как текст, заключенный между тегами <title>и </title> чаще

всего отражает его назначение или содержание.

Теги типа <META…> вводят имена атрибутов и их значения с помощью

параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения

между частями одного документа или между отдельными документами.

Теги типа <META…> явно вводят семантику значений атрибутов, одинаково

интерпретируемых броузерами за счет ключевых слов, которые могут быть

значениями параметра name.

Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее

якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso

(смотри также), в других случаях – ConsistOf, PartOf или иное подходящее

имя, но семантика данной конструкции имплицитна, а встроенная интерпретация

ее связана лишь с переходом по ссылке и визуализацией начала

соответствующего фрагмента документа или загрузкой нового документа для

просмотра.

Другими полезными конструкциями являются заголовки разделов и

подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие

элементы языка.

Но в целом, выделение значимых для семантической интерпретации

конструкций является экспертной задачей, решаемой каждый раз автором

соответствующей Интернет - публикации по-своему. Но существуют определенные

стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в

большинстве случаев представляются таблицами или списками, либо «зашиты» в

чувствительные для щелчка мыши графические объекты. Это характерно и для

индексов на сайтах машин поиска.

Рассмотрим в качестве примера страницу официального сайта компании

Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На

этой странице располагается по информация по программе TextAnalyst 2.0.

Экранная форма этой страницы показана на рисунке.

[pic]

Фрагмент соответствующего HTML – текста представлен ниже:

<html>

<head>

---------------------------------

<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining,

knowledge discovery, textmining, e-commerce, classification, semantic

analysis, neuro networks, natural linguistc, text processing, Микросистемы,

анализ текстов, база знаний, документооборот, классификация, семантический

анализ, нейронные сети, натуральные языки, текст процессор">

<meta name="GENERATOR" content="Microsoft FrontPage 4.0">

<meta name="ProgId" content="FrontPage.Editor.Document">

<title>Microsystems, Ltd" --><title>и </title>

<link rel="stylesheet" type="text/css" href="style.css">

</head>

-----------------------------------------------

<body topmargin="0" leftmargin="0">

<table border="0" cellspacing="0" cellpadding="0">

<tr>

<td valign="top" width="239"><a href="../../Wcf66ee0a62d3a.htm"><img

border="0" src="../../images/top_logo.gif"></a></td>

<td valign="top" align="left">

<table border="0" cellspacing="0" cellpadding="0">

<tr><td width="100%"><img border="0"

src="../../images/top_up.gif">

</td></tr>

<tr> <td width="100%">

<table border="0" cellspacing="0" cellpadding="0" width="100%"

bgcolor="#001395" height="23">

<tr><td width="100%">

-------------------------------------

</table>

</td></tr>

</table>

<!-- end menu -->

----------------------------------------------

<!-- start menu here -->

<table border="0" cellspacing="0" cellpadding="0" width="100%">

<tr> <td width="241" valign="top" align="left">

<table border="0" width="100%" cellspacing="0" cellpadding="0">

<tr><td width="100%">

<p> </p>

<p align="center">

<img border="0" src="../../images/10thyear_s.gif" width="210" height="52">

</p>

</td></tr>

<tr><td width="100%" valign="top" align="left">

<!-- left menu-->

<table border="0" width="218">

<tr><td width="210" bgcolor="#DDDDDD" valign="top"

align="left">

<p align="right"><b>Products</b></td>

</tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

<td width="210" align="right">

<a href="../../Wceda57023d7c.htm" target="_self">

<span style="color: #000000; text-decoration: none">

TextAnalyst SDK</span></a>

</td></tr>

<tr><td width="210" align="right">

<p align="right"><img border="0" src="../../images/bd14580_.gif" width="12"

height="12">

TextAnalyst</p>

</td></tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

<td width="210" align="right">

<a href="../../Wc902bd7625022.htm" target="_self">

<span style="color: #000000; text-decoration: none">

Text Referent</span></a>

</td></tr>

<!-- end left menu-->

----------------------------------------

</table>

<!-- end here -->

</td>

<!-- free space -->

<td valign="top" align="left">

    

</td>

<!-- end free space -->

<td valign="top" align="left" width=100% >

<!-- content started here -->

<table border="0" cellspacing="6" cellpadding="0">

<tr> <td width="100%" valign="top" align="left">

<head>

<meta name="DESCRIPTION" content="TextAnalyst - personal text mining

system">

<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">

<title>TextAnalyst" --><title>и </title>

</head>

<div align="left">

<table border="0" align="left" cellspacing="4" cellpadding="3">

<tr> <td valign="top" align="center" width="250">

<p align="center"> </p>

<p align="center"><a href="cgi-bin/stat/Wc9a5bb9f3be1d.htm">

<img border="0" src="images/downloads.gif"></a></p>

<p align="center">Получите бесплатную версию

TextAnalyst</p>

<table border="0">

<tr><td width="100%" bgcolor="#008000">

<p align="center" class="menu">

<font color="#FFFFFF">Системные требования</font></td>

</tr>

<tr><td width="100%">Intel-based PC</td> </tr>

<tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>

<tr> <td width="100%" bgcolor="#C0C0C0">

<p align="center" class="menu">

<font color="#FFFFFF">Технические характеристики</font></td>/tr>

<tr><td width="100%" valign="top" align="left">

<ul>

<li> Средняя скорость анализа текста около 1Мбайт/мин (при

использовании Pentium-II).</li>

<li>Максимальный объем анализируемой подборки не ограничен и

зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>

<li>Собственный объем TextAnalyst не превышает 5Мб.</li>

<li>Форматы обрабатываемых файлов:</li>

<li>*.txt (ANSI, DOS), *.rtf</li>

<li>Экспорт информации в форматы: *.txt,

*.csw (электронные таблицы).</li>

</ul> </td></tr>

</table>

-----------------------------------

<h1 align="center">

<img border="0" src="../../images/octopus_shaden.gif"

align="left" width="99" height="112">TextAnalyst 2.0 </h1>

<p align="center"><b>персональная система автоматического

анализа текста </b></p>

<p>TextAnalyst разработан в качестве инструмента для анализа

содержания текстов, смыслового поиска информации, формирования электронных

архивов, и предоставляет пользователю следующие основные

возможности: </p>

<ul>

<li>анализа содержания текста с автоматическим формированием

семантической сети с гиперссылками - получения смыслового портрета текста в

терминах основных понятий и их смысловых связей; </li>

<li>анализа содержания текста с автоматическим формированием

тематического древа с гиперссылками - выявления семантической структуры

текста в виде иерархии тем и подтем; </li>

<li>смыслового поиска с учетом скрытых смысловых связей слов

запроса со словами текста; </li>

<li>автоматического реферирования текста - формирования его

смыслового портрета в терминах наиболее информативных фраз; </li>

<li>кластеризации информации - анализа распределения

материала текстов по тематическим классам;</li>

<li>автоматической индексации текста с преобразованием в

гипертекст; </li>

<li>ранжирования всех видов информации о семантике текста по

«степени значимости» с возможностью варьирования детальности ее

исследования; </li>

<li>автоматического/автоматизированного формирования

полнотекстовой базы знаний с гипертекстовой структурой и возможностями

ассоциативного доступа к информации; </li>

</ul>

<p align="center"><b>Не пугайтесь обилия возможностей!</b></p>

<p align="center"><i>Работа с TextAnalyst покажется Вам

неожиданно простой и приятной, а его аналитические способности сэкономят

массу полезного времени...

</i></p></td> </tr>

</table></div></td> </tr>

</table>

----------------------------------

</td></tr></table>

</html>

Сравнив приведенные экранную форму и HTML-текст, видим, что

семантически значимыми элементами данного документа являются:

- ключевые слова, относящиеся к данному документу: Microsystems,

TextAnalyst, text mining, knowledge discovery, textmining, e-commerce,

classification, semantic analysis, neuro networks, natural linguistc,

text processing, Микросистемы, анализ текстов, база знаний,

документооборот, классификация, семантический анализ, нейронные сети,

натуральные языки, текст процессор (тег <META>);

- все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых

(тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно

перейти к другой интересующей информации. Например, можно получить

РЕКЛАМА

рефераты НОВОСТИ рефераты
Изменения
Прошла модернизация движка, изменение дизайна и переезд на новый более качественный сервер


рефераты СЧЕТЧИК рефераты

БОЛЬШАЯ ЛЕНИНГРАДСКАЯ БИБЛИОТЕКА
рефераты © 2010 рефераты