|
||||||||||||
|
||||||||||||
|
|||||||||
МЕНЮ
|
БОЛЬШАЯ ЛЕНИНГРАДСКАЯ БИБЛИОТЕКА - РЕФЕРАТЫ - Разработка программных средств конвертирования HTML-текстов в семантические сетиРазработка программных средств конвертирования HTML-текстов в семантические сетиМосковский Государственный Университет Путей сообщения (МИИТ) Кафедра АСУ Курсовой проект «Разработка программных средств конвертирования HTML текстов в семантическую сеть» Выполнила: Студентка 5-го курса группы УИС-511 Болотова Е.А. Проверил: Саркисян Р.Е. Москва 2001 Содержание: Что такое семантическая сеть …………………………..3 Основные сведения о языке HTML …………………….3 1.Введение ………………………………………….3 2.Сруктура HTML-документа ……………………..4 Что такое фреймы ……………………………………….7 Возможности представления знаний на базе языка HTML ……………………………………………...8 TextAnalyst 2.0 – персональная система автоматического анализа текста ………………………..14 Принцип работы HTML-конвертора …………………...17 Список использованных источников …………………..21 Что такое семантическая сеть Семантическая сеть – структура для представления знаний в виде ориентированного графа, в котором вершины – это понятия, а дуги - отношения. Термин семантическая означает "смысловая", а сама семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают, что есть наука, определяющая смысл знаков. Самые первые семантические сети были разработаны в качестве языка- посредника для систем машинного перевода. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию логическому программированию, фреймовым системам и другим языкам представления. На сегодняшний день существует множество вариантов семантических сетей. Их терминология и структура различаются, но существуют сходства, присущие всем семантическим сетям: 1. Узлы семантических сетей представляют собой концепты предметов, событий, состояний 2. различные узлы одного концепта относятся к различным значениям, если они не помечены как относящиеся к одному концепту 3. дуги семантических сетей создают отношения между узлами- концептами (пометки над дугами указывают на тип отношения) 4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями 5. концепты организованы по уровням в соответствии со степенью обобщенности так, как, например, сущность, живое существо, животное, плотоядное. Несмотря на некоторые различия, сети удобны для чтения и обработки компьютером, а также достаточно мощны, чтобы представить семантику естественного языка. Наиболее часто в семантических сетях используются следующие отношения: - связь типа "часть-целое" ("класс-подкласс", "множество- подмножество" и т.п.) - функциональные связи, определяемые обычно глаголами "производит", "принадлежит" и т.п.) - количественные ("больше", "меньше", "равно" и т.п.) - пространственные ("близко от", "далеко от" и т.п.) - временные ("раньше", "позже" и т.п.) - логические связи ("и", "или" и т.п.) - лингвистические связи и т.д. Основные сведения о языке HTML 1. Введение Все стандартные броузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. HTML (Hyper Text Markup Language) – это язык разметки гипертекста. Этот язык «понимают» все компьютеры, он довольно прост, но при этом имеет достаточные выразительные средства для удобного описания разных типов документов. Язык позволяет хранить текст в «чистом» виде (не кодируя его), что делает возможным просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык предоставляет авторам Интернет - публикаций средства: - представления документов, включающих заголовки, тексты, таблицы, списки, «картинки» и т.п. элементы; - осуществления навигации по отдельным документам и множеству документов путем использования гиперссылок; - конструирования диалоговых форм для взаимодействия с удаленными сервисами, доступными в сети; - включения в документы вычисляемых форм (spread-sheets), видео и звука, равно как и разнообразных приложений. Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского Центра ядерных исследований (CERN). В дальнейшем язык претерпел существенные изменения. К середине 90-х годов произошла стандартизация его версий, которая стала курироваться международными организациями. В настоящее время наиболее развитой является версия языка HTML 4.0, в которой представлены новые возможности аппаратуры и требования производителей программного обеспечения броузеров, а также пожелания Интернет – авторов. 2. Структура HTML-документа В HTML – файле находится символьная информация. Часть ее – это данные, составляющие содержимое документа, а другая часть – HTML – теги, языковые конструкции, используемые для разметки документа и управляющие его отображением. Для выделения тегов в тексте HTML – документа эти конструкции берутся в угловые скобки. Обычно теги используются парами: открывающий и закрывающий тег. Типичный HTML – документ имеет следующую структуру: < ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN” “http://www.w3.org/TR/REC-html40/strict.dtd”> <HTML> <HEAD> <title>Наименование документа </title> <META> name=keywords content=”Ключевые слова”> </HEAD> <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0"> <tr> <td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Наименование документа </font></td> </tr> </table> <table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF"> <tr> <td></td> </tr> </table> <table width="778" border="0" align="center" cellpadding="0" cellspacing="0"> <tr> <td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01"> <tr> <td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td> <td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td> <td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td> <td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td> <td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td> <td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td> </tr> <tr> <td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td> <td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center"> <!-- CLX 343x60 --> block <!-- CLX 343x60 --> </div></td> <td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td> </tr> <tr> <td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td> <td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td> <td> <img src="images/spacer.gif" width="1" height="15" alt=""></td> </tr> <tr> <td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td> </tr> <tr> <td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td> <td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td> <td> <img src="images/spacer.gif" width="1" height="19" alt=""></td> </tr> <tr> <td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td> </tr> </table></td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td bgcolor="ead292" align="center"> <!-- CLX 468x60 --> <script>//<!-- document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>'); // --></script> <!-- CLX 468x60 --> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td bgcolor="ead292"> Тело документа <br> <table width="500" border="0" align="center" cellpadding="5" cellspacing="0"> <tr> <td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Наименование документа "</b> в избранное нажмине <b>Ctrl+D</b></font></td> </tr> </table> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td align="center" bgcolor="ead292"> <!-- CLX 468x60 rotator--> <script>//<!-- document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>'); // --></script> <!-- CLX 468x60 rotator--> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br> E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br> </span></td> <td width="597"><div align="right"> <!--LiveInternet counter--><script language="JavaScript"><!-- document.write('<a href="http://www.liveinternet.ru/click" '+ 'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+ escape(document.referrer)+((typeof(screen)=='undefined')?'': ';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+ ';'+Math.random()+ '" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+ 'border=0 width€ height1></a>')//--></script><!--/LiveInternet--> <a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru"> <img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0> </a> <!-- HotLog --> <script language="javascript"> hotlog_js="1.0"; hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+ escape(window.location.href); document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N"); </script><script language="javascript1.1"> hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script> <script language="javascript1.2"> hotlog_js="1.2"; hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+ (((navigator.appName.substring(0,3)=="Mic"))? screen.colorDepth:screen.pixelDepth)</script> <script language="javascript1.3">hotlog_js="1.3"</script> <script language="javascript">hotlog_r+="&js="+hotlog_js; document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+ " src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+ hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script> <noscript><a href=http://click.hotlog.ru/?277385 target=_top><img src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0 width="88" height="31" alt="HotLog"></a></noscript> <!-- /HotLog --> <!-- SpyLOG f:0211 --> <script language="javascript"><!-- Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0; Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random(); Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset(); Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt; if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0"; //--></script><script language="javascript1.1"><!-- Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj; //--></script><script language="javascript1.2"><!-- Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth; Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx; //--></script><script language="javascript1.3"><!-- Msl="1.3";//--></script><script language="javascript"><!-- My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>"; My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href); My+="' border=0 width=88 height=31 alt='SpyLOG'>"; My+="</a>";Md.write(My);//--></script><noscript> <a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank"> <img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 > </a></noscript> <!-- SpyLOG -->
</div></td> </tr> </table> <br> </body> </HTML> В приведенном фрагменте комментарий <!DOCTYPE …> фиксирует текущее состояние спецификации версии языка HTML. Документ должен открываться тегом <HTML>, закрываться тегом </HTML> и состоять из двух частей: заголовка и тела документа. Заголовок находится между тегами <HEAD> и </HEAD> и содержит служебную информацию. В представленном выше фрагменте HTML – документа показаны два компонента заголовка: - <title>Заглавие </title> - строка символов, которая отображается в заголовке окна броузера. - <META> - дополнительная информация об HTML – документе (в нашем примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова «Представление знаний» и «Мультиагентные системы»). Этот тег ориентирован на аннотирование Интернет – документов и значительно облегчает задачу индексирования их, например, с помощью сетевых роботов. Кроме этих компонентов заголовок может содержать еще и другие теги: - <BASE> - базовый адрес, используемый при обработке относительных URL, - <LINK> - используется для связи HTML-документа с другими источниками данных. Собственно содержание документа находится в теле между тегами <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0"> <tr> <td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Заглавие </font></td> </tr> </table> <table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF"> <tr> <td></td> </tr> </table> <table width="778" border="0" align="center" cellpadding="0" cellspacing="0"> <tr> <td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01"> <tr> <td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td> <td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td> <td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td> <td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td> <td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td> <td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td> </tr> <tr> <td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td> <td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center"> <!-- CLX 343x60 --> block <!-- CLX 343x60 --> </div></td> <td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td> </tr> <tr> <td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td> <td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td> <td> <img src="images/spacer.gif" width="1" height="15" alt=""></td> </tr> <tr> <td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td> </tr> <tr> <td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td> <td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td> <td> <img src="images/spacer.gif" width="1" height="19" alt=""></td> </tr> <tr> <td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td> <td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td> </tr> </table></td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td bgcolor="ead292" align="center"> <!-- CLX 468x60 --> <script>//<!-- document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>'); // --></script> <!-- CLX 468x60 --> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td bgcolor="ead292"> и <br> <table width="500" border="0" align="center" cellpadding="5" cellspacing="0"> <tr> <td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Заглавие "</b> в избранное нажмине <b>Ctrl+D</b></font></td> </tr> </table> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6" background="/images/tbl-left-top.gif"></td> <td height="6" background="/images/tbl-top.gif"></td> <td width="6" background="/images/tbl-right-top.gif"></td> </tr> <tr> <td width="6" background="/images/tbl-left.gif"></td> <td align="center" bgcolor="ead292"> <!-- CLX 468x60 rotator--> <script>//<!-- document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>'); // --></script> <!-- CLX 468x60 rotator--> </td> <td width="6" background="/images/tbl-right.gif"></td> </tr> <tr> <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td> <td height="6" background="/images/tbl-bottom.gif"></td> <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td> </tr> </table></td> </tr> <tr> <td colspan="2"> </td> </tr> <tr> <td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br> E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br> </span></td> <td width="597"><div align="right"> <!--LiveInternet counter--><script language="JavaScript"><!-- document.write('<a href="http://www.liveinternet.ru/click" '+ 'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+ escape(document.referrer)+((typeof(screen)=='undefined')?'': ';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+ ';'+Math.random()+ '" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+ 'border=0 width€ height1></a>')//--></script><!--/LiveInternet--> <a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru"> <img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0> </a> <!-- HotLog --> <script language="javascript"> hotlog_js="1.0"; hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+ escape(window.location.href); document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N"); </script><script language="javascript1.1"> hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script> <script language="javascript1.2"> hotlog_js="1.2"; hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+ (((navigator.appName.substring(0,3)=="Mic"))? screen.colorDepth:screen.pixelDepth)</script> <script language="javascript1.3">hotlog_js="1.3"</script> <script language="javascript">hotlog_r+="&js="+hotlog_js; document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+ " src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+ hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script> <noscript><a href=http://click.hotlog.ru/?277385 target=_top><img src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0 width="88" height="31" alt="HotLog"></a></noscript> <!-- /HotLog --> <!-- SpyLOG f:0211 --> <script language="javascript"><!-- Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0; Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random(); Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset(); Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt; if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0"; //--></script><script language="javascript1.1"><!-- Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj; //--></script><script language="javascript1.2"><!-- Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth; Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx; //--></script><script language="javascript1.3"><!-- Msl="1.3";//--></script><script language="javascript"><!-- My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>"; My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href); My+="' border=0 width=88 height=31 alt='SpyLOG'>"; My+="</a>";Md.write(My);//--></script><noscript> <a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank"> <img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 > </a></noscript> <!-- SpyLOG -->
</div></td> </tr> </table> <br> </body>. Иногда вместо этих тегов можно встретить тег <FRAMESET>, который определяет специальный тип документа – Web-страницу с кадрами или фреймами. Как правило, тело HTML-документа состоит из последовательности структурных единиц, базисными из которых являются: - заголовки разного уровня (текст, заключенный между тегами <Hi> и </Hi>), где i может меняться от 1 до 6; - параграфы (текст, заключенный между тегами <P> и </P>). Это минимальные средства форматирования документа. Естественно, что в HTML эти средства значительно богаче (всевозможные выравнивания, табуляция, несколько видов списков, таблицы и т.д.). Наиболее важными базовыми конструкциями языка HTML являются якоря. Синтаксически эти конструкции представлены тегами <A> и </A> с атрибутами name и href. Якорем является конструкция вида: <A name=«Метка»>Текст</A> Эта конструкция обеспечивает уникальное в пределах документа имя начала определенного фрагмента HTML-текста. При этом текст, заключенный между тегами <A> и </A>, как правило, задает семантически значимое наименование заголовка. Для ссылок на помеченные таким образом части Интернет - документа используются конструкции следующего вида: 1) <A href=«#Метка»/index.html#Метка»>Текст</A> - Задает локальную ссылку на часть документа, начинающуюся с указанной метки 2) <A href=«URL»/index.html>Текст</A> - Задает глобальную ссылку на документ в сети, однозначно идентифицируемый с помощью URL (Unified Resource Locator) – Интернет – адрес: имя домена, уточненное названием протокола и собственное имя документа, включая путь к нему в пределах данного домена. Важными конструкциями HTML также являются таблицы с богатыми возможностями многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с читателями Интернет - документов. Базисными конструкциями форм являются редактируемые текстовые поля, элементы выбора, различные кнопки и т.д. Пример создания таблицы: <TABLE> <TR> <TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD> </TR> <TR> <TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD> </TR> Простейший пример создания формы: <FORM METHOD=”POST” …> <P> Вы можете ввести в поле одну строку <INPUT NAME=”entry”> </P> Для обработки результатов ввода нажмите кнопку <INPUT TYPE=”submit” VALUE=”Принять запрос”> </P> </FORM> Еще одна важная конструкция – это фреймы (frames). С их помощью можно разделить документ на части и представлять их в отдельных, неперекрывающихся областях экрана. Такое представление информации характерно для многооконных приложений. Кроме этого имеются и другие конструкции разметки Интернет – документов. Среди этих конструкций надо отметить более четкое разделение между структурой документа и его представлением за счет использования таблиц стилей, скриптов, поддерживающих, в частности, создание динамических страниц, новый механизм интеграции текстовых и графических ссылок, исполняемый на стороне клиента и стандартизацию механизма подключения к HTML-документам базисных медиаобъектов и приложений. Что такое фреймы Термин фрейм был предложен в 70-е годы для обозначения структуры знаний для восприятия пространственных сцен. Фрейм – это абстрактный образ для представления некоего стереотипа восприятия. Фреймом также называется и формализованная модель для отображения образа. Различают: - фреймы-образцы (прототипы) – хранятся в базе данных - фреймы-экземпляры – создаются для отображения реальных фактических ситуаций на основе поступающих данных - фреймы-структуры – используются для обозначения объектов и понятий - фреймы-роли - фреймы-сценарии - фреймы-ситуации Обычно структура фрейма представляется как список свойств: (ИМЯ ФРЕЙМА: (имя 1-го слота: значение 1-го слота), (имя 2-го слота: значение 2-го слота), -------------------------- (имя N-го слота: значение N-го слота) В качестве значения слота может выступать имя другого фрейма, так образуется сеть фреймов. Существует несколько способов получения слотом значений во фрейме- экземпляре: - по умолчанию от фрейма-образца (значение default) - через наследование свойств от фрейма, указанного в слоте АКО (a kind of) - по формуле, указанной в слоте - через присоединенную процедуру - явно из диалога с пользователем - из базы данных. Возможности представления знаний на базе языка HTML Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи. Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <title>и </title> чаще всего отражает его назначение или содержание. Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами. Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name. Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра. Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка. Но в целом, выделение значимых для семантической интерпретации конструкций является экспертной задачей, решаемой каждый раз автором соответствующей Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска. Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке. [pic] Фрагмент соответствующего HTML – текста представлен ниже: <html> <head> --------------------------------- <meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор"> <meta name="GENERATOR" content="Microsoft FrontPage 4.0"> <meta name="ProgId" content="FrontPage.Editor.Document"> <title>Microsystems, Ltd" --><title>и </title> <link rel="stylesheet" type="text/css" href="style.css"> </head> ----------------------------------------------- <body topmargin="0" leftmargin="0"> <table border="0" cellspacing="0" cellpadding="0"> <tr> <td valign="top" width="239"><a href="../../Wcf66ee0a62d3a.htm"><img border="0" src="../../images/top_logo.gif"></a></td> <td valign="top" align="left"> <table border="0" cellspacing="0" cellpadding="0"> <tr><td width="100%"><img border="0" src="../../images/top_up.gif"> </td></tr> <tr> <td width="100%"> <table border="0" cellspacing="0" cellpadding="0" width="100%" bgcolor="#001395" height="23"> <tr><td width="100%"> ------------------------------------- </table> </td></tr> </table> <!-- end menu --> ---------------------------------------------- <!-- start menu here --> <table border="0" cellspacing="0" cellpadding="0" width="100%"> <tr> <td width="241" valign="top" align="left"> <table border="0" width="100%" cellspacing="0" cellpadding="0"> <tr><td width="100%"> <p> </p> <p align="center"> <img border="0" src="../../images/10thyear_s.gif" width="210" height="52"> </p> </td></tr> <tr><td width="100%" valign="top" align="left"> <!-- left menu--> <table border="0" width="218"> <tr><td width="210" bgcolor="#DDDDDD" valign="top" align="left"> <p align="right"><b>Products</b></td> </tr> <tr onmouseout="this.style.backgroundColor='transparent'" onmouseover="this.style.backgroundColor='#6B8ADE'"> <td width="210" align="right"> <a href="../../Wceda57023d7c.htm" target="_self"> <span style="color: #000000; text-decoration: none"> TextAnalyst SDK</span></a> </td></tr> <tr><td width="210" align="right"> <p align="right"><img border="0" src="../../images/bd14580_.gif" width="12" height="12"> TextAnalyst</p> </td></tr> <tr onmouseout="this.style.backgroundColor='transparent'" onmouseover="this.style.backgroundColor='#6B8ADE'"> <td width="210" align="right"> <a href="../../Wc902bd7625022.htm" target="_self"> <span style="color: #000000; text-decoration: none"> Text Referent</span></a> </td></tr> <!-- end left menu--> ---------------------------------------- </table> <!-- end here --> </td> <!-- free space --> <td valign="top" align="left">
</td> <!-- end free space --> <td valign="top" align="left" width=100% > <!-- content started here --> <table border="0" cellspacing="6" cellpadding="0"> <tr> <td width="100%" valign="top" align="left"> <head> <meta name="DESCRIPTION" content="TextAnalyst - personal text mining system"> <meta name="KEYWORDS" content="TextAnalyst, personal, text mining"> <title>TextAnalyst" --><title>и </title> </head> <div align="left"> <table border="0" align="left" cellspacing="4" cellpadding="3"> <tr> <td valign="top" align="center" width="250"> <p align="center"> </p> <p align="center"><a href="cgi-bin/stat/Wc9a5bb9f3be1d.htm"> <img border="0" src="images/downloads.gif"></a></p> <p align="center">Получите бесплатную версию TextAnalyst</p> <table border="0"> <tr><td width="100%" bgcolor="#008000"> <p align="center" class="menu"> <font color="#FFFFFF">Системные требования</font></td> </tr> <tr><td width="100%">Intel-based PC</td> </tr> <tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr> <tr> <td width="100%" bgcolor="#C0C0C0"> <p align="center" class="menu"> <font color="#FFFFFF">Технические характеристики</font></td>/tr> <tr><td width="100%" valign="top" align="left"> <ul> <li> Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li> <li>Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li> <li>Собственный объем TextAnalyst не превышает 5Мб.</li> <li>Форматы обрабатываемых файлов:</li> <li>*.txt (ANSI, DOS), *.rtf</li> <li>Экспорт информации в форматы: *.txt, *.csw (электронные таблицы).</li> </ul> </td></tr> </table> ----------------------------------- <h1 align="center"> <img border="0" src="../../images/octopus_shaden.gif" align="left" width="99" height="112">TextAnalyst 2.0 </h1> <p align="center"><b>персональная система автоматического анализа текста </b></p> <p>TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности: </p> <ul> <li>анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей; </li> <li>анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем; </li> <li>смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста; </li> <li>автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз; </li> <li>кластеризации информации - анализа распределения материала текстов по тематическим классам;</li> <li>автоматической индексации текста с преобразованием в гипертекст; </li> <li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования; </li> <li>автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации; </li> </ul> <p align="center"><b>Не пугайтесь обилия возможностей!</b></p> <p align="center"><i>Работа с TextAnalyst покажется Вам неожиданно простой и приятной, а его аналитические способности сэкономят массу полезного времени... </i></p></td> </tr> </table></div></td> </tr> </table> ---------------------------------- </td></tr></table> </html> Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются: - ключевые слова, относящиеся к данному документу: Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор (тег <META>); - все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно перейти к другой интересующей информации. Например, можно получить |
РЕКЛАМА
|
|||||||||||||||||
|
БОЛЬШАЯ ЛЕНИНГРАДСКАЯ БИБЛИОТЕКА | ||
© 2010 |