Электронная почта. Разработка системы автоматической фильтрации нежелательной электронной корреспонденции
Министерство образования и науки Российской Федерации
Федеральное
государственное автономное образовательное
учреждение высшего профессионального
образования «Уральский федеральный
университет имени первого
Факультет экономики и управления
Кафедра
банковского дела
Курсовая работа
По дисциплине
«Информационные системы в
Тема: «Электронная почта. Разработка системы автоматической фильтрации нежелательной электронной
корреспонденции».
Руководитель М.В.Попов
Студент
Группа
ЭУ-56101
Екатеринбург 2010
Содержание.
Введение…………………………………………………………
Глава 1. Общие характеристики электронной почты…………………………6
1. 1 Технология функционирования электронной почты……………………13
1.1.1. Получение
и отправка сообщений…………………………
1.1.2. Адресная книга……………………………………………………………18
1.1.3. Работа с
вложениями……………………………………………………
1.1.4. Безопасность
электронной почты…………………………………
Глава 2. Почтовые
программы-клиенты…………………………………
Заключение……………………………………………………
Список литературы…………………………………
Введение.
В сознании большинства пользователей глобальной компьютерной сети Internet сама эта сеть ассоциируется с тремя основными информационными технологиями:
- электронная почта (e-mail);
- файловые архивы FTP;
- World Wide Web.
Каждая из этих технологий направлена на решение одной из множества задач информационного обслуживания пользователей сети.
Электронная почта - это основное средство коммуникаций Internet. Она во многом похожа на обычную почту. С ее помощью письмо - текст, снабженный стандартным заголовком (конвертом) - доставляется по указанному адресу, который определяет местонахождение сервера и имя адресата, который имеет почтовый ящик на этом сервере, с тем, чтобы адресат мог его достать и прочесть в удобное время.
Электронная почта оказалась во многом удобнее обычной, "бумажной". Не говоря уже о том, что Вам не приходится вставать из-за компьютера и идти до почтового ящика, чтобы получить или отправить письмо. Кроме того:
- электронной почтой сообщение в большинстве случаев доставляется гораздо быстрее, чем обычной;
- дешевле стоит;
- для отправки письма нескольким адресатам не нужно печатать его во многих экземплярах, достаточно однажды ввести текст в компьютер;
- если нужно перечитать, исправить полученное или составленное вами письмо, или использовать выдержки из него, это сделать легче, поскольку текст уже находится в машине;
- удобнее хранить большое количество писем в файле на диске, чем в ящике стола; в файле легче и искать;
- и, наконец, экономится бумага.
Это самое популярное на сегодня использование Internet у нас в стране. По самым скромным оценкам, в мире более 50 миллионов человек пользуются услугами электронной почты. В целом же, трафик электронной почты (протокол smtp) занимает только 3.7% всего сетевого. Популярность ее объясняется, как насущными требованиями, так и тем, что большинство подключений - подключения класса “Dial-Up” (посредством модема). E-mail доступна при любом виде доступа к Internet.
Электронная почта даёт возможность посылать сообщения, получать их в свой электронный почтовый ящик, отвечать на письма корреспондентов автоматически, используя их адреса, исходя из их писем, рассылать копии письма сразу нескольким получателям, переправлять полученное письмо по другому адресу, использовать вместо адресов (числовых или доменных имен) логические имена, создавать несколько подразделов почтового ящика для разного рода корреспонденции, включать в письма текстовые файлы, пользоваться системой «отражателей почты» для ведения дискуссий с группой ваших корреспондентов и т.д. Из Internet вы можете посылать почту в сопредельные сети, если вы знаете адрес соответствующего шлюза, формат его обращений и адрес в той сети.
Используя e-mail, вы можете пользоваться ftp в асинхронном режиме. Существует множество серверов, поддерживающих такие услуги. Вы посылаете e-mail в адрес такой службы, содержащую команду этой системы, например, дать листинг какой-то директории, или переслать файл такой-то к вам, и вам приходит автоматически ответ по e-mail с этим листингом или нужным файлом. В таком режиме возможно использование почти всего набора команд обычного ftp. Существуют серверы, позволяющие получать файлы по ftp не только с них самих, но с любого ftp-сервера, который вы укажете в своем послании e-mail..
E-mail дает возможность
проводить телеконференции и
дискуссии. Для этого
E-mail позволяет
использовать в асинхронном
При пользовании e-mail, из-за ее оперативности, может сложиться ощущение телефонной связи, но всегда следует осознавать, что это все же почта. Все сообщения письменные, поэтому почти документированы, поэтому следует придерживаться этикета, принятого в обычной корреспонденции. В дополнение к этому следует помнить, что e-mail не обладает той степенью приватности, как обычная почта, так что, если вы не пользуетесь дополнительными средствами шифрования сообщений, не следует писать в посланиях e-mail ничего, чего вам бы не хотелось увидеть выставленным на всеобщее обозрение. Анонимность также исключена: источник прослеживается без труда.
Целью предложенной курсовой работы - освятить такие моменты, как назначение и принципы функционирования электронной почты, а также предложить методы борьбы с любую нежелательной электронной информацией, получаемой пользователем.
Для этого потребуется решить ряд задач:
1. Рассмотреть
общие характеристики
2. Сравнить наиболее известные почтовые программы
3. Проследить
технологию функционирования
4. Обзор архитектуры
системы фильтрации спам-сообщений (спам-фильтра),
и описание комбинированного метода фильтрации,
основанного на сочетании известных алгоритмов.
Глава 1. Общие характеристики электронной почты и технология ее функционирования
E-mail (Electronic mail) -
электронная почта - электронный
аналог обычной почты.
С помощью электронной почты можно посылать сообщения, получать их в свой электронный почтовый ящик, отвечать на письма корреспондентов автоматически, используя их адреса, исходя из их писем, рассылать копии писем сразу нескольким получателям, переправлять полученное письмо по другому адресу, использовать вместо адресов (числовых или доменных имен) логические имена, создавать несколько подразделов почтового ящика для разного рода корреспонденции, включать в письма текстовые файлы, пользоваться системой «отражателей почты» для ведения дискуссий с группой корреспондентов и т.д. Из Internet можно посылать почту в сопредельные сети, если известен адрес соответствующего шлюза, формат его обращений и адрес в той сети.
Для того чтобы иметь возможность обмениваться письмами по электронной почте, пользователь должен стать клиентом одной из компьютерных сетей. Также как и в телефонных сетях, клиенты компьютерных сетей называются абонентами.
Для каждого абонента на одном из сетевых компьютеров выделяется область памяти - электронный почтовый ящик. Доступ к этой области памяти осуществляется по адресу, который сообщается абоненту, и паролю, который абонент придумывает сам. Пароль известен только абоненту и сетевому компьютеру. Став абонентом компьютерной сети и получив адрес своего почтового ящика, пользователь может сообщить его друзьям, знакомым. Каждый абонент электронной почты может через свой компьютер и модем послать письмо любому другому абоненту, указав в послании его почтовый адрес.
Все письма, поступающие на некоторый почтовый адрес, записываются в выделенную для него область памяти сетевого компьютера. Сетевой компьютер (или сервер), содержащий почтовые ящики абонентов, носит название хост-компьютера (от host - хозяин). Абоненты периодически скачивают с сервера поступившие для них почтовые сообщения.
E-mail дает возможность
проводить телеконференции и
дискуссии. Для этого
Пересылать по e-mail можно и двоичные файлы, не только текстовые. В UNIX, например, для этого используется программы UUENCODE и UUDECODE. С введением стандарта MIME («Multipurpose Internet Mail Extensions» - Многоцелевые расширения почтового стандарта Internet) возможности электронной почты значительно расширены - в одном сообщении можно передавать множество бинарных и текстовых данных, даже с HTML разметкой.
Скорость доставки сообщений электронной почты сильно зависит от того, каким образом она передается. Путь электронного письма между двумя машинами, непосредственно подключенными к Интернет, занимает секунды, и при этом вероятность потери или подмены письма минимальна. С другой стороны, если для передачи электронных писем используются технологии FTN (последовательной передачи файлов многими компьютерами по цепочке), и письмо посылается в какую-нибудь экзотическую сеть, то письмо, во-первых, будет идти долго - дни и даже недели, во-вторых, будет иметь большие шансы просто потеряться при обрыве связи во время передачи по цепочке, в-третьих, его могут легко подменить где-то в пути следования.
В Internet наиболее часто используется несколько пpотоколов для пеpедачи почты:
SMTP (Simple Mail Transfer Protocol) - только отпpавление сообщений;
Широко используется
в сети Internet для обмена корреспонденцией
между почтовыми ящиками
POP3 (Post Office Protocol Version 3) - отпpавление/получение сообщений;
Особенность протокола
- получение почты происходит по
запросу клиента. Поставщик услуг
интернета предоставляет
IMAP4 (Internet Message Access Protocol) - это метод доступа к электронной почте или электронным доскам объявлений, хранящемся на почтовом сервере;
Другими словами, он дает клиентской почтовой программе возможность удаленного доступа к почте, как если бы она хранилась локально. Например, с почтой, размещенной на IMAP сервере, можно работать с домашнего персонального компьютера, с рабочей станции из офиса, с ноутбука во время путешествия, что не требует перекачивания информации между этими компьютерами.
IMAP4 представляет
собой надмножество POP3, обладающее
расширенными возможностями.
В настоящее время в нашей стране на разных компьютерах используются множество различных кодировок русских букв: самые популярные из них это:
Кодировка KOI8 (RFC1489) - используется в большинстве OS UNIX (charset=KOI8-R);
С легкой руки КИЯИ - RELCOM'a (родоначальника Internet в нашей стране) эта кодировка получила название "Русская сетевая кодировка" (Russian Network Code). Кодировка зарегистрирована в Internet Architecture Board (IAB) в июле 1993 г. (см. RFC1489 ).
Русские буквы в кодовой таблице KOI8-R
|
Преимущество
данной кодировки в том, что она
не имеет разрывов - недостатки в
том, что она лексиграфически
не упорядочена.
Кодировка MS DOS (CP866) - используется в OS MS DOS 6.22 для IBM PC (charset=x-CP866);
Ввиду гигантской экспансии фирмы Microsoft на Российский и Восточноевропейский рынок эта кодировка является в настоящее время самой популярной (распространенной в сети Internet) кодировкой русских букв в стране.
Русские буквы в кодовой таблице MS Windows
|
Преимущество данной кодировки в том, что она не имеет разрывов и лексиграфически упорядочена, однако до сих пор не "узаконена".
Кодировка ISO-8859-5 - используется в DEC (charset=ISO 8859-5);
Единственная "узаконенная" международной организацией стандартизации (ISO) кодировка русского языка. Используется на больших UNIX машинах (в основном фирм DEC и Sun Microsystems). (см. RFC1345, RFC1700).
Русские буквы в кодовой таблице ISO 8859-5
|
Стандарт ISO 8859-5 определяет однобайтную восьмибитную кодировку символов кириллицы и латинского алфавита ISO/IEC 8859-5:1988 (Information Processing - 8-bit single-byte coded graphic character sets - Part 5: Latin/Cyrillic alphabet).
Кодировка русского языка MS Windows СР1251 предложена фирмой Microsoft для своих продуктов.
Ввиду гигантской экспансии фирмы Microsoft на Российский и Восточноевропейский рынок эта кодировка является в настоящее время самой популярной (распространенной в сети Internet) кодировкой русских букв в стране.
Русские буквы в кодовой таблице MS Windows
|
Преимущество данной кодировки в том, что она не имеет разрывов и лексиграфически упорядочена, однако до сих пор не "узаконена".
Кроме них существуют еще кодировка MacOS, а также почти забытая альтернативная кодировка (CP855), и уже совсем забытые кодировки основная (или болгарская) и ГОСТ.
Из всех перечисленных кодировок только кодировка ISO8859-5 «узаконена» Международной Организацией по Стандартизации (ISO), но, к сожалению, она очень редко используется на современных компьютерах.
Сеть Internet развивалась
первоначально как сеть UNIX машин
и унаследовала все свойства представления
информации в OS UNIX. Для передачи информации
первоначально использовался
Наследие UNIX'а коснулось и системы передачи электронной почты. Неписанным телекоммуникационным стандартом передачи русских букв изначально стал стандарт OS UNIX кодировка KOI8. Практически все почтовые оболочки (изначально разработанные для MS DOS) перекодировали DOS'овскую кодировку CP855 в KOI8 и после этого передавали сообщение.
Такое единообразие нарушилось с появлением в нашей стране других сетей, входящих в систему Internet, таких как HEPNet (Radio-MSU) (этой сети принадлежит «Сеть Internet Новосибирского научного центра»), FreeNet, RUNNet (сеть университетов России) и др., и новых операционных систем, таких как MS Windows NT, MacOS, OS/2 и др. и системы передачи всей кодовой таблицы. Начиная с 1995 года, старая система передачи русских сообщений стала постоянно давать сбои и корреспонденты то и дело вместо русского текста стали получать абракадабру, которую правда можно было расшифровать, или хуже всего сплошные квадратики (или точки), которые уже не поддавались расшифровке. Тем самым единый способ перекодировки русских букв оказался неприемлемым для использования в передаче почтовых сообщений.
Адрес электронной почты, так же как и обычный почтовый адрес должен содержать всю необходимую информацию для того, чтобы письмо дошло до адресата из любой части земного шара. Точно так же, как и почтовый, электронный адрес состоит из двух частей:
раздел «Куда» - содержит указание на хост-компьютер;
раздел «Кому» - содержит учетное имя абонента.
В разных системах используются различные способы представления адреса. Например, в системе INTERNET и совместимых с ней разделы «Кому» и «Куда» разделены знаком «@», причем слева указывается «Кому». Например:
где user - учетное имя абонента, а adonis.iasnet.ru - имя хост-компьютера
(adonis) и указание, как его найти.
Раздел «Куда» имеет иерархическую структуру. Уровни иерархии называются доменами (domain - владение, сфера деятельности) и разделены точками. Количество доменов в адресе, вообще говоря, не ограничено. Самый правый домен представляет собой домен верхнего уровня. В данном случае, ru - код России. Для всех стран существуют двухбуквенные коды. Например:
au - Австралия,
br - Бразилия,
by - Беларусь,
ca - Канада,
cn - Китай,
de - Германия,
jp - Япония,
ua - Украина,
uk - Великобритания,
us - США.
Домен верхнего уровня не обязательно является кодом страны. Ниже приведены примеры нескольких доменов верхнего уровня, используемых в США:
COM - коммерческие организации и бизнес;
EDU - образовательные учреждения;
NET - структурные организации системы;
ORG - неприбыльные организации;
INT - международный домен.
Домен второго
уровня дает уточнение для поиска
хост компьютера. Это может быть
код города или региона, в США - штата.
В приведенном выше примере домен второго
уровня указывает на компьютерную сеть
Института Автоматизированных систем
(iasnet).
1.1 Технология функционирования электронной почты
1.1.1. Получение и отправка сообщений
Системы электронной почты работают с сообщениями. В отличие от обычных писем, сообщение нельзя рассматривать как отдельный физический объект, например, файл. Каждый почтовый сервер может хранить сообщения в особом формате, но все вместе они рассматриваются как база данных. Все операции с сообщениями – это, по сути, операции с базой данных. Получение почты и отправка сообщений – это операции синхронизации баз данных, одна из которых располагается на нашем компьютере, а другая – на почтовом сервере. Таким образом, сообщение – это запись в базе данных.
Все эти подробности не имели бы особого значения, если бы не характерный вопрос, который возникает у каждого, кто пользуется электронной почтой: где находятся мои сообщения? Поиск файлов, содержащих сообщения, результата не приносит. Тем не менее, почтовая программа без труда находит все сообщения.
Секрет прост: сообщения лежат в базе данных почтовой программы. Как именно и где хранится эта база данных, не так уж важно. Все, что представлено в почтовой программе, как сообщения и папки, носит виртуальный характер. Папкам и сообщениям не соответствуют папки и файлы на жестком диске. Даже файловые вложения, имеющиеся в сообщениях, не существуют в виде файлов, пока они не сохранены пользователем отдельно.
Сообщения распределены по папкам. Классический набор почтовых папок – Входящие, Исходящие, Отправленные, Удаленные и Черновики. В некоторых системах, в частности в службах Web-mail, набор стандартных папок может меняться. Кроме того, почтовые программы разрешают создавать дополнительные папки по своему вкусу.
В папку Входящие обычно попадает вся поступающая корреспонденция. Эту папку используют для чтения почты. Нормальное состояние папки Исходящие – пустое, в нее на время попадают готовые, но еще не отправленные сообщения. Почту удобно обрабатывать в пакетном режиме, выполняя отправку и получение сообщений периодически. До очередной операции сообщения, готовые к отправке, накапливаются в папке Исходящие включение к Интернету нужно только в момент отправки и получения сообщений.
При небольшом объеме переписки сообщения лучше отправлять сразу по готовности. В системах Web-mail отправка сообщений происходит автоматически, поэтому в них папка Исходящие иногда вообще отсутствует.
После передачи
исходящие сообщения
Наконец, папка
Черновики предназначена для
незаконченных сообщений. Иногда написать
сообщение «за один прием» не удается.
В этом случае его можно сохранить,
и оно попадет в папку
Самая простая операция - это получение сообщений. Соединение с сервером и загрузка поступивших сообщений выполняется автоматически (при установках по умолчанию) и в классической почте E-mail, и почте Web-mail. При работе в Web-mail служба сама организует получение сообщений и при обращении к ней представит их в папке Входящие. Почтовые клиенты E-mail проверяют наличие на сервере новых сообщений при запуске программы и потом через заданные промежутки времени. Для проверки необходимо подключиться к Интернету. Новые сообщения попадают в папку Входящие.
Если настройки
программы не предусматривают
Чтобы прочесть сообщения, откройте папку Входящие на панели папок. На экране появится список всех сообщений в выбранной папке. Новые, непрочитанные сообщения выделены полужирным шрифтом.
Если выбрать
сообщение в списке, то его содержание
откроется в области
При открытии сообщения в отдельном окне или при продолжительном отображении в области предварительного просмотра сообщение считается прочитанным. При последующих обращениях к программе полужирного выделения не будет.
В системах Web-mail предварительный просмотр обычно не предусмотрен. Сообщения в папке Входящие представлены в виде гиперссылок. При щелчке на ссылке текст сообщения откроется на новой веб-странице.
Основные характеристики сообщения – это имя (адрес) отправителя и тема сообщения. Тема сообщения – это краткое описание его содержания. Именно тема, среди прочего, отображается в списке сообщений, позволяя быстро оценить важность полученного сообщения. Указание темы во всех отправляемых сообщениях – это обязательное требование этикета электронной почты. Отсутствие темы – знак неуважения к корреспонденту. Обычно сообщения с «пустой» темой получатель уничтожает не читая.
Качество описания темы – залог эффективной переписки. Если тема внятно описывает содержание сообщения, партнер будет весьма благодарен. И наоборот, невнятная, неоднозначная или всеохватная тема усложняет переписку и создает неудобства. При длительном Осуждении одного вопроса тема сообщений остается неизменной. Это возможно благодаря средствам автоматизации подготовки ответов.
Отправка сообщений.
Написать ответ на полученное письмо проще, чем подготовить новое сообщение. Когда сообщение выбрано в списке или открыто в отдельном окне, на панели инструментов активируются кнопки Ответить, Ответить всем и Переслать. Такой набор кнопок считается стандартным и предусмотрен во всех почтовых системах и программах.