Компьютерный анализ текста (стр. 5 из 5)

2) Системы распознавания символов OCR:

А) Finereader - система оптического распознавания символов разработанная российской компанией ABBYY.

Возможности. Поддерживает распознавание текста на 186 языках и имеет встроенную проверку орфографии для 38 из них. По некоторым данным, после некоторого обучения системы она может начать распознавать рукописный текст, но его нужно будет учить под почерк пользователя.

Б) CuneiForm - свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

Первоначально система CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.

Особенности. CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. CuneiForm - Шрифтонезависимая система.

В) Tesseract - свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно (в августе 2006 г) Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая, русский с версии 3.0) осуществляется с помощью дополнительных модулей.

Г) OCRopus - OCR-система на базе не так давно открытого распознающего ядра — tesseract Программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0. По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования код из другого проекта поддерживаемого Google OpenFST. OCRopus в настоящее время доступна только для GNU/Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Использование. В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).

Заключение

Подводя итоги можно сказать, что компьютерный анализ текста является значимым приемом изучения специфики текстового воплощения концептуальной картины мира, позволяющим постичь особенности стиля.

В ходе работы были получены следующие результаты:

1. Выявлено, что тема компьютерного анализа текста не весьма изучена, так как нет конкретного определения.

2. Из главы 2, подглавы 2.2 "Проблемы компьютерного анализа текста" видно, что проблем в разработке компьютерного анализа весьма много. Они, конечно, решаются, но не все и в замедленном темпе.

3. Из главы 3 "Программы для компьютерного анализа текста" также видно, каково разнообразие компьютерных программ, которые считывают информацию и позволяют осуществить анализ текста на компьютере.

Полученные данные являются относительно новыми в сфере исследования анализа текстов на компьютерном языке, т.к. представляют собой попытку структурировать имеющиеся знания в данной сфере и синтезировать их с новыми. Преимущества компьютерного анализа перед аналогичным исследованием тестов в ручную, на мой взгляд, очевидны. Он позволяет сэкономить время на структурировании результатов, оформлении их в таблицах, графиках, определениях.

Таким образом, тема "Компьютерный анализ текста" весьма интересна при изучении, и не до конца рассмотрена авторами многих работ. Нет определенного понятия компьютерному анализу текста, нет единого документа, где был бы собран, структурирован материал по заданной теме. Трудности были в том, чтобы отобрать необходимые данные, выделить в них главные особенности, а также сделать отобранный материал доступным, понятным для пользователя.

компьютерный текст орфография перевод

Библиографический список и сайтография

1. Анализ документов [Электронный ресурс]. – Режим доступа: http://inforaz.narod.ru/analiz–2.html (дата обращения: 12.09.2010).

2. Анализ текста [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0 (дата обращения: 16.09.2010).

3. Анисимов Анатолий. Компьютерная лингвистика для всех: мифы. Алгоритмы. Язык [Электронный ресурс] / Анатолий Анисимов. – Режим доступа: http://lib.ru/CULTURE/ANISIMOW/lingw.txt (дата обращения: 20.09.2010).

4. Валгина, Н. С. Теория текста [Текст] : учеб. пособие / Н. С. Валгина. – М. : Логос, 2003. – 280 с.

5. Веб–аналитика [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0 (дата обращения: 12.09.2010).

6. Воронько Владимир, Костинский Александр. Компьютерный анализ текстов [Электронный ресурс] / В. Воронько, А. Костинский. – Режим доступа: http://archive.svoboda.org/programs/sc/2001/sc.062601.asp (дата обращения: 19.09.2010).

7. Ермаков, А. Е. Компьютерная лингвистика и анализ текста [Текст] / А. Е. Ермаков // Мир ПК. – 2002. – N9. – С.86-88.

8. Ермаков, А. Е. Компьютерная лингвистика и анализ текста [Электронный ресурс] / А. Е. Ермаков. – Режим доступа: http://www.osp.ru/pcworld/2002/09/163968/ (дата обращения: 11.09.2010).

9. Ермаков, А. Е., Плешко, В. В. Компьютерный анализ текста при сборе информации к досье из открытых источников [Электронный ресурс] / А. Е. Ермаков, В. В. Плешко. – Режим доступа: http://www.rco.ru/article.asp?ob_no=1562 (дата обращения: 29.09.2010).

10. Каневский, Е. А., Саганенко, Г. И. Концептуальное обоснование компьютерного анализа массивов с текстами [Электронный ресурс] / Е. А. Каневский, Г. И. Саганенко. – Режим доступа: http://www.isras.ru/files/File/4M/9/Saganenko,%20Kanaevskij.pdf (дата обращения: 20.09.2010).

11. Компьютерная лингвистика [Электронный ресурс]. – Режим доступа: http://elanina.narod.ru/lanina/index.files/intell/lingvistik.htm (дата обращения: 16.09.2010).

12. Компьютерная лингвистика [Электронный ресурс]. – Режим доступа:http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/KOMPYUTERNAYA_LINGVISTIKA.html (дата обращения: 06.10.2010).

13. Компьютерный анализ генетических текстов [Электронный ресурс]. – Режим доступа: http://gen–inj.narod.ru/44.htm (дата обращения: 14.09.2010).

14. Николина, Наталия Анатольевна. Филологический анализ текста [Текст] : учеб. пособие для студентов вузов, обучающихся по специальности "Рус. яз. и лит." / Н. А. Николина. – 2–е изд., испр. и доп. – Москва : Академия, 2007. – 272 с.

15. Орлова, О. В. Компьютерный анализ поэтического текста и моделирование ассоциативно–смыслового поля ключевого концепта творчества автора [Электронный ресурс] / О. В. Орлова. – Режим доступа: http://huminf.tsu.ru/e–jurnal/magazine/1/orlova.htm (дата обращения: 11.09.2010).

16. Петров, А. Н. Компьютерный анализ текста [Электронный ресурс] : историография метода / А. Н. Петров. – Режим доступа: http://kleio.asu.ru/aik/krug/3/20.shtml (дата обращения: 19.09.2010).

17. Пятницкая, Анастасия Сергеевна. Программа для поиска фактов в тексте RCO Fact Extractor 1.0 [Электронный ресурс] / А. С. Пятницкая. – Режим доступа: http://www.ko.ru/ru/samizdats/?id=4073 (дата обращения: 29.09.2010).

18. Романова, Т. В. О содержании понятия концептуальный анализ текста [Текст] / Т. В. Романова // Вестник Оренбургского государственного университета. – 2004. – N 1. – С. 20-24.