Какие технологии используют для сбора данных
Технологии сбора и хранения информации
Сбор предполагает получение максимально выверенной исходной информации и является одним из самых ответственных этапов в работе с информацией, поскольку от цели сбора и методов последующей обработки полностью зависит конечный результат работы всей информационной системы. Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. На заключительном этапе сбора, когда информация преобразуется в данные, т. е. в информацию, представленную в формализованном виде, пригодном для компьютерной обработки, осуществляется ее ввод в систему
Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления. Следует отметить, что хранимые данные должны быть в достаточном объеме доступны для извлечения из места хранения, отображения, передачи или обработки по запросу пользователя. А сбор данных должен обеспечивать необходимую полноту и минимальную избыточность хранимой информации, что может быть достигнуто за счет выбора данных, оценки их необходимости, а также анализа существующих данных и разделения их на входные, промежуточные и выходные.
Входные данные — это данные, получаемые из первичной информации, создающие исходное описание предметной области и подлежащие хранению. Промежуточные данные формируются из других данных в процессе преобразований и обработки, и, как правило, не подлежат длительному хранению. Выходные данные есть результат обработки входных данных по соответствующему алгоритму; они служат основанием для принятия управленческих решений и подлежат хранению в течение определенного срока. Для сбора данных необходимо сначала определить технические средства, позволяющие осуществлять сбор быстро и высококачественно и поддерживающие операции ввода информации и представления данных в электронной форме. В качестве средств сбора в информационных системах обычно выступают агрегаты, представляющие собой совокупность устройств и программного обеспечения к ним, которые служат для преобразования информации, представленной в неэлектронной форме, в электронную для ее последующего использования в системе.
С развитием компьютерной техники стали появляться разнообразные технические средства, позволяющие осуществлять ручной или автоматизированный сбор информации непосредственно из ее источника либо через промежуточные звенья. Следует отметить, что в каждом отдельном случае технические средства выбираются в зависимости от типа собираемой информации и ее назначения (рис. 2.1). Так, для различных этапов сбора текстовой и графической информации, а также для выбора из предлагаемых системой вариантов обычно применяются такие средства, как клавиатура, различные манипуляторы («мышь», шаровой джойстик, световое перо и т. д.), сканер, планшет, сенсорный экран, монитор. Для сбора звуковой информации чаще всего используются диктофон и микрофон, в некоторых случаях применяются звуковые датчики и аппаратура распознавания речи, а также средства записи эфира радиостанций. Сбор видеоинформации осуществляется с помощью видеокамер и фотоаппаратов; кроме того, существуют средства, позволяющие записывать видеосигналы телевизионного вещания

Рис. 2.1. Технические средства сбора информации
В промышленных системах в зависимости от сферы применения часто используются также технические средства для сканирования штрих-кода, захвата изображений, автоматические датчики объема, давления, температуры, влажности, системы распознавания сигналов и кодов и т. д. В целом применение подобных промышленных средств сбора информации называют технологией автоматической идентификации, т. е. идентификацией и/или прямым сбором данных в микропроцессорное устройство (компьютер или программируемый контроллер) без использования клавиатуры. Такая технология применяется для исключения ошибок, связанных со сбором данных, и ускорения процесса сбора; она позволяет не только идентифицировать объекты, но и следить за ними, кодировать большое количество информации.
Автоматическая идентификация объединяет пять групп технологий, обеспечивающих решение проблемы сбора разнообразных данных:
1. Технологии штрихового кодирования (Bar Code Technologies).
2. Технологии радиочастотной идентификации (RF1D — Radio Frequency Identification Technologies).
3. Карточные технологии (CardTechnologies).
4. Технологии сбора данных (Data Communications Technologies).
5. Новые технологии, такие, как распознавание голоса, оптическое и магнитное распознавание текста, биометрические технологии и некоторые другие. При первоначальной разработке технологии сбора данных после выбора технических средств необходимо продумать план сбора данных, который обычно включает несколько этапов, особенно характерных для исследовательских проектов: определение проблемной ситуации и формулирование цели сбора данных;
· детальное изучение предметной области с помощью опроса экспертов, изучения литературы и групповых дискуссий и уточнение задач сбора данных;
· разработка концепции сбора данных на основании выработки гипотез, их практической проверки, выявления причинно-следственных связей;
· детальное планирование сбора данных, определение источников информации (вторичные данные, уже собранные кем-то до проекта, или первичные, новые данные);
· отбор источников информации и сбор вторичных данных;
· оценка полученных вторичных данных (актуальность, точность, полнота, пригодность для дальнейшей обработки);
· планирование сбора первичных данных, выбор способа сбора;
· проведение сбора и ввода первичной информации;
· анализ полученных данных;
· представление результатов сбора данных, передача их на хранение и в обработку В зависимости от целей, сферы деятельности и располагаемых технических средств можно выделить целый спектр методов сбора данных: 1) в экономических информационных системах (например, маркетинга): * опрос и интервью — групповой, индивидуальный или телефонный опрос, опрос в форме анкетирования, формализованные и неформализованные интервью; * регистрация (наблюдение) — систематическое, планомерное изучение поведения того или иного объекта или субъекта; * эксперимент — исследование влияния одного фактора на другой при одновременном контроле посторонних факторов; * панель — повторяющийся сбор данных у одной группы опрашиваемых через равные промежутки времени; * экспертная оценка — оценка исследуемых процессов квалифицированными специалистами-экспертами; 2) в геоинформационных системах: * сбор информации из нормативной и методической документации; * сбор пространственных (координатных и атрибутивных) данных; * мониторинг потоков данных, поступающих с научно-исследовательских воздушных и морских судов, береговых станций и буев в оперативном и задержанном режиме; * сбор данных, поступающих по каналам удаленного доступа к данным; 3) в статистических информационных системах: * сбор данных с первичных документов; * заполнение собственных форм и шаблонов при сборе данных; * сбор данных из подотчетных организаций с помощью заполнения ими предписанных форм отчетности; 4) в информационных системах управления производственными процессами широко применяются методы сбора данных, основанные на технологии автоматической идентификации.
Собранная информация, переведенная в электронную форму, представляет собой одну из основных ценностей любой современной организации, поэтому обеспечение надежного хранения и оперативного доступа к информации для дальнейшей ее обработки являются приоритетными задачами. Процедура хранения информации заключается в формировании и поддержке структуры хранения данных в памяти ЭВМ. Несмотря на высокий уровень развития современных информационных технологий, на данный момент не существует универсальной методики построения системы хранения данных, которая была бы приемлемой для большинства организаций. В каждом отдельном случае такая задача решается индивидуально, однако представляется возможным сформулировать основные требования, предъявляемые к современным структурам хранения:
· независимость от программ, использующих хранимые данные;
· обеспечение полноты и минимальной избыточности данных;
· возможность актуализации данных (т. е. пополнения или изменения значений данных, записанных в базе);
· возможность извлечения данных, а также сортировки и поиска по заданным критериям.
База данных (БД) — специально организованная совокупность взаимосвязанных данных, отражающих состояние выделенной предметной области в реальной действительности и предназначенной для совместного использования при решении задач многими пользователями.
БД представляет собой комплекс информационных, технических, программных, лингвистических и организационных средств, обеспечивающих сбор, хранение, поиск и обработку данных. Банк данных — универсальная база данных, обслуживающая любые запросы прикладных программ вместе с соответствующим программным обеспечением. Для обеспечения доступа к базе данных, составления обобщенных и детализированных отчетов, выполнения анализа данных с помощью запросов используются системы управления базами данных (СУБД).
Среди наиболее ярких можно отметить: LotusApproach, MicrosoftAccess, BorlanddBase, BorlandParadox, MicrosoftVisualFoxPro, а также базы данных Microsoft SQL Server и Oracle, используемые в приложениях, построенных по технологии «клиент—сервер». Кроме баз и банков данных, современную структуру хранения информации предоставляют хранилища данных, которые включают следующие функциональные блоки: * инструменты настройки информационной модели, отражающей все виды информации, необходимой для решения задач предприятия; * репозиторий метаданных, т. е. описание структуры хранилища данных, доступное как внутренним программам хранилища, так и внешним системам, обеспечивающее гибкость хранилища; * технология сбора данных из внешних источников, а также из удаленных подразделений с помощью двух методов: — применение средств ETL (Extract, Transformation, Loadin — извлечение, трансформация, загрузка), присущих специальным системам, для извлечения данных из других баз данных, трансформации в соответствии с правилами, описанными в системе, и загрузки в хранилище данных; — применение стандартного формата сбора данных и разработка процедур их выгрузки на стороне источника, что обеспечивает однородность данных, извлеченных из разных систем, и децентрализацию разработки за счет передачи ее специалистам, знающим исходную систему; * механизмы расчета агрегатов и показателей, базирующихся на детальных данных хранилища, с помощью технологий иерархической настройки структуры данных или показателей, а также встроенного языка программирования; * пользовательские интерфейсы, позволяющие коллективу сотрудников разделять функции и выполнять различные задачи, включая администрирование, дизайн приложений, технологическую поддержку хранилища, анализ данных по запросам и т. д.; * механизмы выполнения произвольных запросов, включая средства генерации запросов и необходимых индексов;

Рис. 2.2. Операции для быстрого восстановления данных в системах хранения
* инструменты настройки и выпуска отчетов как конечных продуктов хранилища данных, в том числе отчетов регламентированной формы, аналитических и настраиваемых пользователем. Следует отметить, что немаловажным требованием к любой системе хранения данных является обеспечение резервного копирования, архивирования, структурированного хранения и восстановления данных в требуемые сроки (рис. 2.2). Эти операции можно организовать с помощью пофайлового анализа подлежащих хранению данных, учитывающего даты создания, модификации и последнего обращения к файлам, их расширение, расположение в каталогах файловой системы и т. д. Рассмотрим эти операции более подробно.
Резервное копирование — это создание копий файлов для быстрого восстановления работоспособности системы при возникновении аварийной ситуации. Копии файлов хранятся на резервных носителях в течение определенного времени, а затем перезаписываются. Различают полное, инкрементальное и дифференциальное резервное копирование. Полное резервное копирование предполагает создание копий всех данных, подлежащих резервному копированию, что позволяет в случае аварийной ситуации быстро восстановить информацию; однако такое копирование занимает довольно продолжительное время.
Дифференциальное резервное копирование предполагает дублирование только тех файлов, которые были созданы или изменены с момента проведения предыдущего сеанса полного копирования. При возникновении аварийной ситуации для восстановления данных потребуются последняя полная и дифференциальная копии.
Инкрементальное резервное копирование предполагает создание копий только тех файлов, которые были созданы или изменены с момента последнего полного, дифференциального или инкрементального копирования. Такое копирование осуществляется довольно быстро, однако при возникновении аварийной ситуации для восстановления данных потребуется последняя полная и все последующие инкрементальные копии, а процедура восстановления будет очень длительной. Учитывая достоинства и недостатки существующих методов резервного копирования, на практике параллельно применяют полное копирование (например, 1 раз в неделю) и инкрементальное (например, 1 раз в день).
Архивное копирование есть процесс копирования файлов для бессрочного или долговременного хранения на архивных носителях. Архивное копирование также может быть полным, инкрементальным и дифференциальным, однако оно осуществляется реже резервного копирования. Для удешевления процесса хранения редко используемых данных применяют систему структурированного хранения, т. е. организации иерархической структуры устройств хранения информации, когда на верхнем уровне находятся жесткие диски, а на нижних уровнях — съемные накопители, которые объединяются в единый логический диск для хранения редко используемой информации. Перемещение файлов по уровням организуется таким образом, чтобы объем свободного пространства на дисках серверов сохранялся в заданных пределах.
Технологии сбора, хранения, обработки, передачи и представления информации
В общем виде технологию сбора, хранения, обработки передачи и представления информации можно представить следующим образом (рис. 2.1).
Сборпредполагает получение максимально выверенной исходной информации и является одним из самых ответственных этапов в работе с информацией, поскольку от цели сбора и методов последующей обработки полностью зависит конечный результат работы всей информационной системы.
Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. На заключительном этапе сбора, когда информация преобразуется в данные, т. е. в информацию, представленную в формализованном виде, пригодном для компьютерной обработки, осуществляется ее ввод в систему.
Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления. Сбор данных должен обеспечивать необходимую полноту и минимальную избыточность хранимой информации, что может быть достигнуто за счет выбора данных, оценки их необходимости, а также анализа существующих данных и разделения их на входные, промежуточные и выходные.
Для сбора данных необходимо сначала определить технические средства, позволяющие осуществлять сбор быстро и высококачественно и поддерживающие операции ввода информации и представления данных в электронной форме. В качестве средств сбора в информационных системах обычно выступают агрегаты, представляющие собой совокупность устройств и программного обеспечения к ним, которые служат для преобразования информации, представленной в неэлектронной форме, в электронную для ее последующего использования в системе.
Так, для различных этапов сбора текстовой и графической информации, а также для выбора из предлагаемых системой вариантов обычно применяются такие средства, как клавиатура, различные манипуляторы («мышь», шаровой джойстик, световое перо и т. д.), сканер, планшет, сенсорный экран, монитор.
Для сбора звуковой информации чаще всего используются диктофон и микрофон, в некоторых случаях применяются звуковые датчики и аппаратура распознавания речи, а также средства записи эфира радиостанций.
Сбор видеоинформации осуществляется с помощью видеокамер и фотоаппаратов; кроме того, существуют средства, позволяющие записывать сигналы телевизионного вещания.
В промышленных системах в зависимости от сферы применения часто используются также технические средства для сканирования штрих-кода, захвата изображений, автоматические датчики объема, давления, температуры, влажности, системы распознавания сигналов и кодов и т. д.
В целом применение подобных промышленных средств сбора информации называют технологией автоматической идентификации, т. е. идентификацией и/или прямым сбором данных в микропроцессорное устройство (компьютер или программируемый контроллер) без использования клавиатуры.
Автоматическая идентификация объединяет пять групп технологий, обеспечивающих решение проблемы сбора разнообразных данных:
1. Технологии штрихового кодирования (Bar Code Technologies).
2. Технологии радиочастотной идентификации (RF1D — Radio Frequency Identification Technologies).
3. Карточные технологии (Card Technologies).
4. Технологии сбора данных (Data Communications Technologies).
5. Новые технологии, такие, как распознавание голоса, оптическое и магнитное распознавание текста, биометрические технологии и некоторые другие.
При первоначальной разработке технологии сбора данных после выбора технических средств необходимо продумать план сбора данных, который обычно включает несколько этапов, особенно характерных для исследовательских проектов:
• определение проблемной ситуации и формулирование цели сбора данных;
• детальное изучение предметной области с помощью опроса экспертов, изучения литературы и групповых дискуссий и уточнение задач сбора данных;
• разработка концепции сбора данных на основании выработки гипотез, их практической проверки, выявления причинно-следственных связей;
• детальное планирование сбора данных, определение источников информации (вторичные данные, уже собранные кем-то до проекта, или первичные, новые данные);
• отбор источников информации и сбор вторичных данных;
• оценка полученных вторичных данных (актуальность, точность, полнота, пригодность для дальнейшей обработки);
• планирование сбора первичных данных, выбор способа сбора;
• проведение сбора и ввода первичной информации;
• анализ полученных данных;
• представление результатов сбора данных, передача их на хранение и в обработку.
В зависимости от целей, сферы деятельности и располагаемых технических средств можно выделить целый спектр методов сбора данных:
1) в экономических информационных системах (например, маркетинга):
• опрос и интервью — групповой, индивидуальный или телефонный опрос, опрос в форме анкетирования, формализованные и неформализованные интервью;
• регистрация (наблюдение) — систематическое, планомерное изучение поведения того или иного объекта или субъекта;
• эксперимент — исследование влияния одного фактора на другой при одновременном контроле посторонних факторов;
• итерационная регистрация — повторяющийся сбор данных у одной группы опрашиваемых через равные промежутки времени;
• экспертная оценка — оценка исследуемых процессов квалифицированными специалистами-экспертами;
2) в геоинформационных системах:
• сбор информации из нормативной и методической документации;
• сбор пространственных (координатных и атрибутивных) данных;
• мониторинг потоков данных, поступающих с научно-исследовательских воздушных и морских судов, береговых станций и буев в оперативном и задержанном режиме;
• сбор данных, поступающих по каналам удаленного доступа к данным;
3) в статистических информационных системах:
• сбор данных с первичных документов;
• заполнение собственных форм и шаблонов при сборе данных;
• сбор данных из подотчетных организаций с помощью заполнения ими предписанных форм отчетности;
4) в информационных системах управления производственными процессами широко применяются методы сбора данных, основанные на технологии автоматической идентификации.
Собранная информация, переведенная в электронную форму, подлежит правильному хранению и требует обеспечения к ней доступа.
Процедура хранения информации заключается в формировании и поддержке структуры хранения данных в памяти ЭВМ.
Универсальной методики построения системы хранения данных на сегодняшний день не существует. Можно сформулировать только основные требования, предъявляемые к структурам хранения:
• независимость от программ, использующих хранимые данные;
• обеспечение полноты и минимальной избыточности данных;
• возможность актуализации данных (т. е. пополнения или изменения значений данных, записанных в базе);
• возможность извлечения данных, а также сортировки и поиска по заданным критериям.
Наиболее часто в роли структур хранения данных выступают базы или банки данных [19, 23, 24].
База данных (БД) — специально организованная совокупность взаимосвязанных данных, отражающих состояние выделенной предметной области в реальной действительности и предназначенной для совместного использования при решении задач многими пользователями.
БД представляет собой комплекс информационных, технических, программных, лингвистических и организационных средств, обеспечивающих сбор, хранение, поиск и обработку данных.
Банк данных — универсальная база данных, обслуживающая любые запросы прикладных программ вместе с соответствующим программным обеспечением.
Для обеспечения доступа к базе данных, составления обобщенных и детализированных отчетов, выполнения анализа данных с помощью запросов используются системы управления базами данных (СУБД). Среди наиболее ярких можно отметить: Lotus Approach, Microsoft Access, Borland dBase, Borland Paradox, Microsoft Visual FoxPro, а также базы данных Microsoft SQL Server и Oracle, используемые в приложениях, построенных по технологии «клиент—сервер».
Кроме баз и банков данных, современную структуру хранения информации предоставляют хранилища данных.
Хранилище данных– это
Хранилище данных включает в себя следующие функциональные блоки:
• инструменты настройки информационной модели, отражающей все виды информации, необходимой для решения задач предприятия;
• репозиторий метаданных, т. е. описание структуры хранилища данных, доступное как внутренним программам хранилища, так и внешним системам, обеспечивающее гибкость хранилища;
• технология сбора данных из внешних источников, а также из удаленных подразделений с помощью двух методов:
— применение средств ETL (Extract, Transformation, Loa-din — извлечение, трансформация, загрузка), присущих специальным системам, для извлечения данных из других баз данных, трансформации в соответствии с правилами, описанными в системе, и загрузки в хранилище данных;
— применение стандартного формата сбора данных и разработка процедур их выгрузки на стороне источника, что обеспечивает однородность данных, извлеченных из разных систем, и децентрализацию разработки за счет передачи ее специалистам, знающим исходную систему;
• механизмы расчета агрегатов и показателей, базирующихся на детальных данных хранилища, с помощью технологий иерархической настройки структуры данных или показателей, а также встроенного языка программирования;
• пользовательские интерфейсы, позволяющие коллективу сотрудников разделять функции и выполнять различные задачи, включая администрирование, дизайн приложений, технологическую поддержку хранилища, анализ данных по запросам и т. д.;
• механизмы выполнения произвольных запросов, включая средства генерации запросов и необходимых индексов;
• инструменты настройки и выпуска отчетов как конечных продуктов хранилища данных, в том числе отчетов регламентированной формы, аналитических и настраиваемых пользователем.
Следует отметить, что немаловажным требованием к любой системе хранения данных является обеспечение резервного копирования, архивирования, структурированного хранения и восстановления данных в требуемые сроки.
Резервное копирование — это создание копий файлов для быстрого восстановления работоспособности системы при возникновении аварийной ситуации. Копии файлов хранятся на резервных носителях в течение определенного времени, а затем перезаписываются.
Различают полное, инкрементальное и дифференциальное резервное копирование.
Полное резервное копирование предполагает создание копий всех данных, подлежащих резервному копированию, что позволяет в случае аварийной ситуации быстро восстановить информацию; однако такое копирование занимает довольно продолжительное время.
Дифференциальное резервное копирование предполагает дублирование только тех файлов, которые были созданы или изменены с момента проведения предыдущего сеанса полного копирования. При возникновении аварийной ситуации для восстановления данных потребуются последняя полная и дифференциальная копии.
Инкрементальное резервное копирование предполагает создание копий только тех файлов, которые были созданы или изменены с момента последнего полного, дифференциального или инкрементального копирования. Такое копирование осуществляется довольно быстро, однако при возникновении аварийной ситуации для восстановления данных потребуется последняя полная и все последующие инкрементальные копии, а процедура восстановления будет очень длительной.
Учитывая достоинства и недостатки существующих методов резервного копирования, на практике параллельно применяют полное копирование (например, 1 раз в неделю) и инкрементальное (например, 1 раз в день).
Архивное копирование есть процесс копирования файлов для бессрочного или долговременного хранения на архивных носителях. Архивное копирование также может быть полным, инкрементальным и дифференциальным, однако оно осуществляется реже резервного копирования.
Технологический процесс обработки информации базируется на нескольких типах технологий обработки данных, которые используются специалистами в самых различных областях деятельности. Среди них выделяют следующие:
1. Предметная технология — это последовательность технологических этапов преобразования первичной информации определенной предметной области в результатную, не зависящая от использования средств вычислительной техники и информационной технологии.
2. Базовая информационная технология — это совокупность аппаратных и программных средств, предназначенных для организации процесса преобразования данных (информации, знаний), их связи и передачи.
Базовая информационная технология делится на:
— обеспечивающие информационные технологии — технологии обработки информации, которые могут использоваться как инструментарий в различных предметных областях для решения различных задач;
— функциональные информационные технологии — такая модификация обеспечивающих информационных технологий, при которой реализуется какая-либо из предметных технологий. Функциональная информационная технология образует готовый программный продукт или его часть, предназначенный для автоматизации задач в определенной предметной области и заданной технической среде.
Преобразование обеспечивающей информационной технологии в функциональную может быть выполнено не только специалистом-разработчиком систем, но и самим пользователем. Это зависит от квалификации пользователя и от сложности необходимой модификации. Корректная реализация предметной технологии зависит от рациональной организации технологического процесса обработки информации.
Технологический процесс обработки информации — есть строго определенная последовательность взаимосвязанных процедур, выполняемых для преобразования первичной информации с момента ее возникновения до получения требуемого результата.
Технологический процесс призван автоматизировать обработку исходной информации за счет привлечения технических средств базовой информационной технологии, сократить финансовые и трудовые затраты, обеспечить высокую степень достоверности результатной информации. Для конкретной задачи той или иной предметной области технологический процесс обработки информации разрабатывается индивидуально.
Совокупность процедур зависит от следующих факторов:
• характер и сложность решаемой задачи;
• алгоритм преобразования информации;
• используемые технические средства;
• сроки обработки данных;
• используемые системы контроля;
• число пользователей и т. д.
В любой предметной области в технологическом процессе обработки информации можно выделить три основных этапа.
Первый этап начинается со сбора первичных документов из различных источников и подготовки их к автоматизированной обработке.
На этом этапе производятся анализ представленных для обработки документов, систематизация имеющейся информации, составление и уточнение контрольных сведений, которые в дальнейшем будут использованы для проверки корректности введенных данных.
Второй этап является основным и включает ввод, обработку информации по заданному алгоритму, а также вывод результатных документов.
На этом этапе осуществляется ручной или автоматизированный ввод информации с первичных документов, контроль корректности и полноты результатов ввода. Информация с первичных документов переносится в информационную базу либо в электронную форму документа и таким образом преобразуется в данные. Далее следует обработка данных на основании алгоритма решения поставленной задачи, их преобразование в выходные данные, формирование и печать результатных документов.
На заключительном третьем этапе технологического процесса обработки информации производится контроль качества и полноты результатных документов, их тиражирование и передача заинтересованным лицам по различным каналам связи в электронном виде или на бумажных носителях.
Способы обработки информации:
Централизованный способ предполагает сосредоточение данных в информационно-вычислительном центре, выполняющем все основные действия технологического процесса обработки информации. Основное достоинство централизованного способа — сравнительная дешевизна обработки больших объемов информации за счет повышения загрузки вычислительных средств.
Децентрализованный способ характеризуется рассредоточением информационно-вычислительных ресурсов и распределением технологического процесса обработки информации по местам возникновения и потребления информации. Достоинством децентрализованного способа является повышение оперативности обработки информации и решения поставленных задач за счет автоматизации деятельности на конкретных рабочих местах, применения надежных средств передачи информации, организации сбора первичных документов и ввода исходных данных в местах их возникновения.
Зачастую на практике применяют смешанный способ обработки информации, для которого характерны признаки двух способов одновременно (централизованный с частичной децентрализацией или децентрализованный с частичной централизацией). В этом случае за основу принимают один из способов, используя при этом преимущества другого, за счет этого достигается высокая эффективность работы информационно-вычислительных средств, экономия материальных и трудовых ресурсов.
Вычислительные средства участвуют в процессе обработки информации в двух основных режимах: пакетном или диалоговом.
В случае, когда технология обработки информации на компьютере представляет собой заранее определенную последовательность операций, не требующую вмешательства человека, и диалог с пользователем отсутствует, информация обрабатывается в так называемом пакетном режиме. Суть его состоит в том, что программы обработки данных последовательно выполняются под управлением операционной системы как совокупность (пакет) заданий. Операционная система обеспечивает ввод данных, вызов требуемых программ, включение необходимых внешних устройств, координацию и управление технологическим процессом обработки информации.
Сегодня более распространен диалоговый режим, когда необходимо непосредственное взаимодействие пользователя с компьютером и на каждое свое действие пользователь получает немедленные ответные действия компьютера. Диалоговый режим позволяет пользователю интерактивно управлять порядком обработки информации и получать результатные данные в виде необходимых документов либо файлов.
Передача информации в любом виде осуществляется через канал передачи, который определяется таким параметром как емкость канала.
Воспроизведение информации — это процесс, при котором ранее записанная на носителе информация считывается устройством воспроизведения.
Отображение информации — есть представление информации, т. е. генерация сигналов на основе исходных данных, а также правил и алгоритмов их преобразования в форме, приемлемой для непосредственного восприятия человеком.
Какие методы используются для сбора данных о твоем браузере? Как собирают информацию о пользователях?
Фингерпринт пользователя — это уникальный набор данных о пользователе, который включает в себя информацию о его поведении в интернете, какие сайты он посещает, какие товары покупает, какие сообщения отправляет и т.д. Этот набор данных может быть использован для создания профиля пользователя и предоставления ему персонализированных рекомендаций или услуг.
Отслеживание поведения пользователя на сайте или в приложении может осуществляться с помощью различных методов, включая анализ действий пользователя на странице, запись видео или аудиофайлов, использование аналитических инструментов и т.д. Для отслеживания поведения пользователя на сайте могут использоваться инструменты веб-аналитики, такие как Google Analytics. Они позволяют собирать данные о количестве просмотров страниц, времени пребывания на сайте, количестве кликов на объекты и т.д.
Сразу следует сказать о том что:
- Куки ≠ фингерпринт, на сбор данных для отпечатка браузера, согласие не нужно.
- Инкогнито не спасает от снятия отпечатка, потому что параметры браузера не меняются, и вас все равно идентифицируют.
- Использование iPhone, где есть поддержка WebGL, уже не анонимизирует.
Какие данные входят в фингерпринт пользователя?
- Стиль печатания (скорость нажатия на клавиши, интервалы между нажатиями, кол-во опечаток в словах, можно заценить здесь или посмотреть гугловский патент на эту технологию;
- Версия операционной системы (User-Agent);
- Языки браузера, раскладка (русский, украинский, английский и любой другой);
- Разрешение экрана и глубина цвета;
- Настройки браузера ( наличие Do Not Track; установленные плагины ,их характеристики, технологии HTML5);
- Системные шрифты и какие наиболее используемые, их прорисовка;
- Геолокация;
- Уровень зарядки батареи;
- Тип браузера и версия;
- Данные о покупках товаров и услуг;
- Процессор;
- Видеокарта
- Информация об использовании приложений и сервисов;
- Операционная память;
- Данные о взаимодействии с другими пользователями;
- Данные о его поведении в социальных сетях;
- Информация о его интересах и предпочтениях.
- Идентификатор устройства (IMEI);
- MAC-адрес устройства;
Собранные данные анализируются и суммируются, после чего производится вычисление хеш-суммы, которая и является отпечатком браузера.
Выглядит он примерно так: 7AAB425AC4A7F54D4B2CF59B36581399EFF — это вид 32-битного числа в шестнадцатеричной системе счисления.
Сбор данных со стороны клиента — Если включено исполнение JavaScript, то данные о характеристиках компьютера и плагинах. И куки, причем даже не дав согласие на обработку кук, можно вытрясти: версию ОС, журнал посещений, суперкуки, часовой пояс, системные шрифты, панели инструментов, разрешение экрана и пр.
Сбор данных со стороны сервера — это те же куки, которые сохраняются на вашем устройстве и отправляются на сервер при следующем посещении. Canvas Fingerprinting представленный в виде хэша и через него можно собрать информацию о: Графический адаптере и его драйвере, процессоре (без графического чипа), установленных шрифтах и логах. И заголовки запроса.
Как используют фингерпринт?
- Для безопасной аутентификации
- Сбор информации о пользователях во внутренних аналитических целях, для UX ислледований
- Рекламушка
- Выявление незарегестрированных пользователей
- Продажа баз данных другим лицам и организациям, ведь помимо инфы о браузере и устройстве, её скрепляют с вашими персональными данными.
Ранее, если вы были счастливым обладателем iPhone, то сбор ваших данных был задачкой не из легких, потому что у продуктов Apple, у каждой модели одинаковые аппаратные характеристики, и итоговый байтовый массив Canvas был одинаковый для всей линейки, то есть, вы смогли бы затеряться среди n-го кол-ва пользователей, но теперь пришла суровая деанонимизация и FingerprintJS2, он принес фазихэширование, суть которого, что при измененном проценте входящих данных, сумма байтового массива не изменяется, например, если у вас изменился User-Agent, а это происходит при каждом обновлении браузера, фингерпринт остается тем же.
И еще одна новинка — с WebGL Fingerprint можно забыть о анонимности. Работает примерно так: в зависимости от выдаваемых графических мощностей и версий вашего железа, рисуется 3д модель, затем вешаются всякие эффекты , типа блюра и теней, далее такая модель преобразуется в байтовый массив, который суммируется с параметрами WebGL.
Как защитить свои данные от фингерпринта пользователя?
Сначала можно попрактиковаться и собрать информацию о себе. Ниже представлены примеры сервисов, на которых можно посмотреть какую информацию о вас могут собрать:
- Browserleaks на мой взгляд самый лучший
- Device Info
- Antoine Vastel
- Am I Unique?
- Panopticlick
- Whoer
Есть несколько способов которые могут скрыть вас от сбора отпечатка, рассмотрим их детальнее:
- Использование антидетект-браузеровMultilogin, AdsPower, Linken Sphere. Из достоинств, подменяет данные, но часто платные.
- Использование VPN и прокси-серверов помогает обойти региональные запреты, меняет ваш IP, но не защищает от трекеров и не шифрует трафик.
- Выделенные серверы (dedicated server) хороши тем, что можно настроить под себя SSH/VPN и HTTP/SOCKS-прокси, работать с данными, они спасают при атаке Java, JavaScript если вы юзайте удаленный браузер, но это дорого и требует технических знаний в этой области.
- Изменение параметров вручную, язык браузера, User-Agent, создать новый профиль пользователя , отключить геолокацию, конфигурацию браузера, используемые шрифты и тд.
Комплексное руководство по сбору данных: методы, преимущества и тенденции

Предприятия ежедневно имеют дело с большим объемом документов, таких как счета-фактуры и заказы на поставку. Сбор данных позволяет предприятиям извлекать ценную информацию из этих неструктурированных документов для принятия обоснованных решений.
Технологии сбора данных используют передовые методы, такие как оптическое распознавание символов (OCR) и интеллектуальная обработка документов (IDP) автоматизировать извлечение актуальной информации из неструктурированных документов.
В этом блоге мы исследуем сбор данных и то, как он менялся с течением времени.
Что такое сбор данных?
Сбор данных означает извлечение и преобразование данных из различных источников, таких как физические или цифровые документы, в формат, который компьютерные системы могут легко обрабатывать, анализировать и использовать. Он включает в себя сбор соответствующей информации, такой как текст, числа, изображения или коды, и преобразование ее в структурированный машиночитаемый формат.
Этот процесс регулярно используется во многих отраслях промышленности. Например, розничные торговцы ежедневно получают сотни счетов-фактур. Они могут использовать такие технологии, как OCR, для извлечения ключевой информации из этих счетов, такой как номер счета, дата, сумма и адрес.
Как работает сбор данных?
Традиционно специалисты по вводу данных перелистывали листы бумаги и вручную вводили информацию в таблицу.
Сегодня современные инструменты позволяют аналитикам автоматизировать весь процесс. Они также позволяют пользователям планировать рабочие процессы таким образом, чтобы данные автоматически извлекались и отправлялись в соответствующий пункт назначения после прибытия документа. Вот как работает процесс сбора данных:
- Прием документов: Процесс начинается, когда организация получает документ, например счет-фактуру или заказ на поставку. Этот документ может быть в различных форматах, включая бумажный, электронные файлы (PDF, Word)или отсканированные изображения.
- Анализ документов: Программное обеспечение для сбора данных анализирует документ, чтобы идентифицировать и найти ключевые поля, содержащие соответствующую информацию, которую необходимо извлечь. Этот анализ может включать технологию оптического распознавания символов для преобразования отсканированных или сфотографированных документов в машиночитаемый текст.
- Извлечение поля: После определения ключевых полей программное обеспечение автоматически извлекает соответствующие данные из этих полей либо с помощью заранее определенных шаблонов, соответствующих макету и структуре документов, либо с помощью интеллектуальных алгоритмов, которые могут понять контекст и значение данных.
- Проверка достоверности данных: Извлеченный данные проверены для обеспечения точности и полноты. У каждого бизнеса есть свои правила, на основании которых он может проверять правильность данных.
- Автоматизация рабочего процесса: Современные инструменты сбора данных часто имеют возможности автоматизации рабочих процессов, которые позволяют пользователям определять правила и настраивать рабочие процессы для оптимизации процесса. Например, как только документ приходит, извлечение данных Процесс может быть запущен автоматически, а извлеченные данные могут быть отправлены в соответствующее место назначения, например, в систему планирования ресурсов предприятия (ERP) или в базу данных.
- Интеграция и доставка данных: Решения для сбора данных интегрируются с другими системами и приложениями в технологической экосистеме организации. Извлеченные данные могут быть беспрепятственно доставлены в последующие системы, такие как инструменты визуализации или хранилища данных.
Различные методы сбора данных
Ручной сбор данных: Ручной ввод предполагает копирование информации в цифровую форму вручную на сотнях страниц документов. Этот метод подходит для небольших команд с ограниченным бюджетом. Это также экономически эффективный вариант, когда объем входящих данных невелик. Однако этот метод подвержен ошибкам и требует много времени, поэтому были разработаны средства автоматического ввода данных.
Автоматический сбор данных: Этот метод помогает предприятиям повысить эффективность, повысить удовлетворенность сотрудников и сократить расходы. Существует несколько способов работы этого метода:
- OCR и ICR: Оптическое распознавание символов преобразует оцифрованный текст в удобный для машины формат. Он обрабатывает отсканированные документы, такие как счета-фактуры и формы страхования. ICR, или интеллектуальное распознавание символов, выводит OCR на новый уровень. Программное обеспечение ICR может распознавать печатный и рукописный текст, написанный разными шрифтами, что делает его более мощным методом сбора данных.
- МВУ: IDP означает интеллектуальную обработку документов. Это быстро развивающаяся технология, которую использует все больше и больше команд в разных вертикалях и отраслях. IDP использует искусственный интеллект и автоматизацию для извлечения данных из множества документов разного размера и структуры. IDP часто использует другие технологии, такие как оптическое распознавание текста и машинное обучение, для надежного решение для извлечения данных.
Существуют и другие типы методов сбора данных, не ограничивающиеся только документами.
Захват изображений и видео: Эти методы используют ИИ для идентификации и извлечения точной информации о людях. Он ценен для анализа в реальном времени и имеет приложения для обеспечения безопасности на рабочем месте, сопоставления баз данных, сканирования безопасности и биометрической идентификации.
Веб-парсинг: Это предполагает использование веб-ботов или веб-сканеров для поиска и очистки Интернета. Веб-скрапинг собирает динамическую информацию, такую как обновления новостей, изменения политики, колебания цен, курсы валют, обновления погоды, данные фондового рынка и многое другое.
QR-коды и штрих-коды: Технология штрих-кодов содержит зашифрованную информацию в одномерных штрих-кодах, которые можно прочитать с помощью сканера штрих-кодов. Он используется для точного отслеживания инвентаря или журналов сотрудников в цехах, проверки данных о пациентах в больницах, печати банковских сберкнижек и многого другого.
Коды быстрого ответа (QR), также известные как 2D-штрих-коды, имеют форму фигур, например шестиугольников, и могут фиксировать различные типы информации, например документы и веб-страницы. QR-коды обычно используются в магазинах, курьерских службах и ресторанах и легко считываются смартфонами.
Бесплатная электронная книга: используйте неиспользованные неструктурированные данные для максимальной эффективности
Преимущества автоматического сбора данных
Автоматизированный сбор данных – это будущее извлечение данных документа. Это масштабируемый процесс, которым легко управлять. Это также сокращает время на понимание ситуации, позволяя предприятиям быстро принимать решения. Предприятия, использующие этот метод, могут получить несколько преимуществ:
Значительно снижена вероятность ошибок
Копирование информации вручную может привести к ошибкам, таким как отсутствие цифр и неправильные записи. Такие ошибки могут стоить очень дорого — на исправление каждой записи может уйти 10 долларов. В целом, плохие данные могут отбросить компанию назад, миллионы долларов.
Программное обеспечение для сбора данных обеспечивает высокую точность, которая остается высокой при обработке сотен документов. Они уменьшают потребность в человеческом надзоре. Кроме того, они обеспечивают автоматическую проверку данных для выявления отсутствующих/неправильных данных в режиме реального времени.
Оптимизированные бизнес-процессы
Поскольку команды эффективно собирают данные, это позволяет им быстрее обрабатывать документы. Это помогает предприятиям своевременно выполнять важные задачи, такие как платежи поставщикам и обработка претензий. Такой оптимизированный подход улучшает отношения с поставщиками и клиентами, что может обеспечить многочисленные финансовые выгоды.
Повышение морального духа сотрудников
Обливаясь документами, как бумажными, так и цифровыми, может быть утомительным. Автоматизированные инструменты позволяют командам сосредоточиться на более важных задачах, повышая их моральный дух и производительность. Следовательно, предприятия благодаря повышению удовлетворенности сотрудников и более высокой производительности.
Низкие затраты
Автоматизированный сбор данных не просто более практичен. Это стоит всего около одна треть его ручной альтернативы. Кроме того, стоимость игнорирования ошибок при вводе данных вручную может достигать 100 долларов США за запись. Экономия затрат на автоматизацию сбора данных огромна и со временем увеличивается.
Лучшая безопасность
Оцифровка помогает безопасно хранить документы в Интернете, позволяя пользователям быстро находить их. Это лучшая альтернатива хранению и управлению тысячами документов в вашем офисе. Автоматизированные методы сбора данных также могут снизить уровень мошенничества, например, путем обнаружения поддельных вывесок.
Будущие тенденции в сборе данных – от искусственного интеллекта к виртуальной реальности
Технологические достижения продолжают влиять на то, как мы извлекаем и обрабатываем информацию из бумажных и цифровых документов. Вот самые захватывающие будущие тенденции:
Интеллектуальные системы извлечения документов
Интеллектуальные системы используют достижения искусственного интеллекта и машинного обучения для точного распознавания и извлечения текста из документов. Традиционные технологии значительно улучшились, позволяя эффективно извлекать данные из различных источников, включая бумажные документы и цифровые сканирования. Будущие системы еще больше повысят точность за счет включения передовых алгоритмов, которые смогут обрабатывать сложные макеты документов, распознавать рукописный текст и обрабатывать многоязычный контент.
Обработка естественного языка (НЛП)
Методы НЛП позволяют системам понимать и обрабатывать неструктурированный текст, улучшая сбор данных из таких документов, как электронные письма, отчеты и публикации в социальных сетях. Алгоритмы НЛП анализируют языковые шаблоны, синтаксис и семантику, чтобы извлечь смысл и идентифицировать ключевые сущности и отношения в тексте. Будущие инструменты будут использовать НЛП для интерпретации контекстной информации, выявления настроений и извлечения информации из неструктурированных текстовых данных.
Блокчейн для сбора данных
Блокчейн может создать неизменяемую запись собранных данных путем создания децентрализованного и защищенного от несанкционированного доступа реестра транзакций документов. Интеграция блокчейна со сбором данных позволит предприятиям повысить безопасность и надежность, предотвращая несанкционированные изменения и поддерживая прозрачный контрольный журнал.
Интеграция Интернета вещей (IoT)
Сбор данных будет интегрироваться с устройствами и датчиками Интернета вещей по мере развития этой технологии. Документы, созданные Интернетом вещей, такие как показания датчиков, записи технического обслуживания и отчеты, можно собирать и обрабатывать для извлечения соответствующей информации. Системы сбора данных могут анализировать и интерпретировать эти данные для получения ценной информации, запуска автоматических действий и обеспечения профилактического обслуживания.
Дополненная реальность (AR) и виртуальная реальность (VR)
Технологии AR и VR потенциально могут изменить процесс сбора данных, предоставляя иммерсивные интерфейсы и возможности визуализации. AR может накладывать цифровую информацию на физические документы, обеспечивая интерактивный сбор и анализ. VR может создавать виртуальные среды, в которых пользователи могут перемещаться и взаимодействовать с цифровыми документами и данными. Эти технологии открывают возможности для улучшенной визуализации информации, интерактивного сбора данных с физических объектов и анализа виртуальных документов.
Автоматизируйте сбор данных с помощью нашего решения на базе искусственного интеллекта — посмотрите, как оно работает!
2023 год – идеальное время для внедрения автоматизации
Технология сбора данных продолжает развиваться благодаря таким инновациям, как искусственный интеллект и машинное обучение. Эти новые функции сделают сбор данных более надежным и эффективным. Таким образом, предприятиям, которые все еще используют методы ручного ввода данных, следует подумать о переходе на автоматизированные варианты, чтобы оставаться конкурентоспособными.
Astera ReportMiner является автоматизированным программное обеспечение для извлечения данных – это больше, чем просто автоматизация ввода данных. ReportMiner использует ИИ для классификации документов и автоматического извлечения ключевых полей. Это позволяет компаниям автоматизировать весь процесс управления документами, от извлечения до проверки.
Вам также может понравиться
Что такое звездная схема? Преимущества и недостатки
Что такое звездообразная схема? Звездная схема, представленная в 1996 году Ральфом Кимбаллом, представляет собой метод многомерного моделирования данных.
Что такое озеро данных? Определение и преимущества
Около 80–90 % производимых данных неструктурированы, то есть не организованы и не имеют.
Что такое сбор счетов-фактур и как его автоматизировать?
Сбор точных и полных данных из счетов-фактур больше не является просто обыденной административной задачей. Это стало стратегическим.
принимая во внимание Astera Для ваших потребностей в управлении данными?
Установите соединение без кода с вашими корпоративными приложениями, базами данных и облачными приложениями для интеграции всех ваших данных.