Парсинг веб-сайтов – это процесс извлечения данных, информации или изображений с веб-сайта с использованием автоматизированного метода. Думайте об этом как о полностью автоматическом копировании и вставке.
Мы либо пишем, либо используем приложение, чтобы заходить на нужные нам веб-сайты и копировать с этих веб-сайтов конкретные вещи, которые нам нужны. Это гораздо точнее, чем загрузка всего сайта.
Как и любой другой инструмент, парсинг веб-сайтов можно использовать как во благо, так и во зло. Одними из веских причин для парсинга веб-сайтов могут быть ранжирование их в поисковых системах на основе их содержания, сравнение цен или мониторинг информации о фондовом рынке. Вы можете даже использовать его как своего рода исследовательский инструмент.

Как очистить веб-сайты с помощью Excel?
Хотите верьте, хотите нет, но в Excel уже давно есть возможность извлекать данные с веб-сайтов, по крайней мере, начиная с Excel 2003. Просто большинство людей не думают о веб-скрапинге, не говоря уже об использовании программы для работы с электронными таблицами. сделать работу. Но это на удивление просто и эффективно. Давайте узнаем, как это сделать, создав коллекцию сочетаний клавиш Microsoft Office.
Найдите сайты, которые хотите парсить
Первое, что нам нужно сделать, — это найти конкретные веб-страницы, с которых мы хотим получить информацию. Давайте перейдем к источнику и найдем https://support.office.com/. Мы собираемся использовать поисковый запрос «часто используемые ярлыки». Мы можем сделать его более конкретным, используя имя конкретного приложения, например Outlook, Excel, Word и т. д. Возможно, было бы неплохо добавить страницу результатов в закладки, чтобы мы могли легко вернуться к ней.

Нажмите на результат поиска «Сочетания клавиш в Excel для Windows». На этой странице найдите список версий Excel и нажмите Новые версии . Сейчас мы работаем с новейшими и лучшими продуктами.
Мы могли бы вернуться на страницу результатов поиска, открыть результаты для всех других приложений Office на отдельных вкладках и добавить их в закладки. Это хорошая идея даже для этого упражнения. Именно здесь большинство людей, но не мы, перестанут собирать ярлыки Office. Мы собираемся поместить их в Excel, чтобы можно было делать с ними все, что захотим, когда захотим.
Откройте Excel и очистите
Откройте Excel и создайте новую книгу. Сохраните книгу как Ярлыки Office . Если у вас есть OneDrive, сохраните его там, чтобы использовать функцию Автосохранение ..будет работать.
После сохранения книги перейдите на вкладку Данные .

На ленте вкладки «Данные» нажмите Из Интернета .

Откроется окно мастера Из Интернета . Здесь мы указываем веб-адрес или URL-адрес веб-сайта, с которого мы хотим получить данные. Переключитесь в веб-браузер и скопируйте URL-адрес.

Вставьте URL-адрес в поле URL мастера Из Интернета. Мы могли бы использовать это в Базовом или Расширенном режиме. Расширенный режим дает нам гораздо больше возможностей для доступа к данным с веб-сайта. Для этого упражнения нам нужен только Basicmode. Нажмите ОК .

Excel теперь попытается подключиться к веб-сайту. Это может занять несколько секунд. Если это произойдет, мы увидим окно прогресса.

Откроется окно Навигатор , и слева мы увидим список таблиц с веб-сайта. Выбрав одну из них, мы увидим предварительный просмотр таблицы справа. Давайте выберем таблицу Часто используемые сочетания клавиш .

Мы можем нажать на вкладку WebView , чтобы увидеть реальный веб-сайт, если нам нужно поискать нужную таблицу. Найдя его, мы можем щелкнуть по нему, и он будет выбран для импорта.

Теперь мы нажимаем кнопку Загрузить в нижней части этого окна. Мы могли бы выбрать и другие варианты, которые более сложны и выходят за рамки нашей первой очистки. Просто имейте в виду, что они там. Возможности Excel по очистке веб-страниц очень мощные.

Через несколько секунд веб-таблица загрузится в Excel. Мы увидим данные слева, где цифра 1 находится на рисунке ниже. Номер 2 обозначает Запрос , используемый для получения данных с веб-сайта. Если в книге имеется несколько запросов, здесь мы выбираем тот, который нам нужен..

Обратите внимание, что данные поступают в электронную таблицу в виде таблицы Excel. Мы уже настроили возможность фильтровать и сортировать данные.
Мы можем повторить этот процесс для всех других веб-страниц, на которых есть нужные нам ярлыки Office для Outlook, Word, Access, PowerPoint и любого другого приложения Office.
Поддержание актуальности очищенных данных в Excel
В качестве бонуса для вас мы научимся поддерживать актуальность очищенных данных в Excel. Это отличный способ проиллюстрировать, насколько мощным инструментом является Excel для очистки данных. Даже несмотря на это, мы выполняем только самый простой анализ данных, который может сделать Excel.
В этом примере давайте воспользуемся веб-страницей с информацией об акциях, например https://www.cnbc.com/stocks/.

Проделайте то же самое, что и раньше: скопируйте и вставьте новый URL-адрес из адресной строки.

Вы попадете в окно «Навигатор» и увидите доступные таблицы. Давайте выберем основные фондовые индексы США.

После очистки данных мы увидим следующую таблицу.

Справа мы видим запрос «Основные фондовые индексы США». Выберите его, чтобы он был выделен. Убедитесь, что мы находимся на вкладке Работа с таблицами и в области Дизайн . Затем нажмите стрелку вниз в разделе Обновить . Затем нажмите Свойства соединения .

В окне QueryProperties на вкладке Использование мы можем управлять обновлением этой информации. Мы можем установить определенный период времени для обновления, или обновления при следующем открытии книги, или обновления в фоновом режиме, или любую их комбинацию. Как только мы выберем то, что нам нужно, нажмите ОК , чтобы закрыть окно и продолжить.

Вот и все! Теперь вы можете отслеживать цены на акции, спортивные результаты или любые другие данные, которые часто меняются, из электронной таблицы Excel. Если вы хорошо разбираетесь в Уравнения и функции Excel, вы можете делать с данными практически все, что захотите.
Может быть, попытайтесь определить тенденции акций, запустите на работе бассейн для фэнтези-спорта или просто следите за погодой. Кто знает? Ваше воображение и данные, доступные в Интернете, являются единственными ограничениями..
.