Остання редакція: 2025-06-14
Анотація
У цих тезах розглянуто сучасні методи збору та аналізу інформації з веб-джерел. Проведено аналіз основних підходів до веб-скрапінгу, роботи з API та агрегування даних з різноманітних Інтернет-ресурсів. Розглянуто переваги і недоліки використання різних технологій, зокрема Python-бібліотек (BeautifulSoup, Scrapy), сервісів новинних API та інструментів для попередньої обробки та класифікації даних. Окреслено основні виклики, такі як обмеження доступу до даних, часті зміни структури веб-ресурсів, необхідність обробки великого обсягу інформації та виявлення фейкових новин. Вказано на перспективи розвитку систем автоматизованого збору та аналізу новин для підвищення достовірності та релевантності отриманої інформації.
METHODS OF COLLECTING AND ANALYZING INFORMATION FROM WEB SOURCES
Abstract. These theses consider modern methods of collecting and analyzing information from web sources. The analysis of the main approaches to web scraping, working with APIs, and aggregating data from various Internet resources is carried out. The advantages and disadvantages of using different technologies are discussed, including Python libraries (BeautifulSoup, Scrapy), news API services, and tools for preprocessing and classification of data. The main challenges are outlined, such as data access limitations, frequent changes in web resource structures, the need to process large volumes of information, and the detection of fake news. The prospects for the development of automated news collection and analysis systems to improve the reliability and relevance of the obtained information are indicated.
Ключові слова
Посилання
Mitchell R. Web Scraping with Python: Collecting More Data from the Modern Web. — 2nd ed. — O’Reilly Media, 2018. – 290 p.
Janert P.K. Data Analysis with Open Source Tools. — O’Reilly Media, 2010. – 530 p.
NewsAPI Documentation. Режим доступу: https://newsapi.org/docs.
Russell M. Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Instagram, GitHub, and More. — 3rd ed. — O’Reilly Media, 2019. – 423 p.
Bird S., Klein E., Loper E. Natural Language Processing with Python. — O’Reilly Media, 2009 – 504 p.