КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2025)

Розмір шрифта: 
МЕТОДИ ЗБОРУ ТА АНАЛІЗУ ІНФОРМАЦІЇ З ВЕБ-ДЖЕРЕЛ
Владислав Олександрович Бондар, Людмила Броніславівна Ліщинська

Остання редакція: 2025-06-14

Анотація


У цих тезах розглянуто сучасні методи збору та аналізу інформації з веб-джерел. Проведено аналіз основних підходів до веб-скрапінгу, роботи з API та агрегування даних з різноманітних Інтернет-ресурсів. Розглянуто переваги і недоліки використання різних технологій, зокрема Python-бібліотек (BeautifulSoup, Scrapy), сервісів новинних API та інструментів для попередньої обробки та класифікації даних. Окреслено основні виклики, такі як обмеження доступу до даних, часті зміни структури веб-ресурсів, необхідність обробки великого обсягу інформації та виявлення фейкових новин. Вказано на перспективи розвитку систем автоматизованого збору та аналізу новин для підвищення достовірності та релевантності отриманої інформації.



METHODS OF COLLECTING AND ANALYZING INFORMATION FROM WEB SOURCES


Abstract. These theses consider modern methods of collecting and analyzing information from web sources. The analysis of the main approaches to web scraping, working with APIs, and aggregating data from various Internet resources is carried out. The advantages and disadvantages of using different technologies are discussed, including Python libraries (BeautifulSoup, Scrapy), news API services, and tools for preprocessing and classification of data. The main challenges are outlined, such as data access limitations, frequent changes in web resource structures, the need to process large volumes of information, and the detection of fake news. The prospects for the development of automated news collection and analysis systems to improve the reliability and relevance of the obtained information are indicated.



Ключові слова


збір даних; аналіз інформації; веб-скрапінг; API; новинні агрегатори; машинне навчання; обробка текстів; фільтрація новин

Посилання


Mitchell R. Web Scraping with Python: Collecting More Data from the Modern Web. — 2nd ed. — O’Reilly Media, 2018. – 290 p.


Janert P.K. Data Analysis with Open Source Tools. — O’Reilly Media, 2010. – 530 p.

 

NewsAPI Documentation. Режим доступу: https://newsapi.org/docs.


Russell M. Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Instagram, GitHub, and More. — 3rd ed. — O’Reilly Media, 2019. – 423 p.

 

Bird S., Klein E., Loper E. Natural Language Processing with Python. — O’Reilly Media, 2009 – 504 p.

Повний текст: PDF