КОНФЕРЕНЦІЇ ВНТУ електронні наукові видання, 
Молодь в науці: дослідження, проблеми, перспективи (МН-2026)

Розмір шрифта: 
Особливості формування спеціалізованого набору даних для прогнозування хімічних властивостей фторвмісних сполук
Олександр Федорович Шевчук, Петро Петрович Павлюк

Остання редакція: 2025-11-17

Анотація


У роботі представлено особливості та результати формування спеціалізованого набору даних для прогнозування фізико-хімічних властивостей насичених фторвмісних сполук. Пропонований датасет містить експериментальні значення pKa та LogP для 183 сполук і охоплює кілька структурних класів, що мають значення для медичної хімії. Проведено попередню обробку даних, включно з видаленням викидів, стратифікованим поділом та контролем структурної подібності молекул. Первинний аналіз виявив нелінійні залежності між кількістю та положенням атомів фтору і властивостями сполук, що обґрунтовує доцільність застосування методів машинного навчання для подальшого моделювання.

Ключові слова


набір даних; pKa; LogP; попередня обробка даних; машинне навчання; прогнозування властивостей

Посилання


1. Benaiges, D., Pedro-Botet, J., & Climent, E. (2021). Hydrophilic or lipophilic statins? Frontiers in Cardiovascular Medicinehttps://doi.org/10.3389/fcvm.2021.687585


2. Baltruschat, M., & Czodrowski, P. (2020). Machine learning meets pKa. F1000Researchhttps://doi.org/10.12688/f1000research.22090.2


3. Caine, B. (2019). On the development and application of AIBL-pKa, a pKa predictor based on equilibrium bond lengths of a single protonation state.


4. Yang, Q., Li, Y., Liu, Y., Zhang, L., Luo, S., & Cheng, J. (2020). Holistic prediction of the pKa in diverse solvents based on a machine-learning approach.Angewandte Chemie International Edition, 43. https://doi.org/10.1002/anie.202008528


5. Xiong, J., Li, Z., Wang, G., Fu, Z., Zhong, F., Xu, T., Liu, X., Huang, Z., Liu, X., Chen, K., Jiang, H., & Zheng, M. (2022). Multi-instance learning of graph neural networks for aqueous pKa prediction. Bioinformatics, 38(3). https://doi.org/10.1093/bioinformatics/btab714


6. Li, M., Zhou, J., Hu, J., Fan, W., Zhang, Y., Gu, Y., & Karypis, G. (2017). DGL-LifeSci: An open-source toolkit for deep learning on graphs in life science.ACS Omega, 6(41). https://doi.org/10.1021/acsomega.1c04017


7. Landrum, G. (2023, September). RDKit: Open-source cheminformatics [Online]. Retrieved from https://www.rdkit.org


8. Raddi, R. M., & Voelz, V. A. (2022). Stacking Gaussian processes to improve pKa predictions in the SAMPL7 challenge. Journal of Computer-Aided Molecular Design, 35. https://doi.org/10.1007/s10822-021-00411-8


9. Gurbych, O., Pavliuk, P., Krasnienkov, D., Liashuk, O., Melnykov, K., Grygorenko, O. (2025). Filling the gap in LogP and pKa evaluation for saturated fluorine-containing derivatives with machine learning. Journal of Computational Chemistry, 46(2). https://doi.org/10.1002/jcc.70002

Повний текст: PDF