Baza chemiczna - Chemical database

Bazie chemicznego jest w bazie specjalnie zaprojektowany do przechowywania informacji chemicznej . Informacje te dotyczą struktur chemicznych i krystalicznych , widm, reakcji i syntez oraz danych termofizycznych.

Rodzaje baz danych chemicznych

Baza danych bioaktywności

Bazy danych bioaktywności korelują struktury lub inne informacje chemiczne z wynikami bioaktywności uzyskanymi z testów biologicznych w literaturze, patentów i programów badań przesiewowych.

Nazwa Deweloper(zy) Pierwsze wydanie
ScrubChem Jason Bret Harris 2016
Test biologiczny PubChem NIH  2004
CHEMBL EMBL-EBI 2009

Struktury chemiczne

Struktury chemiczne są tradycyjnie przedstawiane za pomocą linii oznaczających wiązania chemiczne między atomami i rysowanych na papierze ( wzory strukturalne 2D ). Chociaż są to idealne reprezentacje wizualne dla chemików , nie nadają się one do zastosowań obliczeniowych , a zwłaszcza do wyszukiwania i przechowywania . Małe cząsteczki (zwane także ligandami w zastosowaniach do projektowania leków) są zwykle reprezentowane za pomocą list atomów i ich połączeń. Duże cząsteczki, takie jak białka, są jednak bardziej zwarte reprezentowane przez sekwencje ich bloków budulcowych aminokwasów. Oczekuje się, że duże chemiczne bazy danych struktur będą obsługiwać przechowywanie i wyszukiwanie informacji o milionach cząsteczek zajmujących terabajty pamięci fizycznej.

Baza literatury

Bazy danych literatury chemicznej korelują struktury lub inne informacje chemiczne z odpowiednimi odniesieniami, takimi jak artykuły naukowe lub patenty. Ten typ bazy danych obejmuje STN , Scifinder i Reaxys . Odsyłacze do literatury znajdują się również w wielu bazach danych, które koncentrują się na charakterystyce chemicznej.

Baza danych krystalograficznych

Krystalograficzne bazy danych przechowują dane rentgenowskiej struktury kryształów. Typowe przykłady to Protein Data Bank i Cambridge Structural Database .

Baza danych widm NMR

Bazy danych widm NMR korelują strukturę chemiczną z danymi NMR. Te bazy danych często zawierają inne dane charakteryzujące, takie jak FTIR i spektrometria mas .

Baza reakcji

Większość chemicznych baz danych przechowuje informacje o stabilnych cząsteczkach, ale w bazach danych dotyczących reakcji przechowywane są również produkty pośrednie i tymczasowo utworzone niestabilne cząsteczki. Bazy danych reakcji zawierają informacje o produktach, eduktach i mechanizmach reakcji .

Baza danych termofizycznych

Dane termofizyczne są informacją o

Reprezentacja struktury chemicznej

Istnieją dwie podstawowe techniki reprezentowania struktur chemicznych w cyfrowych bazach danych

Metody te zostały udoskonalone tak, aby umożliwić odwzorowanie stereochemicznych różnic i koszty, jak i specjalnego rodzaju wiązania, takie jak te, które widać na metaloorganicznych związków. Główną zaletą reprezentacji komputerowej jest możliwość zwiększonego przechowywania i szybkiego, elastycznego wyszukiwania.

Szukaj

Podbudowa

Chemicy mogą przeszukiwać bazy danych na podstawie części struktur, części ich nazw IUPAC, a także na podstawie ograniczeń dotyczących właściwości. Bazy danych chemicznych szczególnie różnią się od innych baz danych ogólnego przeznaczenia pod względem obsługi wyszukiwania podstruktur. Ten rodzaj wyszukiwania jest osiągany przez szukanie izomorfizmu podwykresów (czasami nazywanego również monomorfizmem ) i jest szeroko badanym zastosowaniem teorii grafów . Algorytmy wyszukiwania są intensywne obliczeniowo, często o złożoności czasowej O ( n 3 ) lub O ( n 4 ) (gdzie n to liczba zaangażowanych atomów). Intensywny element wyszukiwania nazywa się wyszukiwaniem atom po atomie (ABAS), w którym poszukuje się mapowania poszukiwanych atomów podstruktury i wiązań z cząsteczką docelową. Wyszukiwanie ABAS zazwyczaj wykorzystuje algorytm Ullmana lub jego odmiany ( np. SMSD ). Przyspieszenia są osiągane przez amortyzację czasu , co oznacza, że ​​część czasu na zadaniach wyszukiwania jest oszczędzana przy użyciu wstępnie obliczonych informacji. To wstępne obliczenie zazwyczaj obejmuje tworzenie ciągów bitów reprezentujących obecność lub brak fragmentów molekularnych. Patrząc na fragmenty obecne w wyszukiwanej strukturze można wyeliminować potrzebę porównania ABAS z cząsteczkami docelowymi, które nie posiadają fragmentów obecnych w wyszukiwanej strukturze. Eliminacja ta nazywana jest badaniem przesiewowym (nie mylić z procedurami przesiewowymi stosowanymi w wykrywaniu leków). Ciągi bitów używane w tych aplikacjach są również nazywane kluczami strukturalnymi. Wydajność takich kluczy zależy od wyboru fragmentów użytych do konstrukcji kluczy i prawdopodobieństwa ich obecności w cząsteczkach bazy danych. Inny rodzaj klucza wykorzystuje kody skrótu oparte na fragmentach uzyskanych obliczeniowo. Są to tak zwane „odciski palców”, chociaż termin ten jest czasem używany jako synonim kluczy strukturalnych. Ilość pamięci potrzebnej do przechowywania tych kluczy strukturalnych i odcisków palców można zmniejszyć przez „zwijanie”, które jest osiągane przez łączenie części klucza za pomocą operacji bitowych, a tym samym zmniejszanie całkowitej długości.

Struktura

Wyszukiwanie poprzez dopasowanie konformacji 3D cząsteczek lub określenie ograniczeń przestrzennych to kolejna funkcja, która jest szczególnie przydatna w projektowaniu leków . Wyszukiwanie tego rodzaju może być bardzo kosztowne obliczeniowo. Zaproponowano wiele przybliżonych metod, na przykład BCUTS, reprezentacje funkcji specjalnych, momenty bezwładności, histogramy ray tracingu, histogramy maksymalnej odległości, multipole kształtu, żeby wymienić tylko kilka.

Wyszukiwanie Giga

Bazy danych syntetycznych i wirtualnych substancji chemicznych są z roku na rok coraz większe, dlatego możliwość ich efektywnego wydobywania ma kluczowe znaczenie dla projektów odkrywania leków. MolSoft's MolCart Giga Search ( http://www.molsoft.com/giga-search.html ) to pierwsza w historii metoda przeznaczona do wyszukiwania podstruktury miliardów substancji chemicznych.

Deskryptory

Wszystkie właściwości cząsteczek poza ich strukturą można podzielić na cechy fizykochemiczne lub farmakologiczne zwane również deskryptorami. Ponadto istnieją różne sztuczne i mniej lub bardziej ustandaryzowane systemy nazewnictwa cząsteczek, które dostarczają mniej lub bardziej niejednoznacznych nazw i synonimów . Nazwa IUPAC jest zwykle dobrym wyborem do reprezentowania struktury cząsteczki w czytelnym dla człowieka i niepowtarzalnym ciągu, chociaż staje się nieporęczna w przypadku większych cząsteczek. Z drugiej strony nazwy trywialne obfitują w homonimy i synonimy i dlatego są złym wyborem jako klucz definiujący bazę danych . Podczas gdy deskryptory fizykochemiczne, takie jak masa cząsteczkowa , ( częściowy ) ładunek, rozpuszczalność itp., można w większości obliczyć bezpośrednio w oparciu o strukturę cząsteczki, deskryptory farmakologiczne można uzyskać tylko pośrednio przy użyciu zaangażowanych wielowymiarowych statystyk lub wyników eksperymentalnych ( przesiewowych , biologicznych ). Wszystkie te deskryptory mogą, ze względu na wysiłek obliczeniowy, być przechowywane wraz z reprezentacją cząsteczki i zwykle są.

Podobieństwo

Nie ma jednej definicji podobieństwa molekularnego, jednak pojęcie to może być określone w zależności od zastosowania i jest często określana jako odwrotność z miara odległości w przestrzeni deskryptorów. Dwie cząsteczki można uznać za bardziej podobne, na przykład, jeśli ich różnica w masach cząsteczkowych jest mniejsza niż w porównaniu z innymi. Wiele innych miar można połączyć w celu uzyskania wielowymiarowej miary odległości. Miary odległości są często klasyfikowane jako miary euklidesowe i miary nieeuklidesowe w zależności od tego, czy zachodzi nierówność trójkąta . Wyszukiwanie podstruktury oparte na maksymalnym wspólnym podgrafie ( MCS ) (podobieństwo lub miara odległości) jest również bardzo powszechne. MCS jest również używany do badania przesiewowego związków podobnych do leków poprzez uderzanie w cząsteczki, które mają wspólny podgraf (podstrukturę).

Substancji chemicznych zawartych w bazach danych mogą być skupione w grupy „podobnych” cząsteczki w oparciu o podobieństwa. Zarówno hierarchiczne, jak i niehierarchiczne podejścia do grupowania można zastosować do jednostek chemicznych o wielu atrybutach. Te atrybuty lub właściwości molekularne można określić empirycznie lub deskryptorami wyprowadzonymi obliczeniowo . Jednym z najpopularniejszych podejść do grupowania jest algorytm Jarvisa-Patricka .

W zorientowanych farmakologicznie składnicach substancji chemicznych podobieństwo jest zwykle definiowane w kategoriach działania biologicznego związków ( ADME /tox), które z kolei można półautomatycznie wywnioskować z podobnych kombinacji deskryptorów fizykochemicznych przy użyciu metod QSAR .

Systemy rejestracji

Systemy baz danych do prowadzenia unikalnych ewidencji związków chemicznych nazywane są systemami rejestracji. Są one często wykorzystywane do indeksowania chemicznego, systemów patentowych i przemysłowych baz danych.

Systemy rejestracji zazwyczaj wymuszają unikalność substancji chemicznej reprezentowanej w bazie danych poprzez zastosowanie unikalnych reprezentacji. Stosując zasady pierwszeństwa przy generowaniu notacji zwartych, można uzyskać unikatowe/' kanoniczne ' reprezentacje ciągów, takie jak 'kanoniczny SMILES '. Niektóre systemy rejestracji, takie jak system CAS, wykorzystują algorytmy do generowania unikalnych kodów skrótu, aby osiągnąć ten sam cel.

Kluczową różnicą między systemem rejestracji a prostą bazą danych chemicznych jest możliwość dokładnego odwzorowania tego, co znane, nieznane i częściowo znane. Na przykład chemiczna baza danych może przechowywać cząsteczkę o nieokreślonej stereochemii , podczas gdy system rejestru chemicznego wymaga od rejestratora określenia, czy konfiguracja stereo jest nieznana, konkretna (znana) mieszanina, czy też racemiczna . Każdy z nich byłby uważany za inny zapis w systemie rejestru chemicznego.

Systemy rejestracji przetwarzają również wstępnie cząsteczki, aby uniknąć uwzględniania trywialnych różnic, takich jak różnice w jonach halogenowych w chemikaliach.

Przykładem jest system rejestracji Chemical Abstracts Service (CAS). Zobacz także numer rejestru CAS .

Lista wkładów chemicznych

  • Porozumienie
  • Bezpośredni
  • J Chem
  • CambridgeSoft
  • Bingo
  • Sprecyzować

Lista systemów rejestracji substancji chemicznych

  • ChemReg
  • Zarejestrować
  • RegMol
  • Rejestracja związku
  • Ensemble

Internetowy

Nazwa Deweloper(zy) Pierwsze wydanie
Skarbiec CDD Wspólne odkrywanie leków  2018

Narzędzia

Reprezentacje obliczeniowe są zwykle przejrzyste dla chemików dzięki graficznemu wyświetlaniu danych. Wprowadzanie danych jest również uproszczone dzięki zastosowaniu edytorów struktury chemicznej. Te edytory wewnętrznie konwertują dane graficzne na reprezentacje obliczeniowe.

Istnieje również wiele algorytmów do wzajemnej konwersji różnych formatów reprezentacji. Narzędziem typu open source do konwersji jest OpenBabel . Te algorytmy wyszukiwania i konwersji są implementowane albo w samym systemie baz danych, albo, jak to jest obecnie, jest implementowane jako komponenty zewnętrzne, które pasują do standardowych relacyjnych systemów baz danych. Zarówno systemy oparte na Oracle, jak i PostgreSQL wykorzystują technologię kartridżową, która pozwala na definiowanie typów danych przez użytkownika. Pozwalają one użytkownikowi na tworzenie zapytań SQL z chemicznymi warunkami wyszukiwania (Na przykład zapytanie do wyszukiwania rekordów zawierających w swojej strukturze pierścień fenylowy reprezentowane jako ciąg SMILES w kolumnie SMILESCOL może być

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algorytmy konwersji nazw IUPAC na reprezentacje struktury i odwrotnie są również używane do wyodrębniania informacji strukturalnych z tekstu . Istnieją jednak trudności związane z istnieniem wielu dialektów IUPAC. Trwają prace nad ustanowieniem unikalnego standardu IUPAC (patrz InChI ).

Zobacz też

Bibliografia