InChI(国際化学識別子)について
InChI(International Chemical Identifier)は、化学物質の情報を標準的かつ人間が理解しやすい形で提供するシステムです。化学
データベースからの情報検索を容易にするために設計されています。2000年から2005年にかけてIUPAC(
国際純正・応用化学連合)およびNIST(米国国立標準技術研究所)により開発され、その後、非営利の組織であるInChI Trustによって継続的なサポートが行われています。現在のバージョンは1.04で、2011年9月にリリースされました。
概要
InChIは、化学物質を識別するための情報の層を格納する識別子です。この層には、原子の結合状態や、異性体情報、
同位体データ、
立体化学、電荷の状態などが含まれます。ただし、すべての情報が常に提供されるわけではなく、例えば異性体に関する情報は省略されることがあります。
InChIは、広く使用されている
CAS登録番号とは幾つかの点で異なります。例えば、InChIは非営利で自由に使用でき、構造情報から自動生成できます。したがって、化学物質の識別がより効率的になります。また、InChIは
IUPAC命名法の一般化された形式と考えられ、シンプルな
SMILES記法よりも多くの情報を含むことができます。特に、
データベースでの使用に適した独自のInChI文字列を持つ点が特徴です。
アルゴリズムと形式
InChIの生成は、与えられた構造情報を正規化、標準化、整列化の3段階で行い、固有の識別子を作ります。生成されたInChIは、`InChI=`で始まり、続いてバージョン情報が続きます。さらに、標準InChIの場合は「S」が付加されます。各情報はレイヤーとサブレイヤーとして構築され、それぞれ特定の情報を表現します。これにより、特定のレイヤーを簡単に検索できる利点があります。
例えば、メインレイヤーには組成式や原子のつながり、
水素原子の数、電荷の状態、
立体化学の情報などが含まれます。これらの情報は、特定の接頭語で示され、異なる種類の情報をはっきりと区別できます。
InChIKeyの存在
InChIKeyは、InChIのデジタル表現であり、25文字の固定長の文字列です。人間にとっては識別が難しいため、主にデジタル
データベースで利用されます。InChIKeyは検索の利便性を高めるために2007年に導入されましたが、一意性が保証されていないため、まれに重複が発生することがあります。
発展と採用
InChIは、
ChemSpiderや
PubChemなどの多くの
データベースで採用されていますが、各
データベース間で構造情報とInChIが一致しないケースもあり、これはリンク用
データベースにおける課題となっています。現在、InChI Trustはこの技術のさらなる発展と試行を支援し、新たな標準の拡張に向けた調査を行っています。これにより、重合体や
混合物、反応の取り扱いなど、ますます複雑化する化学の世界にも対応できるよう進化しています。
結論
InChIは、化学物質の識別と情報共有における強力なツールです。
分子構造の表現力を高め、さまざまな
データベースとの互換性を提供することで、化学的な研究や産業において重要な役割を果たしています。今後の発展にも期待が寄せられています。