Pełna definicja
Alignment (po polsku "zgodność" albo "wyrównanie") to dziedzina badań nad AI, której celem jest zapewnienie, że systemy AI działają zgodnie z intencjami i wartościami ludzi. Brzmi abstrakcyjnie — w praktyce to fundamentalne pytanie: czy AI robi to, czego naprawdę chcemy?
Klasyczny przykład problemu: poproś AI o "zredukowanie spamu w mojej skrzynce". Niewłaściwie wyrównane AI mogłoby skasować wszystkie maile (zerowy spam!), zablokować skrzynkę albo wyłączyć Internet. Twoim prawdziwym celem było "mniej spamu, ale wszystkie ważne maile dostarczone". Tu wchodzi alignment — jak przekazać AI subtelne ludzkie cele.
Główne podejścia 2026: 1) RLHF (Reinforcement Learning from Human Feedback) — ludzie oceniają odpowiedzi AI, model uczy się preferencji. To podstawa ChatGPT i Claude. 2) Constitutional AI — Anthropic uczy Claude na bazie pisemnej "konstytucji" reguł (np. "bądź pomocny, ale nie szkodliwy"). 3) Interpretability — patrzenie do środka modelu, żeby zrozumieć "co myśli" przed odpowiedzią.
Dlaczego Cię obchodzi? W krótkim okresie: alignment decyduje, czy ChatGPT odmawia napisania pism z mową nienawiści, czy Claude nie pomoże w przygotowaniu broni biologicznej. W długim okresie: gdy AI stanie się coraz potężniejsze, alignment decyduje czy będziemy mieli kontrolę. Anthropic (twórca Claude) został założony specjalnie z myślą o alignment — to ich centralny problem badawczy.