honzako: A kolik času strávils psaním low-level kódu v asm nebo třeba použitím C++ intrinsics pro nějakou architekturu?
To co píšeš k tématu prostě nedává smysl, sorry

Hodně lidí chce psát obecný kód aniž by museli cílit na nějakou architekturu, na druhou stranu pro netriviální věci máme knihovny, které už cílit můžou, i triviální memcpy má různé implementace pro dosažení maximálního vykonu.
Když jde o základní operace, tak všechny architektury jsou si víceméně podobné, ale používáním základních operací nikdy člověk nedosáhne maximálního výkonu. Dnešní CPU dokáže zpracovat 4-8 instrukcí za jeden cyklus a tady se bavíme jak o základních operacích tak o využití SIMD, a proto je SIMD instrukční sada tak zajímavá, protože když se použije dobře, tak za 1 cyklus se dokáže zpracovat mnohem víc dat (a v podstatě za stejnou cenu). V tomto případě nemluvím jen o tom iterovat nad nějakým polem a něco počítat, SIMD se dnes hodně využívá i k naprosto základním věcem jako třeba zkopírování nějaké struktury (fixní délka) nebo na akceleraci nějaké operace, která má fixní počet elementů (pole, struktura, atd...), akcelerace hash tabulek je taky hodně zajímavé téma (s využitím VPSUFB), atd...
Takže ne, architektura je opravdu důležitá a když se věci udělají dobře, tak i blbá hash tabulka může být 5x rychlejší než při použití obecné implementace bez optimalizací. Třeba toto video je celkem zajímavé a k tématu:
https://www.youtube.com/watch?v=DMQ_HcNSOAI