Fórum Root.cz
Hlavní témata => Hardware => Téma založeno: petr.parolek 29. 03. 2025, 11:48:28
-
Ahoj, včera na mě PC po start OS vykřikuje, že mi kolabuje SSD
smartctl 7.4 2023-08-01 r5530 [x86_64-linux-6.8.0-53-generic] (local build)
Copyright (C) 2002-23, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: SK hynix BC501 HFM512GDJTNG-8310A
Serial Number: FY01N041610201FE6
Firmware Version: 80002C00
PCI Vendor/Subsystem ID: 0x1c5c
IEEE OUI Identifier: 0xace42e
Controller ID: 1
NVMe Version: 1.2.1
Number of Namespaces: 1
Namespace 1 Size/Capacity: 512,110,190,592 [512 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: ace42e 000a05f7de
Local Time is: Sat Mar 29 10:31:04 2025 CET
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0016): Wr_Unc DS_Mngmt Sav/Sel_Feat
Log Page Attributes (0x02): Cmd_Eff_Lg
Maximum Data Transfer Size: 64 Pages
Warning Comp. Temp. Threshold: 81 Celsius
Critical Comp. Temp. Threshold: 82 Celsius
Namespace 1 Features (0x02): NA_Fields
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 3.5000W - - 0 0 0 0 5 5
1 + 2.4000W - - 1 1 1 1 30 30
2 + 1.9000W - - 2 2 2 2 100 100
3 - 0.0350W - - 3 3 3 3 1000 1000
4 - 0.0050W - - 3 3 3 3 1000 5000
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0
1 - 4096 0 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- NVM subsystem reliability has been degraded
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x04
Temperature: 33 Celsius
Available Spare: 100%
Available Spare Threshold: 5%
Percentage Used: 96%
Data Units Read: 115,637,952 [59.2 TB]
Data Units Written: 134,911,514 [69.0 TB]
Host Read Commands: 1,059,061,676
Host Write Commands: 1,289,466,425
Controller Busy Time: 12,310
Power Cycles: 3,841
Power On Hours: 1,716
Unsafe Shutdowns: 150
Media and Data Integrity Errors: 0
Error Information Log Entries: 1
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 33 Celsius
Temperature Sensor 2: 40 Celsius
Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged
Self-test Log (NVMe Log 0x06)
Self-test status: No self-test in progress
Num Test_Description Status Power_on_Hours Failing_LBA NSID Seg SCT Code
0 Short Completed without error 0 - - - - -
Není málo zapsaných dat na SSD? Dává snad HP do svých notebooků SSD nejhorší kvality?
Například levný PATRIOT P300 512GB udává 240 TB, který jsem si musel objednat jako náhradu, má úplně jinou životnost!
-
Taky mi to přijde celkem málo.
Hledal jsem TBW k tomuto modelu, to jsem nenašel, ale našel jsem dotaz uživatele, který s podobným SSD (asi stejný model poloviční kapacity) měl podobný problém:
https://h30434.www3.hp.com/t5/Notebook-Hardware-and-Upgrade-Questions/What-is-the-TBW-on-a-SK-Hynix-BC501-HFM256GDJTNG-8310A/td-p/8108640
Co mě ale zaujalo, je celkem vysoká hodnota: Unsafe Shutdowns: 150
IIRC se mi unsafe shutdownu děje při tvrdém vypnutí (ale ne po stisku tlačítka reset). A taky se mi to dělo u vadného SSD, které způsobovalo restarty.
-
Percentage Used: 96%
Když do SSD nacpeš mrtě dat a třeba moc netrimuješ, nemůžeš čekat, že toho to SSD moc vydrží.
Až si příště koupíš SSD, tak než ho poprvé rozdělíš na pártice, postarej se, aby ses 10% místa vůbec nedotknul (prostě si ho nevšímej). To ti hodně pomůže. A na rozděleném místě (v rámci pártic) nechoď s obsazeností přes 90%, odmazávej čurbes a trimuj.
Návod na likvidaci SSD:
- obsaď 100% místa, rozhodně nenech žádné vyhrazené
- přecpi ho po okraj na 96%
- nestarej se o to, jestli TRIMuješ
- neodmazávej souborový trash (vyčištění disku, mrtě logů, tempy)
- měj málo ramky, abys používal SWAP
- a utíkej si stěžovat na fórum :-D
Pokud z SSD hlavně čteš, klidně ho natřískej až k prasknutí.
Tam se vyplatí se zbavit volovin jako evidence posledního přístupu k souboru (NOATIME) a podobně, ať to SSD neotravuješ se zbytečnou prací.
-
Percentage used neznačí využití kapacity, ale jde o odhad, kolik % životnosti má SSD za sebou: https://www.nvmetools.com/post/nvme-health Například já mám percentage used výrazně nižší než zaplnění SSD. Ale uznávám, že ten název je trochu matoucí.
-
Ok, tak to schovám svůj ohnivý meč zášti.
Nedávno mě nastartoval jeden filuta, který přesně takhle oddělal už druhé SSD a že za to prý můžu já...
Pokud jste disk nepřeplňoval, uklízel čurbes a fungoval vám trim, tak se upřímně omlouvám.
-
Jako dnes si myslím, že oddělat si SSD není až tak snadné:
1. Je IMHO celkem běžné, že OS řeší TRIM, a uživatel nemusí nic dalšího dělat. Jo, na Arch a Gentoo to asi bude chtít součinnost uživatele.
2. Volné místo (vytrimované) se hodí, ale dnes běžně nějaké volné místo nad rámec kapacity je součástí SSD. Takže zaplnit až po okraj nemusí být takový problém. V reportů tu je zajímavá věc, která je trochu v kontrastu s percentage used: Available Spare: 100%. Nevím, jak si to vyložit. Je to opotřebení kvůli jiné metrice, jako třeba Unsafe shutdowns? Je jedna z těchto hodnot reportována blbě?
3. Navíc bych hádal, že dnešní controllery budou zvládat replikovat i obsazené místo. O této funkcionalitě jsem četl tak 10+ let zpátky, dnes bych to čekal jako běžnou věc. Ale tady si jist nejsem, navíc je efektivnější, když toto není potřeba dělat.
4. Dnešní SSD jsou na tom většinou s TBW docela dobře. No, většinou…
5. Jo, swap SSDčku nepomůže, ale na dnešních SSD bych čekal, že se uživatel dříve kvůli swapu unudí k smrti než si oddělá SSD. Jo, na 15 let starém 64GB SSD to bude jiný příběh.
Jo, když SSDčko odchází podezřele rychle, chápu, že vyvstávají otázky, kde se stala chyba. Ale nechci, aby to vyznělo, že se uživatel musí nějak extrémně snažit o SSD starat.
-
Vzhedem k tomu, kolik se muselo vyrobit kusů, se vždy najde někdo s podobným/stejný prolémem. Když píchnete kolo, a někdo jiný někdy taky píchl kolo, tak to přece neznamená, že je něco šmejd.
To, že nemám mít disk zaplněn třeba přes 90% je snad obecná rada odjakživa, vždyť jinak bych nemohl třeba instalovat aktualizace a podobně. Už u HDD pak docházelo k fragmentaci dat s velkým dopadem na výkon a když disk musel mlátit hlavama jak vzteklej, protože jeden soubor byl rozsekán na sto místech, tak to nepochybně taky mělo vliv na živonost.
-
Pokud jste disk nepřeplňoval, uklízel čurbes a fungoval vám trim, tak se upřímně omlouvám.
Technická - jak poznám, že TRIM opravdu funguje? Je nějaká metrika ve SMARTu, která by řekla kolik je toho naalokovaného?
Ptám se, že sice si myslím, že trimuju správně (discard mount option na rootu, ssd u btrfs, discard v crypttab, jednou za tejden fstrim -a), ale jistota je jistota.
-
- obsaď 100% místa, rozhodně nenech žádné vyhrazené
- přecpi ho po okraj na 96%
To mi prijde jako fama, mozna platilo ze zacatku SSD, ale bezne vyrobce nezpristupni celou flash uzivateli, ale ma tam reservu par procent, ktera prave funguje "neni obsazeno cele" a on z ni nema ani nic vyuzito pro realokovani vadnejch "Available Spare: 100%"
- nestarej se o to, jestli TRIMuješ
O to se snad uz X let nemusi starat, viz: systemctl status fstrim.timer
-
Ad volné místo – jasné, že nějaké volné místo se pro většinu použití hodí, ale to je jiná otázka.
Ad ověření TRIMu:
$ sudo smartctl -a /dev/nvme0n1
…
Namespace 1 Size/Capacity: 2,000,398,934,016 [2.00 TB]
Namespace 1 Utilization: 1,305,914,019,840 [1.30 TB]
A když už to spouštím, vidím tu i zmínéně Percentage Used, které na mém SSD (Samsung 990 Pro) rozhodně neodpovídá zaplnění:
Percentage Used: 8%
-
[...] Available Spare: 100%.
Nevím, jak si to vyložit
Tak ze SSD zatim nevyuzilo ani kousek z te reservy nad ramec dostupne kapacity uzivateli ;-)
-
[...]
A když už to spouštím, vidím tu i zmínéně Percentage Used, které na mém SSD (Samsung 990 Pro) rozhodně neodpovídá zaplnění:
Percentage Used: 8%
To neni zaplneni, ale ~"vycerpana zivotnost", 100% by odpovidalo ze uz je na hranici predpokladane zivotnosti, ale neznamena to ze by muselo uz odejit nebo byt vadne... viz napr. (https://stackoverflow.com/a/79424012)
-
Tak ze SSD zatim nevyuzilo ani kousek z te reservy nad ramec dostupne kapacity uzivateli ;-)
To jsem pochopil, ale pokud budu předpokládat, že to opotřebení souvisí s opotřebením buněk, čekal bych při 95% SSD, že už tu bude nějaké využití spare kapacity. I když na druhou stranu, pokud se ta spare kapacita používá průběžně, asi to tak může být.
To neni zaplneni, ale ~"vycerpana zivotnost", 100% by odpovidalo ze uz je na hranici predpokladane zivotnosti
Vím, psal jsem to v dřívějším příspěvku. Tady jsem jen pro úplnost uvedl konkrétní situaci, kde to zjevně nemůže být zaplnění.
-
BTW: Crucial P3 4TB NVMe (https://www.crucial.com/ssd/p3/ct4000p3ssd8) (TBW: 800), v primarnim pracovnim NB...
Kupovan pred 21mesici, SWAP pouzivan minimalne 1x denne pro hibernaci (32GB RAM)
sudo smartctl -x /dev/nvme0n1 | grep -e ^Model -e ^Available -e ^Data -e ^Power -e ^Percent
Model Number: CT4000P3SSD8
Available Spare: 100%
Available Spare Threshold: 5%
Percentage Used: 3%
Data Units Read: 18 603 341 [9,52 TB]
Data Units Written: 23 404 654 [11,9 TB]
Power Cycles: 1 053
Power On Hours: 5 463
-
BTW: Crucial P3 4TB NVMe (https://www.crucial.com/ssd/p3/ct4000p3ssd8) (TBW: 800), v primarnim pracovnim NB...
Kupovan pred 21mesici, SWAP pouzivan minimalne 1x denne pro hibernaci (32GB RAM)
sudo smartctl -x /dev/nvme0n1 | grep -e ^Model -e ^Available -e ^Data -e ^Power -e ^Percent
Model Number: CT4000P3SSD8
Available Spare: 100%
Available Spare Threshold: 5%
Percentage Used: 3%
Data Units Read: 18 603 341 [9,52 TB]
Data Units Written: 23 404 654 [11,9 TB]
Power Cycles: 1 053
Power On Hours: 5 463
To percentage used mi příjde že nesedí, 11.9 TB ze těch 800 je cca 1.5%. Nebude nějaký výstražný kurvítko, který bude hlásit 100% used při zapsaný polovině živitnosti???? Noa uživatel pak bude měnit a měnit a měnit.... dost možná dobrý disky.... ?
-
Ad ověření TRIMu:
Hmm, zajímavé, jeden disk hlásí, druhý ne. Tak proto jsem to nemohl najít, díky za nasměrování.
Model Number: Samsung SSD 970 EVO Plus 1TB
Serial Number: S4EWNX0T813293M
Firmware Version: 2B2QEXM7
...
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization: 603,438,415,872 [603 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5821b0611f
vs
Model Number: XPG SPECTRIX S40G
Serial Number: 2O022L1EC9DC
Firmware Version: VB421D70
...
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 707c18 14c53dbffb
-
To percentage used mi příjde že nesedí, 11.9 TB ze těch 800 je cca 1.5%. Nebude nějaký výstražný kurvítko, který bude hlásit 100% used při zapsaný polovině živitnosti???? Noa uživatel pak bude měnit a měnit a měnit.... dost možná dobrý disky.... ?
Podle me v tom percentage used neni pouze pomer zapsanych Vs TBW, ale zohlednuje i dobu behu, protoze pokud vim u disku se obecne pise neco jako: je delan na X TBW nebo Y hour, podle toho co prijde drive :)
Zaroven 100% neznamena ze to ma za sebou, nekde sem zahlidl ze ta hodnota ma hranici 250%, zaroven i pres 100% to porad muze bezprobelmu behat a neni potreba to menit, pokud si to hlidas, mas zalohy (ktere bys mel mit i pri 0% ze ;-)
-
Ahoj, včera na mě PC po start OS vykřikuje, že mi kolabuje SSD
SMART overall-health self-assessment test result: FAILED!
- NVM subsystem reliability has been degraded
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x04
Tohle je proste varovani - 0x04 = NVM subsystem reliability has been degraded
Konkretneji:
Bit 2: If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant
media related errors or any internal error that degrades NVM subsystem reliability
https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf
(strana 122)
Nema vubec smysl resit proc - tohle je ucelem SMART technologii - aby ti dali vedet vcas, ze ti disk odchazi a podle me to zafungovalo velice dobre. Dalsi krok je uz critical error 0x08 = read-only mode. A to uz typicky nedokaze nabootovat OS a budes muset hledat ctecku pripadne Live distro.
Takze bych to odzalohoval a disk vymenil. Pripadne to muzes reklamovat, pokud na to mas zaruku.. bohuzel u techto OEM disku pro brandove vyrobce neni nikdy jasna specifikace pro TBW, ale to v tomto pripade ani nepotrebujes prokazovat - proste disk rekl ze je vadnej, to se ti uzna rovnou.
Ad Percentage used, linkovany dokument na strane 122 zminuje:
Percentage Used: Contains a vendor specific estimate of the percentage of NVM subsystem life used based on the actual usage and the manufacturer’s prediction of NVM life. A value of 100 indicates that the estimated endurance of the NVM in the NVM subsystem has been consumed, but may not indicate an NVM subsystem failure. The value is allowed to exceed 100. Percentages greater than 254 shall be represented as 255. This value shall be updated once per power-on hour (when the controller is not in a sleep state).
Refer to the JEDEC JESD218A standard for SSD device life and endurance measurement techniques.