Microsoft

Pagina principală - privesc.eu

Pagina principală - privesc.eu

Site-ul Privesc.Eu a început simplu de tot. Un site pe wordpress și embeduri video de pe ustream.tv. Timp de 10 ani, rezolvând problemele una câte una, am construit un sistem scalabil și destul de complex. Anume rezolvarea acestor probleme grele m-au motivat să construiesc acest sistem. Dacă era simplu, cred că cedam.

Privesc.Eu de unii este considerat mass-media, de alții startup tehnologic. Noi credem că suntem undeva pe la mijloc. În situații excepționale, cum ar fi alegeri naționale sau revolte, acest sistem are cel mai mare trafic din țară. Maximum atins este peste 30 mii oameni live. În acele zile, mare majoritatea a televiziunilor preiau imaginile video de la noi.

Articolul este dedicat celor care vor să construiască un startup. Să aibă o impresie despre tehnologiile care trebuie să le învețe și să le mânuiască pentru a construi o companie. Din experiența mea - 90% din timp este dedicat anume citirii documentației și integrării acestor servicii și doar 10% - programării.

Aici nu voi vorbi despre oamenii care zi de zi întrețin acest sistem sau care transmit live-uri. Munca lor e enormă - peste 36 mii de ore de transmisiuni live.

În continuare, pentru curioși, un longread tehnologic.

BROWSER. Când un om deschide www.privesc.eu, să vadă un live, în spate stau o mulțime de servere legate între ele prin microservicii. Unele servicii sunt construite de mine altele sunt cumpărate și plătite lunar. Unele servere stau în cloud, altele împrăștiate prin Europa. Fiecare decizie are un tradeoff, cost/performană. Dacă le greșești, compania poate chiar da faliment.

WEB. Site-ul www.privesc.eu este hostat pe Microsoft Azure (prefer această platformă, față de AWS sau Google Cloud, le folosesc și pe celalte dar la alte proiecte) este construit pe framework-ul ASP.NET MVC. Pingdom, de câți va ani, îmi arată uptime 100%. Aceasta este primul indiciu de calitate a unui site. Să nu cadă! Site-ul rulează pe minimum 2 web servere și se autoscalează până la 100 de servere în dependență de volumul de oameni care privesc. Limita de minimum 2 servere am impus-o din cauza că avem widgetul privesc.eu care este embedat pe mii de site-uri. Dacă vom pica se va vedea pe tot Internetul 😀

DB. Serverele web au în spate o bază de date SQL Server. Acolo se păstrează toate informația despre live-uri, titluri, operatori, camere, servere, utilizatori, autorizări… Fără această bază de date nimic nu funcționează. Folosesc Azure SQL Server care îmi asigură un uptime de 100%.

CACHE. Este destul de costisitor să interpelezi baza de date la orice flecușteț. Pentru a minimiza interpelările folosesc un Redis Cache Server as a service din Azure, care îl poți scala în dependență de necesități. Cache centralizat prin Redis e necesar mai ales când servere se autoscalează și nu trebuie de repopulat informația la fiecare server nou pornit. Mai folosesc și cache in memory pentru unele taskuri mici.

STORAGE. Cea mai mare problemă la privesc.eu este stocarea datelor. Avem TB de video care trebuie ținute online. Mai muți TB care trebuie ținute offline (originalele de la camerele de filmat). GB de date care trebuie de interpelat în realtime (contoare și fețele oamenilor). Pentru a micșora cheltuielile, am hotărât ca serverele de stocare video să fie păstrate în țară, în cloud e foarte costisitor. Avem un server în Moldova la Moldtelecom și altul în România la 2KTelecom. Ambele servere umplute până la refuz cu HDD-uri în RAID0. Folosim RAID0 pentru că la fluxuri mari de cereri alt tip de RAID nu face față. 

VIDEO: De la început am hotărât să folosim camere de înregistrare video pentru începători. În timp, camerele pentru începători au devenit foarte bune. La ce facem noi sunt, uneori, mai bune decât cele profesioniste. Zoom mai mare, sunt foarte ușoare și ieftine. La proteste ne ajută mult. Camerele sunt Sony AX53 4K .

AUDIO: Spre deosebire de profesioniști care folosesc microfoane prin wireless analogic, mari și cu logouri pe ele, noi ne folosim de microfoane mici bluetooth Sony ECMW1M Wireless sau microfoane Zoom H5 și pe post de mini mixer audio. Sunt ieftine, micuțe. Uneori paza de stat ne creează probleme cu bruiajele.

ENCODER: Am început cu notebook-uri, 10 ani în urmă. Camera video prin A/V cablu conectate la un convertor USB apărea ca o camera web în windows și prin Adobe Media Encoder transmiteam prin protocolul RTMP la serverele Wowza. An de an scanam ce apare nou în acest domeniu să fie ieftin și bun. Până am dat de Teradek VidiU.

BROADCAST: De obicei transmisiunile de la encoder la serverul central se face prin modeme 4G. Toți cameramanii au minim câte 2 modeme de la diferiți operatori de telefonie mobilă. Rareori facem prin cablu. În Moldova utlizăm Orange și Unite, în România Orange și Telekom. Nu ne folosim de serviciul de bounding, este destul de scump.

LIVESTREAM. Servere de stocare, care nu prea sunt expuse publicului, mai îndeplinesc și funcția de a primi semnalul video de la cameramani, de autoînregistra și servi video pentru serverele de cache video. Ele sunt interconectate între ele. Dacă un video din România este cerut din Moldova este tras mai întâi în Moldova și apoi este mai departe servit prin serverele cache. Pe aceste servere mai rulează și IIS care are soft făcut de mine. Mă ajută la thumnails, gif-uri, extragere de sunete, să pornească restreamuri sau să permit TV-urilor să poată descărca din arhivă.

CACHESTREAM. Aceste servere sunt cele mai expuse publicului și uneori servesc peste 15GB/s de informație video. Ele rulează pe nginx/docker/ubuntu. Misiunea lor e simplă - vine un http request la un chunk video din un fișier .hls, și dacă nu-l are, îl cere de la serverul de stocare, și păstrează acel chunk de video .mp4 local timp de 30 min. Când priviți video online, de obicei nu vine un fișier de câțiva GB pe local ci sunt trase fișere mici a cât 2-3MB de câteva secunde. Aceste servere sunt așa de solicitate încât undeori cedeză cartelele de rețea. Pentru a evita problemele cu cădearea lor, serverul de monitorizare periodic verifică dacă aceste serverele cache răspund înainte de a trimite oameni spre ele. Privesc.Eu are astfel de servere la Starnet (Moldova), Hetzner (Germania), Digital Ocean (Amsterdam). Au storage mic și sunt pe SSD.

P2PSTREAM: Tehnologie testată cu 2 companii și implementată. Acum este nefuncțională, însă o pot activa în situații de criză. Este mai ieftin traficul în MD decât P2P 😉

COUNTERS: Mulți clienți de ai nostri cer datele despre live-uri. Am creat un sistem de contorizare. O problemă netrivială când ai sute de cereri pe secunde și trebuie agregate datele în timp real de la mai multe servere www. Pentru asta am folosi Azure Table Storage fiecare servere înscrie acolo numele lui, ce live și câte vizualizări. Mai contorizăm și pe ce site-uri au apărut live-urile și păstrăm titlu site-ulu și pagina unde a apărut. Datele acestea sunt păstrate pe serverul Redis.

FACE RECOGNITION: De vreun an am adăugat această funcționalitate care scanează înregistarea video, găsește toate fețele. Le clasterizează astel ca să fie fiecare claster să fie aceași persoană. Memorizează unde acea față a apărut și vectorul care identifică acea față. Pentru procesarea video folosesc un calculator de birou cu 12 procesoare care 24/24 descarcă fiecare video de pe serverele de stocare, rulează face recognition și apoi aceste rezultate se salvează în cloud pe CosmosDB. CosmosDB e cea mai rapidă și scalabilă baza de date din lume. Iar imaginile se stocheză ca blob-uri în Azure Blob storage. CosmosDB a ajuns la 25GB și fiecare request e sub 10ms. 😝

CHAT: Practic e resursa care consumă cel mai mult serverele www atunci când mii de oameni stau pe pagina care are un chat. Serverele trebuie să țină conexiuni active cu toți cei care privesc - să primească și să trimită mesaje. Cererea crește exponențial față de numărul de oameni activi. Folosesc tehnologia SignalR de la Microsoft și serverul Redis pentru comunicarea între serverele www. În paralel serverele www primesc prin webhooks și comentariile de la live-urle difuzate pe Facebook.

DDOS: Cloudflare Un serviciu foarte util care te protejează contra atacurilor. Noi îl folosim pentru a minimiza cheltuielile de trafic la thumnails și player-ul video. Economisim TB de date doar folosind acest serviciu foarte comod. Deasemnea și DNS-urile stau aici care rapid pot fi modificate.

EMAIL: Trimitem lunar peste 40 mii de email-uri, alerte, rapoarte la organizatorii, începutul de transmisiune, închiderea, fotografii și statistică. Folosim de ani buni serviciul SendGrid. Este simplu și eficient. Serverele noastre de email sunt hostate de Gmail.

SMS: Transmitem lunar câteva sute. Folosim pentru comunicare urgentă cu cameramani și cu organizatorii. Oricine poate apăsa butonul Raportează de sub live și trimite un SMS cameramanului. Folosim Nexmo care e destul de bun.

PAYMENT: Aș prefera Stripe însă nu lucrează nici în România și nici în Moldova. Am găsit unul foarte bun - Braintree, care are sistem de subscription. Adică el duce evidența cardurilor bancare și are grijă să extragă banii lunar și dacă nu mai poate - îți raportează. 

NOTIFICATIONS: Avem un server, worker role, care e plin de taskuri repetitive. Serverul trimite notificări la aplicațiile de iOS, Android, Chrome și Firefox. Monitorizeză fluxurile de live stream și imediat ce pică, anunță cameramanul prin Discord și Slack despre problemă.

ANALYTICS: Web, iOS și Android sunt legate raportează la Google Analytics. La serverul web în trecut foloseam un sistem de monitorizare NewRelic. La început era gratuit, apoi când au ieșit la IPO și au anulat planul gratuit am trecut la Microsoft Application Insights.

RESTREAMING: O funcționalitate foarte întrebată la privesc.eu este retransmisiunea pe Facebook și Youtube a live-urilor filmate de noi. Cu aceasta acum se ocupă serverele centrale de stocare. Când imaginea video este nemodificată se utilizează puține resurse CPU. Însă dacă vrem să punem logo-ul privesc.eu servere țin doar 4 live-uri în paralel 😔. Pentru a scala această problemă am construit un docker care automat se pornește în cloud și se oprește când live-ul se deconectează. Suntem acum în faza de testare.

TRANSCRIPTION: Este un sistem intern dezvotat pentru a transcrie video manual, importa sau recunoașterea vocii. Cu recunoașterea vocii va trebui de mai așteptat. Ne-am integrat cu Google Speech Recognition însă e destul de prost în limba română.

PHOTO: Fotograful după ce fotografiază la eveniment încarcă pe loc toate fotografiile pe iPad apoi de pe iPad le trimite pe server. Fotografiile se stocheză în Azure Blob Storage și alertăm organizatorul cu un email. Toți oamenii de pe chat deasemnea primesc alerte despre fotografiile încărcate. Utilizatorii pot descărca aceste fotografii una câte una sau toată arhiva.

SEARCH: La început căutam doar cuvinte în titlurile evenimentelor prin SQL. Săptămâna aceasta îm integrat Azure Search, care indexează, titlurile, tag-urile și transcrierile și practic instant îți dă rezultatele. Este un serviciu de search foarte flexibil în interpelări care înțelege și limba română. Rezultatele pot fi ordonate după rank sau timpul de înregistrare.

SEO: Paginile de la privesc.eu de obicei au multe componente: chat, fețe de oameni, agenda, linkuri cu alte portaluri care se generează dinamic. Pentru a servi aceste pagini foarte rapid search-urilor este un serviciu bun - prerender.io. El deschide pagina cerută în chromeless procesază exact cum o face un browser și stocheză plain html în memorie. La o a doua cerere răspunde instant. Privesc.Eu are peste 90 mii de pagini și crawlerele cer mii de pagini pe zi. Pentru a economisi am pornit un Azure Container Instance cu un docker prerender și merge brici.

IDE: Visual Studio 2015 și 2019- dezvoltare web, Visual Studio Code - recunoașterea fețelor. XCode - aplicația iOS. Android Studio - aplicația Android.

LANGUAGES: C# - pentru progamare de web servere. Java - custom plug-in pentru Wowza. Python - recunoașterea fețelor în video. Objective-C/Swift - aplicația iOS, Java/Kotlin - Aplicația Andoid. Javascript/Typescript - Web site. Uneori mă încurc în ele când trec de la una la alta :D.

SOFT: IIS - serverele de stocare, Wowza - livestream, FFMPEG - procesare video, conversie, restream, NGINX - servere cache in reverse proxy.

OS: Windows Server - serverele www și de stocare, Ubuntu - serverele de cache video și recunoașterea fețelor, MacOS - pentru development.

Chiar dacă acest sistem este construit de un singur om, în spatele serviciilor care le folosim stau sute, poate mii de ingineri. Un mare mulțumesc lor, celor care ne ajută ca acest site să lucreze nonstop.

PS. Azi doar blogul privesc.eu a mai rămas pe wordpress. 😉

PS: Următorul post - Cum să contruiești un canal TV funcțional complet autonom.