ismét itt

Néhány év kihagyás után ismét a bloghu-n is! Lesz itt kérem hír, nanogrammban mért vélemény, okosságok, minden, mint a búcsúban! Tessék, csak tessék!

See also...

About

 

bardóczi ákos CV site

 

 

daily tweets from bardóczi Follow me @bardoczi

 

 

LinkedIN - ákos bardóczi LinkedIN

 

 

My stuff on the web

 

 

bardoczi.blog.hu bardóczi in da bloghu

 

 

bardóczi ákos postr áko.s @Post.r

 

 

blog.bardoczi.net bardóczi Tumblarity

 

 

science.bardoczi.net I'm, the bookworm

 

 

ákos*Blog*Spotting ákos*Blogspotting

 

 

bardóczi on Wordpress bardóczi on Wordpress

 

 

My Quora blog My Quora blog

 

 

LiveJournal brainstroms from me ákos Journal

 

 

Stay connected!

 

 

ákos on Google+ follow me on Google+

 

 

ákos VKontakte ákos VKontakte

 

 

ask me anything! Ask difficult questions on InnoCentive

 

 

My Quora blog Ask me anything on Quora

 

 

 

ResearchGate sciencific network Researchgate connect

 

 

More great stuffs

 

 

Are you ELEQT member? Feel free to connect me! ELEQT

 

 

BoaW my BestOfAllWorlds profile

 

 

bardóczi ákos on ASW my ASW profile

 

 

Expatriate Community for Expats worldwide InterNations.org

 

 

Old school contact:
akos@cerp.ch
PGP-fingerprint:
B29C CF16 B1AA 13FC 54E4 A912 D720 4E1C 899A 6E0C





Hirdetés


Nyelvek, kultúrák, globális biztonság és a nyílt-forrású információszerzés

2017.08.21. 13:54 | bardóczi ákos | Szólj hozzá!

Címkék: agymenés nyelv tudat deep web OSINT hidden services

osint-nyelv-kultura.jpgMár korábban írtam róla, hogy a deep webbel kapcsolatban, főleg a méretével kapcsolatban micsoda zavar van a fejekben.

Abba most nem megyek bele, hogy miért a nehezebben vagy valamilyen módon költségesebben elérhető információ élvez mindig előnyt, természeténél fogva miért lesz mindig értékesebb, mint a könnyen kitúrható, akit érdekel, nézzen után a "miért vonzó, ami ritka?" vagy hasonló kérdésnek az evolúciós pszichológia területén.

Ha felteszem a kérdést, hogy a legtöbb, kereshetetlennek hitt, hidden servicekben létező, értelmes tartalmat fedő link az alábbiak közül honnan kukázható ki, alighanem a legtöbben azoknak a beidegződéseknek megfelelően válaszolnának, amiket kulturálisan a felhasználóba klopfoltak a web általános felhasználói szokásai. Szóval honnan is?

1. sehogy, de tényleg!
2. Google-ben nem indexelt, alternatív keresőkkel elérhető motorok
3. nagy keresőkben nem indexelt, de surface weben lévő blackhat fórumok
4. a deep web belső keresőmotorjai
5. kőkeményen fizetős adattárházak
6. Facebook

Jó, jó, konkrétan a nagyon-nagyon nehezen kivájható információ kereshetőségével foglalkoztam az elmúlt pár hónapban, mert végülis azelőtt is csak más technikával, aztán a napokban szembesültem pár kínos ténnyel.

Az egyik, hogy amit kikutattam, már megtalálta más, igaz, nem pontosan azt, nem pontosan annyit, nem úgy, nem is olyan régen, de mégis.

A másik, hogy mindez szép és jó, viszont kérdés, hogy mennyire használható ténylegesen a recon fázisban, ha etikus hekkelésről, ehh bocsánat, szóval szoftvertesztelésről, na meg threat intelligenceről van szó. Amiben biztos vagyok, hogy a módszer univerzálisan használható, bármilyen irányú OSINT-vájárkodásról legyen is szó.

A harmadik dolog pedig egy tudományfilozófiai természetű kérdés. Azt kiméricskélték, hogy a teljes univerzum tömege 10 az 55-edik hatványon, mármint grammban. A Nagy-Fermat-sejtést bebizonyították, ugyan teljes egészében még senki sem olvasta el, leszámítva azt a figurát, aki a fél életét feltette rá és megfelelően belőtte, hogy hogyan lehetne a legjobban alkalmazni az automatikus /*gépi*/ tételbizonyítást a probléma megoldására, a párezer oldalas bizonyítás ma már nem is számít olyan nagynak (!!). Amikor az ökológus megpróbálja megállapítani, hogy mennyi verőköltő bodobács él konkrétan a Hortobágyi Nemzeti Parkban nemzeti parkban, akkor nyilván nem számolja meg az összeset, hanem alkalmaz egy kis trükköt, amiből aztán ki lehet matekozni, hogy négyzetkilométerenként mennyi, ennek megfelelően összesen mennyi. /*Ha most valaki úgy gondolná, hogy az extrapolációs módszerek mindig a legjobbak, nem feltétlenül, amúgy meg én sem tudom, mert nem vagyok sem ökológus, sem statisztikus.*/ Az eredeti témához visszatérve mi a nagy helyzet akkor, amikor tehát meg kell állapítani, hogy a legtöbb _értelmes_ információ ebben, abban vagy amabban a térben létezik? Jó esetben nem szúrtam el sem a mintavételezés módját, sem pedig a kiválasztott technikákat és a munkahipotézissel kapcsolatos előfeltevés sem zavart be nagyon. Viszont egy hipotézis állítása elfogadható-e tényként, ha konkrétan bizonyítani nem lehet, viszont minden, adott pillanatban rendelkezésre álló információ azt támasztja alá, hogy igen, tényleg az adott helyen van a legtöbb ilyen infó és semmi sem cáfolja azt érdemben?

A termodinamika 0. főtételét sem lehet bizonyítani olyan módon, mint a többi fizikai összefüggést, viszont feltétel nélkül elfogadjuk, mivel sosem találtunk még kivételt a természetben, ami ellentmondana nekik, a rá épülő modellek pedig működnek. /*elméleti fizikusok, szedjetek szét!*/

Lényeg, hogy az információ, na meg a kereshető információ mennyisége ha véges, akkor nyilván mérhető is. De kellően sok ahhoz, hogy ne lehessek benne 100+1%-ig biztos, hogy semmit sem csesztem el. A kutatás kezdetekor pedig a kérdésfeltevés nem is az volt, hogy "hol mennyi kilóra?", hanem az, hogy egy elfeledett módszer mennyire és hogyan használható, mik annak a korlátai, az pedig egy mellékes megfigyelés volt, hogy ott találjuk a legtöbb _értelmes_ deep webes hivatkozást, ahol ember nem gondolta volna.

Semmilyen természetfölötti izében' nem hiszek, de ma reggel komolyan arra gondoltam, hogy olyan, mintha valamilyen természetfölötti erő alakította volna úgy, hogy a tényleges, kereshető adat illetve információ megmaradjon, ha értelmes, a többit meg elnyelte volna egy neutroncsillag vagy fekete lyuk. Vagy csak ez a benyomásom! Ahogy a mainstreamben lehetett olvasni, hogy bizonyos országokban az emberek azt hiszik, hogy a Facebook maga az internet, az átlag felhasználó meg abban a tudatban él, hogy a web maga a teljes internet, az advanced user meg azt gondolja, hogy a web és a P2P hálózatok tartalma az internet, én most azt gondolom, hogy a teljes internet kiegészül egy olyan darabbal, amit kereshetetlennek hittek, viszont ez is csak illúzió, ami végülis abból adódik, mint bárki másnál: alapvetően azt hiszem létezőnek, amit látok.

Kicsit hasonló a jelenség ahhoz, hogy amikor valaki információt keres a neten, akkor nem is nagyon próbálkozik az anyanyelvén és az angolon kívül mással, annyira természetesnek veszi, hogy ami információ, az csak ilyen nyelvű lehet. Holott jól belőtt becslés szerint ami a webet illeti, annak csak 49%-a angol nyelvű, én ezt még kevesebbre saccolom, mert az interneten a nyelvek eloszlásával kapcsolatos kutatásokat angol nyelvterületen élő kutatók végezték, ami bejátszhatott abba, hogy végül milyen eredményt kaptak. Szóval nem lennék meglepve, ha még kisebb lenne az angol nyelvű tartalmak aránya, joggal feltételezhetjük, hogy akkor nem csak a weben, hanem a teljes neten is.

Tévedés lenne úgy gondolni, hogy az, ami fontos, idővel úgyis megjelenik angol, orosz vagy spanyol nyelven úgy, hogy az könnyen kereshető is, mert esetleg az adott doksi szerzője nem is foglalkozik vele, hogy amit leír, annak más nyelven is elérhetőnek kellene lennie. Ahol pedig remekül tetten érhető, hogy a keresőmotorok igenis diszkriminálnak, ha a Google/Bing/Yahoo-szenthátomsággal vagy éppenséggel a Yandex-szel keresünk valamit, az milyen tragikusan teljesít olyan nyelvek esetén, amik nem latin vagy cirill betűs írásrendszert használnak. Ennek pedig nem pusztán az az oka, hogy a nagy, jól ismert keresőmotorok fejlesztői in english, en español valamint на русском gondolkoznak, hanem az is, hogy a legnagyobb motorok milyen nyelveken kapják a bemenő adatok legnagyobb részét, ami teljesen világos, hogy kihat a kereső későbbi használhatóságára, éppen azért, mert nyilván egyik sem tisztán izomból megy, hanem hatékony szemantikus keresőeszközként való működésre tanítja önmagát.

Jól ismert, hogy vannak amolyan baráti jellegű nyelvpárok, amikre hatékonyan lehet normális fordítást végző algoritmust írni, megint más nyelvpárokra meg kevésbé, ami ráadásul sokszor nem függ még attól sem, hogy a két nyelv mekkora.

Eléggé gyorsan eljutottunk a nyelvészet egy izgalmas területéhez, a nyelv és kultúra izoláló hatásához, amiről annyit tudok, hogy létezik, a hatása pedig óriási, amúgy meg annyira értek hozzá, mint a harangöntéshez. Hogy szemléletes példát hozzak, ha behajítjuk a keresőbe, hogy

chocolate cake recipes

igencsak releváns találatokat hozunk, ezt akármilyen jól fordítjuk japánra vagy arabra, majd dobjuk be a keresőbe, ugyanaz a kereső már sokkal rosszabbul fog teljesíteni, holott itt egy totál egyszerű keresésről van szó, csokoládétortát meg készítenek arab és japán nyelvterületen is. A piacvezető keresőmotorokat persze annyira nem érdekli, hogy más nyelveken is legyenek nagyon hatékonyak, nem is érdekük, tömegigényt kell kiszolgálniuk. Ez még csak nem is a legjobb példa volt, mert a Google jól felzabálta a közelkeletet is az utóbbi néhány évben, már lassan a http://yoolki.com/, a http://www.eiktub.com/ és a http://www.yamli.com/ is csak amolyan jópofa érdekesség lesz lassan, de hogy kínai tartalmat zsigerből a http://www.baidu.com/ , a https://www.sogou.com/ avagy https://www.360.cn/ motorral fognak keresni többen globálisan nézve, az biztos.

Nem újdonság, elvben egy szorosan összedrótozott világban élünk, gyakorlatilag meg ugyanúgy jelentkezik egyfajta nyelvi és kulturális buborék effektus és naivitás lenne azt gondolni, hogy ez el fog tűnni csak úgy. Ugyanakkor jó tudni, hogy vannak olyan keresőeszközök, amik a hagyományos keresőszolgáltatásokkal összemérve szemantikus keresés terén sokkal butábbak, viszont hatékonyabbak ha kultúrafüggetlen keresésről van szó.

A nyelvi- és kulturális izoláció, mint a kutatást hátráltató tényező, már rég ismert. Abban meg aztán semmi meglepő, hogy mindez jelentkezett az interneten is. Hogy hogyan lehetne feloldani a jelenséget - és egyáltalán fel kell-e oldani? - persze nem tudom. Amit viszont igen, hogy mindenki jobban járna, ha a nyelvtechnológus nem lenne rá lusta, hogy megértse az etikus hekker, a szociológus és a pszichológus gondolkodásmódját, az etikus hekker szánna rá időt, hogy _hogyan__gondolkoznak_ a világ túloldalán, na meg mindezek összes permutációja. Nem csak a tudomány, úgy mindenestől járna jól vele, de a globális biztonsági kockázatok, informatikai biztonsági kockázatok vagy trendibben fogalmazva a globális kiberbiztonsági kockázatok kezelése is hatékonyabbá válna, márpedig ezek egyre inkább a klasszikus biztonsággal összefonódva léteznek, nem pedig amellett. Ki tudja? Legrosszabb esetben ennek elmulasztásával a civilizáció kihalását okozzuk - amit minő manír, éppen a nyelvhasználat megjelenése tett lehetővé.

Ha már ennyire elkanyarodtam az eredeti topiktól: vérprofi bugvadász és fejlesztő kollégák! Tegyétek a szivetekre a kezeteket és valljátok be, hogy nem is gondoltátok, hogy programozási nyelvek közt is vannak olyanok, amikben a teljes szintaxis nem a megszokott latin írásrendszert követik, de szóhasználatukban is hajaznak kicsit arra a kultúrára, amiben keletkeztek! Nem kevés ilyen van. Mindez valamit gyönyörű szépen megmutat, de előtte egy kis kitekintést kell tennem. Ahogy az Arrival c. Amy Adams filmben úgy kábé minden bevezető szintű nyelvészeti kurzuson felmerül több kérdés - meg biztos a kocsmában is - az pedig a nyelv és a tudat viszonya. Az univerzalizmus szerint a gondolkodás meghatározza a nyelvet, a nyelvek közt csak felszínes eltérések vannak. A determinizmus szerint az anyanyelv meghatározza a beszélő gondolkodását. A relativizmus szerint a jelentéstani kategóriák kihatnak a gondolkodásra, de nem határozzák azt meg teljesen. Minddel kapcsolatban pár remek és egyszerűen magyarázó példát találhatunk Trón Viktor és Kálmán László Bevezetés a nyelvtudományba c. könyvében:

Ma is sokan azt gondolják, hogy az egyes nyelvek szóhasználati, grammatikai különbségei egyértelműen a yelvek beszélőinek sajátságos gondolkodását tükrözik. Annyi bizonyos, hogy szoros összefüggés van aközött, hogy milyen kifejezések vannak egy nyelvben, és hogy milyen fogalmak, megkülönböztetések vannak a beszélők fejében. A szakembereknek is sok olyan szavuk van, amelyet mások nem használnak. Hiszen azokat a dolgokat szeretjük megnevezni tudni, amelyek fontosak az életünkben; ez nem túl meglepő állítás. A halászok sok halat ismernek és neveznek meg, napjaink számítógépes gurui szintén sok olyan fogalmat ismernek (és ezért nevet is adnak nekik), amelyet a közönséges halandó nem.

Nézzünk egy példát arra, hogy az egyes nyelvek milyen dolgok között tesznek különbséget. A francia parmi
és entre elöljárószót magyarul egyaránt között-nek kell mondani, jelentésbeli különbségüknek a magyarban nincs megfelelője:
(1)
A között két francia megfelelője

a.
Mon arbre est parmi les autres arbres.
az én . . . -m fa van között a többi fák
’Az én fám a többi fa között van’

b.
Jean est entre les deux arbres.
János van között a két fák
’János a két fa között van’

Tehát a parmi azt jelenti, hogy ’közülük az egyik’, míg az entre azt, hogy 'közöttük elhelyezkedő'. Vagy vegyük az álmosság különböző kifejezéseit:

(2)
Az álmosság két különböző kifejezése

J’ai sommeil.
nekem van álmosság
’Álmos vagyok’

Ezek a különbségek tényleg azt takarnák, hogy a francia és magyar beszélők másképp gondolkodnak a dolgok térbeli elhelyezkedésével, illetve az álmossággal kapcsolatban? Távolról sem. Az, hogy mindkét nyelvben ugyanúgy gondolkodnak, leginkább ott érhető tetten, hogy ugyanazon tényekből azonos következtetésekre jutnak.

valamint

Eleanor Rosch (?–) kísérletei bizonyították, hogy a dani nyelv beszélői, akik csupán két színnevet különböztetnek meg a nyelvükben, ugyanolyan teljesítményt nyújtanak a tizenegy ún. fokális szín azonosításában, mint azok, akiknek nyelvében mind a tizenegy színnév szerepel (a dani nyelvet mintegy 180 ezer pápua beszéli Új-Guinea nyugati részén). A nyelvi relativizmus még enyhébb változata viszont, miszerint a nyelvi kategorizáció hatással van az emlékezetre, és így közvetve kihat a gondolkodásra, számos kísérlet fényében valószínűnek tűnik.

/*kiemelés tőlem*/

Röviden azt is mondhatnám, hogy mondjuk a polinéziai kannibálok nem azért nem beszélnek határozott integrálról, mert nem tudnák mentálisan reprezentálni azt, hanem azért, mert nincs benne a kultúrájukban és kész, de ha benne lenne, tudnának róla beszélni.

Na de most hogyan kapcsolódnak ide a nem latin írásrendszerű programozási nyelvek? Hogy bizonyos alapkoncepciók egyeznek az olyan jól ismert nyelvekkel, amik akár a jól ismert procedurális vagy éppen funkcionális programozási nyelvekben ismertek.

kép: allthingslearning.wordpress.com